The coordinator relies on the hidden states of a compact language model and a small routing head. In total, it has fewer than 20K learnable parameters.
作者提出了一种极简的协调者架构,仅使用不到20K可学习参数,这与当前AI模型追求数十亿甚至数万亿参数的主流趋势形成鲜明对比,挑战了'更大总是更好'的行业共识。
The coordinator relies on the hidden states of a compact language model and a small routing head. In total, it has fewer than 20K learnable parameters.
作者提出了一种极简的协调者架构,仅使用不到20K可学习参数,这与当前AI模型追求数十亿甚至数万亿参数的主流趋势形成鲜明对比,挑战了'更大总是更好'的行业共识。
At 770M parameters, a looped model achieves the downstream quality of a 1.3B fixed-depth Transformer trained on the same data — roughly half the parameters for the same quality.
这一发现具有颠覆性,表明循环模型在参数效率上可能远超传统Transformer。如果这一结论成立,那么大模型的发展方向可能需要重新思考——与其不断增加参数量,不如优化循环架构的设计。这挑战了当前'更大即更好'的主流观点。
In 23 months, the same capability that needed 1.8 trillion parameters now fits in 4 billion parameters. A 450x compression
450倍的参数压缩率是一个令人震惊的数字,表明算法优化和模型压缩技术取得了突破性进展。这不仅意味着更低的计算成本,还暗示了我们对AI效率的理解正在发生根本性变化。
E2B & E4B · A new level of intelligence for mobile and IoT devices
「手机和 IoT 设备的新智能层级」——这个定位本身就是宣战书。E2B 有效参数仅 2.3B,却能在不足 1.5GB 内存中运行,并支持 128K 上下文窗口。令人震惊的是,E4B 在多项指标上超越了 Gemma 3 27B——一个 4.5B 的边缘模型击败了 27B 的上一代旗舰。参数效率的边界正在被彻底重写。