6 Matching Annotations
  1. May 2026
    1. 20亿参数对比同体量自回归模型、千亿参数LLaDA2.0,连续路线的scaling曲线健康有效。

      这是一个重要的模型规模对比数据。20亿参数的连续模型能媲美千亿参数的自回归模型,表明连续空间范式在参数效率上有巨大优势。这暗示着未来AI模型可能不再单纯追求参数规模,而是转向更高效的架构设计,对行业资源分配和技术路线产生深远影响。

    1. At 50 million tokens, the design space for AI applications changes fundamentally.

      文章提到5000万token上下文将 fundamentally 改变AI应用的设计空间。这是一个前瞻性的数据点,表明SubQ技术的长期潜力,虽然当前产品仅支持100万token,但架构设计已为未来更大规模应用奠定基础。

  2. Apr 2026
    1. Parameters are estimated by unweighted least squares. Time t is measured in years since the first observation in each dataset.

      研究使用最小二乘法进行参数估计,时间以年为单位从每个数据集的第一个观测点开始计算。这种方法选择是统计标准做法,但未加权处理可能低估了近期数据点的重要性,因为近期数据点通常代表更先进的模型能力。时间单位的选择也影响了增长率解释的直观性。

    1. Without any architectural modification, MinerU2.5-Pro achieves 95.69 on OmniDocBench v1.6, improving over the same-architecture baseline by 2.71 points and surpassing all existing methods including models with over 200× more parameters.

      大多数人认为更大的模型架构必然带来性能提升,但作者仅通过数据工程和训练策略优化,在保持1.2B参数架构不变的情况下,超越了参数量超过200倍的现有模型,这挑战了'越大越好'的行业共识,证明了数据质量的重要性。

  3. Jul 2019
  4. Jun 2019