4 Matching Annotations
  1. May 2026
    1. SubQ's research model performs on up to 12 million tokens, while other frontier models break down well before their stated 1M-token limit.

      SubQ研究模型可处理高达1200万token,而其他前沿模型在达到其声称的100万token限制前就已崩溃。这个对比数据点突显了SubQ在上下文长度方面的显著优势,是AI架构的重大突破。

  2. Apr 2026
    1. 🔹 **1M Standard:** 1M context is now the default across all official DeepSeek services.

      DeepSeek V4将上下文长度提升到100万token,成为行业新标准。这一数据点意义重大,相比行业常见的32K-128K上下文窗口,提升了约8-31倍,能处理更长文档和复杂任务。这需要创新的注意力机制和内存管理技术支撑,文中提到的'Novel Attention: Token-wise compression + DSA'可能是实现这一突破的关键。

    1. MegaTrain also enables 7B model training with 512k token context on a single GH200.

      令人惊讶的是:该系统单块GH200 GPU就能支持7B模型进行512k token的上下文训练,这远超当前主流模型的上下文长度限制。这种超长上下文能力可能彻底改变大模型处理长文档、代码库或书籍的方式。