SubQ's research model performs on up to 12 million tokens, while other frontier models break down well before their stated 1M-token limit.
SubQ研究模型可处理高达1200万token,而其他前沿模型在达到其声称的100万token限制前就已崩溃。这个对比数据点突显了SubQ在上下文长度方面的显著优势,是AI架构的重大突破。
SubQ's research model performs on up to 12 million tokens, while other frontier models break down well before their stated 1M-token limit.
SubQ研究模型可处理高达1200万token,而其他前沿模型在达到其声称的100万token限制前就已崩溃。这个对比数据点突显了SubQ在上下文长度方面的显著优势,是AI架构的重大突破。
The release includes DeepSeek-V4-Pro (1.6T total / 49B active) and DeepSeek-V4-Flash (284B total / 13B active), both trained natively at 1M context length.
DeepSeek V4的模型规模之大令人震惊,这表明了在长上下文处理方面取得的显著进步。
🔹 **1M Standard:** 1M context is now the default across all official DeepSeek services.
DeepSeek V4将上下文长度提升到100万token,成为行业新标准。这一数据点意义重大,相比行业常见的32K-128K上下文窗口,提升了约8-31倍,能处理更长文档和复杂任务。这需要创新的注意力机制和内存管理技术支撑,文中提到的'Novel Attention: Token-wise compression + DSA'可能是实现这一突破的关键。
MegaTrain also enables 7B model training with 512k token context on a single GH200.
令人惊讶的是:该系统单块GH200 GPU就能支持7B模型进行512k token的上下文训练,这远超当前主流模型的上下文长度限制。这种超长上下文能力可能彻底改变大模型处理长文档、代码库或书籍的方式。