2 Matching Annotations
  1. Apr 2026
    1. 🔹 **1M Standard:** 1M context is now the default across all official DeepSeek services.

      DeepSeek V4将上下文长度提升到100万token,成为行业新标准。这一数据点意义重大,相比行业常见的32K-128K上下文窗口,提升了约8-31倍,能处理更长文档和复杂任务。这需要创新的注意力机制和内存管理技术支撑,文中提到的'Novel Attention: Token-wise compression + DSA'可能是实现这一突破的关键。

    1. our DFC is architecturally designed with three distinct sections: A shared dictionary, A "French-only" section, An "English-only" section

      Dedicated Feature Crosscoder(DFC)的三段式架构设计是这项研究的核心技术突破:通过分别建立「共享词典」和两个「专属词典」,强制让模型差异特征有独立的表示空间,而非被混入共享特征中。令人惊讶的是,如此影响深远的安全工具,其设计思路竟然与字典编纂学高度同构。