hybrid architectures (for example, Nemotron 3, and Arcee Trinity), state space layers (Nemotron 3 and Mamba-3), MoE capacity allocation
大多数人认为LLM架构将继续遵循纯Transformer路径,但作者指出2026年的趋势是混合架构,结合Transformer与状态空间模型。这一反直觉观点挑战了行业共识,表明纯Transformer架构可能不是最优解,混合设计在长上下文处理上更高效。