Develop applications with strong audio and visual understanding, for rich multimodal support.
令人意外的架构决策:音频输入能力是 E2B/E4B 专属的,反而是更大的 26B 和 31B 模型不支持音频。这意味着 Google 刻意把语音能力部署在边缘端——暗示他们对端侧语音助手场景的押注,而非将音频作为云端大模型的特权能力。小模型反而是音频 AI 的「第一公民」。
Develop applications with strong audio and visual understanding, for rich multimodal support.
令人意外的架构决策:音频输入能力是 E2B/E4B 专属的,反而是更大的 26B 和 31B 模型不支持音频。这意味着 Google 刻意把语音能力部署在边缘端——暗示他们对端侧语音助手场景的押注,而非将音频作为云端大模型的特权能力。小模型反而是音频 AI 的「第一公民」。