4 Matching Annotations
  1. Last 7 days
    1. Develop applications with strong audio and visual understanding, for rich multimodal support.

      令人意外的架构决策:音频输入能力是 E2B/E4B 专属的,反而是更大的 26B 和 31B 模型不支持音频。这意味着 Google 刻意把语音能力部署在边缘端——暗示他们对端侧语音助手场景的押注,而非将音频作为云端大模型的特权能力。小模型反而是音频 AI 的「第一公民」。

  2. Feb 2025
  3. Jun 2020