10 Matching Annotations
  1. Jun 2026
    1. Qwen 3.6 35B-A3B dominates model mentions at 33%, followed by the 27B variant at 20%. DeepSeek Pro & Gemma4 31B round out the top four.

      这篇文章揭示了本地编码模型的选择趋势,其中Qwen 3.6 35B-A3B成为最受欢迎的选择。对于初学者来说,了解这些主流模型选择很重要,但不应盲目追随趋势,而应根据具体需求、硬件条件和任务类型选择适合的模型。

    1. Models are tricky. Budgets prevent defaulting everyone to state-of-the-art. The legion of other models each have a personality.

      作者详细描述了不同AI模型的特性差异,如Kimi K2.6创意性强但精确度较低,Qwen 3.6性能好但可能中断工作流,GLM 5.1擅长编程但速度较慢。这提醒开发者需要根据具体需求选择合适的模型,而非盲目追求最新或最大的模型,同时要注意预算限制。

  2. May 2026
    1. The labs are already routing internally — different model classes for different requests, ensembles under the hood. What they can't do is route across vendors, or evaluate a competitor's model for a specific sub-task, or use an open-source fine-tune for the narrow piece where it's actually best.

      大多数人认为大模型实验室拥有绝对优势,可以解决所有AI问题。但作者认为实验室在模型选择上存在结构性限制,无法跨供应商评估模型或为特定子任务使用开源微调模型。这为专注于特定领域的企业提供了机会,它们可以选择最适合每个子任务的模型,而不仅限于自家实验室的模型。

  3. Apr 2026
    1. gpt-oss-20B (high): 0.7%

      gpt-oss-20B 的成绩是 0.7%——在 452 个专业任务中,只有不到 4 个通过了评测。这个数字与顶级模型的 33.3% 之间,存在近 50 倍的差距。这说明专业服务 Agent 能力不是「渐进改善」,而是存在明确的「能力阶梯」——低于某个规模的模型,在这类任务上几乎完全失效。这对企业 AI 选型的启示:在专业服务场景,「够用的小模型」可能根本不存在,只有「能用的大模型」和「完全不能用的模型」两种。

    2. Cost (USD) to run the evaluation: GPT-5.4 (xhigh): $1,110, Claude Opus 4.6 (max): $1,055

      运行一次 452 个任务的评测,GPT-5.4 花费 1110 美元,Claude Opus 4.6 花费 1055 美元——每个任务平均约 2.3 美元。而 Gemini 3 Flash 只需要 596 美元,实现了 27.7% 的成绩(vs 顶级模型的 33.3%)。这个性价比数据对 AI 选型决策极为关键:如果业务场景可以接受 27% 而非 33% 的成功率,Gemini 3 Flash 能节省近一半成本。在金融服务的大规模部署中,这个差异将被放大数千倍。

    1. we studied emotion-related representations in Claude Sonnet 4.5, a frontier LLM at the time of our investigation.

      【启发】这篇论文只研究了 Claude Sonnet 4.5 一个模型,但它的方法论对所有大模型都适用。这启发了一个迫切的研究议程:对不同架构(GPT、Gemini、Qwen、DeepSeek)的情绪向量进行横向比较,会不会发现系统性的情绪偏差——比如某些模型天生更「焦虑」、某些更「冷漠」?这不仅是学术问题,更是产品选型和安全评估的实际需求。

  4. Aug 2020
  5. Jun 2020