5 Matching Annotations
  1. May 2026
    1. The best agent businesses are going to need to execute like hedge funds — winning on alpha measured in customer P&L, not in benchmark scores.

      这句话用对冲基金作为比喻,生动地描述了优秀AI应用公司的成功标准。作者指出,这些公司需要在客户的实际业务成果(P&L)上获得超额收益(alpha),而不是在通用基准测试上获得高分。这个洞见强调了AI应用公司应该以客户的实际业务价值为中心,而不是技术指标。

    1. their rate of bug-finding has increased by more than a factor of ten

      10倍的漏洞发现率提升是一个关键性能指标,表明AI模型在安全测试效率上的革命性突破。这一数据点特别有价值,因为它直接量化了AI与传统安全方法相比的性能提升。然而,文章没有提供具体的基准测试数据,如之前每小时发现多少漏洞,使得这个'10倍'的相对提升缺乏绝对参考。

    1. With these improvements, we saw close to a 45% improvement in time to first token (TTFT)—which reflects how responsive the API feels—but these improvements were still not fast enough for GPT‑5.3‑Codex‑Spark.

      值得注意的代码示例:通过改进TTFT(首次出字时间)来提升API响应速度。

  2. Apr 2026
    1. Two variants are available: **Sakana Fugu Mini 🐟**, optimized with latency in mind, and **Sakana Fugu Ultra 🐡**, the full orchestration system, optimized for performance for demanding tasks.

      文章提到有两种变体:Mini(延迟优化)和Ultra(性能优化),但未提供具体的性能指标差异,如延迟降低百分比或吞吐量提升数据。这种缺乏具体量化参数的描述难以评估两种变体在实际应用中的性能差异。

    1. Contemplating mode provides significant capability improvements in challenging tasks, achieving 58% in Humanity's Last Exam and 38% in FrontierScience Research.

      这些具体数字展示了多智能体并行推理的惊人效果,接近人类水平的能力提升,暗示了AI协作模式可能成为解决复杂问题的关键路径,而非单纯扩大模型规模。