7 Matching Annotations
  1. Last 7 days
    1. The best agent businesses are going to need to execute like hedge funds — winning on alpha measured in customer P&L, not in benchmark scores.

      这句话用对冲基金作为比喻,生动地描述了优秀AI应用公司的成功标准。作者指出,这些公司需要在客户的实际业务成果(P&L)上获得超额收益(alpha),而不是在通用基准测试上获得高分。这个洞见强调了AI应用公司应该以客户的实际业务价值为中心,而不是技术指标。

  2. May 2026
    1. 90.6% (1,587) have proved to be valid true positives, and 62.4% (1,094) were confirmed as either high- or critical-severity

      这两个百分比数据点(90.6%验证率,62.4%确认高危率)对于评估AI模型在安全漏洞检测中的可靠性至关重要。90.6%的验证率表明AI模型的误报率相对较低,这在AI安全领域是相当出色的表现。然而,62.4%的确认高危率意味着近40%的AI评估高危漏洞实际严重程度较低,这反映了AI在严重性评估上仍有改进空间。

  3. Apr 2026
    1. So even though I did 100% of the writing and 50% of the refactoring, Windsurf reports that 100% of the code I produced in that session was generated by AI.

      大多数人认为代码生成工具的指标应该反映实际使用情况,但作者展示了即使开发者100%手动编写代码,Windsurf仍会报告100%的AI贡献,这表明其指标系统存在根本性缺陷,完全扭曲了实际贡献比例。

    2. customers should expect PCW values of 85%+, often 95%+. This is not a hallucination and is accurate given how we compute this metric

      大多数人认为AI代码生成工具应该客观、准确地衡量其贡献,但作者认为这些工具的报告数据被设计得极度偏向高AI贡献比例(85%-95%),因为它们的计算方法有严重缺陷,如不计算用户粘贴的代码、不计算自动添加的符号等,这些偏差导致AI贡献被高估。

    1. 未来的评估体系,必须同时考虑:成功率、成本、延迟。这有点类似于对于云计算的考核标准,而不是传统软件。

      这一观点揭示了AI技能评估需要引入新的维度,特别是成本因素,这反映了AI时代的独特挑战,也暗示未来技能市场可能会出现基于资源消耗的定价机制,这与传统软件市场有本质区别。

    1. The standard AI judges use to define "safe" are measured wrong. They punish action. They ignore inaction.

      令人惊讶的是:当前AI安全评估标准存在根本性缺陷——它们只惩罚错误行动,却忽视错误的不作为。这种评估方式导致AI模型被优化为看起来安全,但实际上可能因为过度谨慎而变得真正危险。

    1. We study a mix of Hugging Face downloads and model derivatives, inference market share, performance metrics and more to make a comprehensive picture of the ecosystem.

      令人惊讶的是:研究团队采用了多种衡量标准,包括Hugging Face下载量、模型衍生品、推理市场份额和性能指标等,来全面评估开源语言模型生态系统。这种多维度分析方法揭示了AI生态系统的复杂性和多样性,远比简单的性能排名更为全面。