over one million Trainium2 chips to train and serve Claude
使用超过100万颗Trainium2芯片的数据,展示了Anthropic在AI硬件部署上的巨大规模。这一数字不仅反映了计算能力的投入,也显示了与AWS在芯片定制上的深度合作。对于AI模型训练而言,百万级芯片的部署规模是行业顶尖水平,表明Claude可能需要大量计算资源进行训练和推理。
over one million Trainium2 chips to train and serve Claude
使用超过100万颗Trainium2芯片的数据,展示了Anthropic在AI硬件部署上的巨大规模。这一数字不仅反映了计算能力的投入,也显示了与AWS在芯片定制上的深度合作。对于AI模型训练而言,百万级芯片的部署规模是行业顶尖水平,表明Claude可能需要大量计算资源进行训练和推理。
over 100,000 customers now run Claude on Amazon Bedrock
10万客户使用Claude在Amazon Bedrock上的数据,表明Anthropic的企业客户基础已经相当庞大。这一数字不仅反映了市场接受度,也验证了Claude作为企业级AI工具的商业价值。与OpenAI的GPT系列相比,这一客户量级显示出Anthropic在企业市场已取得显著进展。
up to 5 gigawatts (GW) of capacity for training and deploying Claude
5GW的算力规模是惊人的,相当于一个小型国家的电力消耗。这一数据表明Anthropic正在为AI模型训练和部署投入前所未有的基础设施资源,反映了大语言模型对计算资源需求的指数级增长。这一规模超过了大多数AI公司的基础设施投入,显示出Anthropic在AI基础设施竞争中的野心。
Amazon is investing $5 billion in Anthropic today, with up to an additional $20 billion in the future. This builds on the $8 billion Amazon has previously invested.
大多数人认为科技巨头对AI公司的投资通常在数亿级别,但Amazon对Anthropic的总投资可能高达330亿美元,这远超行业共识。这种规模的投资表明科技巨头对AI基础设施的重视程度和投入规模正在以前所未有的方式增长,可能重塑AI行业的资本结构和竞争动态。
Claude remains the only frontier AI model available to customers on all three of the world's largest cloud platforms: AWS (Bedrock), Google Cloud (Vertex AI), and Microsoft Azure (Foundry).
大多数人认为AI模型通常会与单一云平台深度绑定,形成生态系统锁定,但Claude同时出现在三大云平台上,这挑战了AI行业平台绑定策略的主流认知。这种多平台策略可能预示着AI模型提供商正寻求更大的市场覆盖和避免单一平台依赖,改变行业竞争格局。
Anthropic will also use incremental capacity for Claude in Amazon Bedrock. The agreement includes expansion of inference in Asia and Europe to better serve Claude's growing international customer base.
大多数人认为AI模型主要在美国市场发展,但Anthropic明确表示正在大力扩展亚洲和欧洲市场,这挑战了AI服务主要集中在美国的共识。这种全球扩张速度表明AI市场的地理分布正在迅速多元化,可能重塑全球AI产业格局。
Our run-rate revenue has now surpassed $30 billion, up from approximately $9 billion at the end of 2025.
大多数人认为AI公司仍处于烧钱阶段,难以实现盈利,但Anthropic的收入在短短几个月内增长了三倍多,达到300亿美元的年化收入。这一惊人的增长速度挑战了AI行业普遍亏损的共识,表明AI模型商业化可能比预期更快、规模更大。
We have signed a new agreement with Amazon that will deepen our existing partnership and secure up to 5 gigawatts (GW) of capacity for training and deploying Claude
大多数人认为AI公司主要依赖通用GPU芯片训练模型,但Anthropic与Amazon的合作表明他们正大规模采用专用AI芯片(Trainium),这挑战了行业对通用芯片依赖的主流认知。5GW的容量远超大多数AI公司的规模,反映了专用芯片在AI训练中的经济性和效率优势正在被重新评估。
Amazon is investing $5 billion in Anthropic today, with up to an additional $20 billion in the future
Amazon对Anthropic的50亿美元投资(当前50亿+未来200亿)显示了云计算巨头对AI领域的战略布局。这一投资规模表明大型科技公司正在通过直接投资AI公司来确保AI基础设施的优先使用权。相比其他AI投资,这是近年来最大的战略投资之一。
run-rate revenue has now surpassed $30 billion, up from approximately $9 billion at the end of 2025
年收入从2025年底的约90亿美元激增至300亿美元,增长率超过230%。这一惊人的收入增长速度反映了AI市场的爆发式增长。然而,考虑到公司规模,这一收入数字需要谨慎看待,可能包含预付款或长期合同收入确认。
committing more than $100 billion over the next ten years to AWS technologies
未来十年向AWS投资超过1000亿美元,这是一个天文数字级的长期承诺。这一投资规模超过了大多数科技公司的市值,表明Anthropic对AI未来的极度看好和长期投入。相比其他云服务合同,这是历史上最大的单一技术投资之一。
over one million Trainium2 chips to train and serve Claude
使用超过100万个Trainium2芯片,这是一个惊人的硬件部署规模。这一数字不仅显示了Anthropic与Amazon的深度合作,也反映了训练和运行大型语言模型所需的庞大计算资源。相比其他AI公司,这种规模的芯片部署表明Anthropic正在全力投入AI基础设施。
over 100,000 customers now run Claude on Amazon Bedrock
10万客户在AWS上运行Claude,这是一个相当大的企业客户基础。这个数字表明Claude在企业市场已经获得了一定的采用率,但与OpenAI的数亿用户相比仍有差距。这一数据点反映了Anthropic在企业市场的定位和进展。
up to 5 gigawatts (GW) of capacity for training and deploying Claude
5GW的算力规模极其庞大,相当于一个小型国家的电力消耗。这一数字表明Anthropic正在为AI模型训练和部署构建前所未有的基础设施,反映了大型语言模型对计算资源的巨大需求。相比其他AI公司的算力规模,这是一个非常激进的扩张计划。
over one million Trainium2 chips to train and serve Claude
100万片Trainium2芯片的使用量展示了AI模型训练的硬件规模。这一数量级表明Anthropic正在进行大规模并行计算,这是训练大型语言模型的基础设施要求。与英伟达GPU的采用相比,Trainium芯片代表了云服务提供商在AI硬件领域的差异化竞争策略。
run-rate revenue has now surpassed $30 billion, up from approximately $9 billion at the end of 2025
年收入从90亿美元跃升至300亿美元,增长率超过233%,这是一个爆炸性的增长速度。这一增长率远超大多数科技公司的历史表现,反映了AI即服务(AIaaS)市场的巨大潜力。然而,如此高的增长率也带来了基础设施扩张的压力,需要与算力投资相匹配。
Amazon is investing $5 billion in Anthropic today, with up to an additional $20 billion in the future
亚马逊对Anthropic的总投资可能达到250亿美元(50亿+200亿),这是AI领域最大规模的投资之一。这一投资规模超过了大多数传统科技巨头对AI初创公司的单笔投资,表明亚马逊对Claude模型的战略重视程度极高,以及AI基础设施市场的巨大潜力。
more than $100 billion over the next ten years to AWS technologies
1000亿美元的十年期投资规模极为庞大,相当于每年约100亿美元。这一投资规模超过了大多数科技公司的年度营收,表明Anthropic对AWS的长期战略承诺。这一数字也反映了AI基础设施建设的资本密集性质,以及云计算提供商在AI生态中的核心地位。
over 100,000 customers now run Claude on Amazon Bedrock
10万客户使用Claude是一个显著的用户基础,表明Anthropic的企业采用率正在快速增长。这个数字与OpenAI的数亿用户相比仍有差距,但对于一个专注于企业级AI模型的初创公司来说,这是一个有意义的里程碑,显示其市场渗透策略正在取得成效。
up to 5 gigawatts (GW) of capacity for training and deploying Claude
5GW的算力规模是惊人的,相当于一个小型国家的电力消耗。这个数字表明Anthropic正在为AI模型训练和部署进行大规模基础设施投资,反映了大型语言模型对计算资源的巨大需求。这一规模与OpenAI等竞争对手的算力投入相当,显示AI算力竞赛正在升级。
This card was updated on April 24, 2026, to include additional information about safeguards for the deployment of GPT‑5.5 and GPT‑5.5 Pro in the API.
大多数人认为系统卡应该在发布时包含所有相关信息,不需要后续更新,但OpenAI在发布后仅一天就更新了系统卡以增加API部署的安全措施信息。这挑战了科技产品文档管理的常规做法,暗示AI安全措施是动态发展的,需要持续调整,这违背了传统软件发布中'文档一次性完成'的共识。
We separately evaluate GPT‑5.5 Pro in certain cases because we judge that the setting could materially impact the relevant risks or appropriate safeguards posture.
大多数人认为如果两个模型使用相同的基础架构,它们的风险和安全需求应该相似,但OpenAI明确表示GPT-5.5 Pro需要单独评估,因为'设置可能显著影响相关风险或适当的安全措施立场'。这挑战了AI评估领域普遍认为的'相同基础模型的安全特性一致'的共识,暗示即使是微小的设置变化也可能导致显著不同的风险特征。
We are releasing GPT‑5.5 with our strongest set of safeguards to date, designed to reduce misuse while preserving legitimate, beneficial uses of advanced capabilities.
大多数人认为更强的安全限制会不可避免地限制AI的功能和实用性,但OpenAI声称他们能够同时实现'减少滥用'和'保留合法、有益的高级功能使用'。这挑战了AI安全领域普遍存在的'安全与功能之间存在权衡'的共识,暗示他们已经找到了一种创新的方法,可以在不牺牲功能的情况下增强安全性。
GPT‑5.5 understands the task earlier, asks for less guidance, uses tools more effectively, checks it work and keeps going until it's done.
大多数人认为AI模型需要持续的人工指导和监督才能完成复杂任务,但作者声称GPT-5.5能够'理解任务更早,要求更少的指导,更有效地使用工具,检查工作并持续进行直到完成'。这挑战了AI领域普遍认为的'当前AI系统仍需大量人类监督'的共识,暗示GPT-5.5已经实现了更高程度的自主性。
We subjected the model to our full suite of predeployment safety evaluations and our Preparedness Framework, including targeted red-teaming for advanced cybersecurity and biology capabilities
大多数人认为AI安全评估主要集中在防止直接有害输出,但OpenAI特别强调了对'高级网络生物学能力'的针对性红队测试。这暗示GPT-5.5可能具有比预期更强大的生物相关能力,这违背了AI领域普遍认为的'语言模型主要处理文本信息'的共识,表明AI已经深入到专业科学领域。
That momentum is starting to extend beyond engineering. Teams are using Codex to pull together context from different tools, reason through what matters, and turn scattered information into useful work - like briefs, plans, checklists, drafts, and follow-ups.
文章提到Codex的使用范围正在从工程扩展到其他领域,但未提供具体的使用案例数据或采用率。此处缺乏量化依据,无法评估Codex在企业非工程团队中的实际应用程度和价值。
Our professionals are using Codex to move from static requirements to working solutions in hours, not weeks. It's enabling rapid prototyping, real-time workflow redesign, and faster iteration across the development lifecycle.
Accenture首席AI官声称将开发时间从'周'缩短到'小时',这是一个显著的效率提升声明,但缺乏具体数据支持。此处缺乏量化依据,无法验证这一断言的真实性或普遍适用性。
Today, those partners include Accenture, Capgemini, CGI, Cognizant, Infosys, PwC, and Tata Consultancy Services (TCS).
文章列出了7家全球系统整合合作伙伴(GSIs),这些都是大型IT咨询和系统集成公司。这一合作策略表明OpenAI正在通过这些拥有丰富企业客户资源的合作伙伴来加速Codex在企业市场的渗透,但未提供这些合作伙伴的客户覆盖范围或预期增长数据。
Companies are using Codex across the software development lifecycle. Virgin Atlantic is using it to increase test coverage and increase team velocity - reducing technical debt and improving performance.
虽然文章提到了Virgin Atlantic使用Codex的具体应用场景,但没有提供任何量化数据来衡量其效果。此处缺乏量化依据,无法评估Codex实际带来的性能提升或技术债务减少程度。
In early April, we shared that more than 3 million developers were using Codex every week. Just two weeks later, that number has grown to more than 4 million.
这表明Codex的开发者采用率在两周内增长了33.3%(从300万增加到400万),这是一个惊人的增长率。这种快速增长反映了开发者对AI编程工具的强烈需求,也暗示了Codex可能正在经历病毒式传播或企业快速采用阶段。
Accepted applicants and collaborators must have existing ChatGPT accounts to apply
大多数人认为安全测试应独立于产品生态系统,但OpenAI要求申请者必须是现有ChatGPT用户,这打破了传统安全测试的独立性原则,表明他们认为平台内测试能提供更相关和实用的安全洞察。
Once selected, successful applicants will be onboarded to the bio bug bounty platform
大多数人认为AI安全测试应是开放和民主化的,但OpenAI采用邀请制并限制在'受信任的红色团队测试者'范围内,这与众包安全测试的主流趋势相悖,表明他们认为生物安全领域需要更严格的准入控制。
All prompts, completions, findings, and communications are covered by NDA
大多数人认为安全漏洞信息应公开以促进集体防御,但OpenAI要求所有发现都受保密协议保护,这与开源安全理念相悖,表明他们认为生物安全领域的特殊性质需要不同于传统网络安全的信息控制。
Smaller awards may be granted for partial wins at our discretion
大多数人认为安全测试要么成功要么失败,不应有'部分成功'的概念,但OpenAI明确表示会为'部分胜利'提供奖励,这打破了传统二元思维,表明他们重视渐进式安全改进而非仅追求完美解决方案。
$25,000 to the first true universal jailbreak to clear all five questions
大多数人认为AI安全漏洞不应被奖励,而应被消除,但OpenAI设立高额奖金鼓励研究人员寻找'通用越狱方法',这挑战了传统安全观念,表明他们认为有价值的安全测试需要经济激励。
Testing universal jailbreaks for biorisks in GPT‑5.5
大多数人认为AI安全测试应专注于防止有害内容生成,但OpenAI主动邀请研究人员寻找'通用越狱方法'来突破生物安全限制,这挑战了传统安全思维,表明他们认为主动寻找漏洞比被动防御更有效。
🔹 **Rich World Knowledge:** Leads all current open models, trailing only Gemini-3.1-Pro.
这里提供了模型知识能力的相对排名:领先所有当前开源模型,但仅落后于Gemini-3.1-Pro。这是一个相对定位而非绝对性能数据。这种表述暗示DeepSeek-V4-Pro在知识广度上达到了接近顶级闭源模型的水平,这对需要广泛知识的应用场景具有重要意义。然而,缺乏具体的评估指标和分数,难以准确量化这一差距。
🔹 **Enhanced Agentic Capabilities:** Open-source SOTA in Agentic Coding benchmarks.
虽然文中没有提供具体的基准测试数据,但声称在代理编程基准测试中达到开源SOTA(最先进水平)。这是一个重要断言,但缺乏具体量化指标。如果属实,这将代表DeepSeek在AI代理能力方面的重大突破,特别是在代码生成和执行任务上。需要查看技术报告中的具体基准测试数据来验证这一声明。
⚠️ Note: deepseek-chat & deepseek-reasoner will be fully retired and inaccessible after Jul 24th, 2026, 15:59 (UTC Time).
这里明确指出了旧模型退役的具体时间节点:2026年7月24日15:59 UTC。这是一个精确的时间点,表明公司正在进行产品线更新换代。从发布日期(2026年4月24日)到退役日期,只有约3个月过渡期,用户需要尽快迁移到新模型,这可能反映了公司对新产品性能的高度自信。
🔹 **1M Standard:** 1M context is now the default across all official DeepSeek services.
DeepSeek V4将上下文长度提升到100万token,成为行业新标准。这一数据点意义重大,相比行业常见的32K-128K上下文窗口,提升了约8-31倍,能处理更长文档和复杂任务。这需要创新的注意力机制和内存管理技术支撑,文中提到的'Novel Attention: Token-wise compression + DSA'可能是实现这一突破的关键。
🔹 **DeepSeek-V4-Flash:** 284B total / 13B active params. Your fast, efficient, and economical choice.
DeepSeek-V4-Flash的参数规模明显小于Pro版本:总参数2840亿,活跃参数130亿。参数效率比约为4.6%,略高于Pro版本。这种参数设计使其在保持性能的同时实现更快响应和更低成本,适合需要快速响应的应用场景。
🔹 **DeepSeek-V4-Pro:** 1.6T total / 49B active params. Performance rivaling the world's top closed-source models.
这里提供了DeepSeek-V4-Pro的具体参数数据:总参数1.6万亿,活跃参数490亿。这种参数规模远超大多数开源模型,接近顶级闭源模型。参数效率比(活跃参数/总参数)约为3%,表明采用了稀疏激活技术,这可能是其性能与效率平衡的关键。
Ubuntu 26.04 LTS provides the strongest foundation for our confidential computing stack. It allows us to deploy a single securely designed image for all our verifiably private AI workloads across Intel, AMD, and NVIDIA hardware, with no platform-specific changes required.
引用自Tinfoil联合创始人,强调了Ubuntu 26.04 LTS在机密计算方面的优势,支持Intel、AMD和NVIDIA硬件上的单一安全镜像。这表明Ubuntu在跨平台机密计算方面的领先地位,为AI工作loads提供了统一的安全基础,减少了平台特定配置的需求。
Ubuntu now fully supports RVA23, the baseline standard for RISC-V. This ensures that teams innovating on RISC-V can take full advantage of the platform, including in mixed-architecture environments.
文章指出Ubuntu现在完全支持RISC-V的RVA23标准,这反映了Ubuntu对新兴架构的前瞻性支持。RISC-V作为一种开放指令集架构,正逐渐获得关注。Ubuntu的支持将促进RISC-V生态系统的成熟,特别是在混合架构环境中的应用。
TPM-backed full-disk encryption is now generally available in the Ubuntu installer.
文章提到TPM支持的全盘加密功能现在已在Ubuntu安装程序中普遍可用。这一安全功能将加密绑定到特定设备的TPM芯片上,大大提高了物理访问攻击的门槛。相比其他Linux发行版,Ubuntu将此功能集成到安装程序中,简化了企业部署安全系统的过程。
Ubuntu 26.04 LTS is the first LTS to expand the number of memory safe system components. In practice, this means new kernel drivers and subsystems written in Rust, as well as `sudo-rs` and `uutils``coreutils` bringing memory-safe reimplementations of foundational system tools such as `sudo`, `ls`, `cp`, and `mv`.
文章强调Ubuntu 26.04 LTS是首个增加内存安全系统组件的LTS版本,包括Rust编写的内核驱动和子系统,以及sudo-rs和uutils coreutils等内存安全的基础系统工具重实现。这一举措显著提高了系统的安全性,减少内存相关漏洞的风险,展示了Ubuntu在内存安全方面的领先地位。
Canonical Livepatch now extends its rebootless kernel patching capability to Arm64 for the first time.
这标志着Canonical Livepatch技术的重要里程碑,首次扩展到Arm64架构。对于运行Ubuntu的Arm64服务器和边缘设备,这意味着无需重启即可应用关键内核补丁,大大提高了系统可用性。这一功能的扩展反映了Ubuntu对ARM生态系统的持续投入。
IgH Master driver brings microsecond-level timing precision natively into the OS, removing a significant integration burden for engineers building motion control systems, robotics platforms, or complex factory automation.
文章提到EtherCAT驱动提供微秒级(10^-6秒)的时间精度,这对工业自动化应用至关重要。这种高精度时间同步能力是Ubuntu在工业领域的一个关键优势,相比其他通用操作系统,Ubuntu在实时性方面的改进使其更适合工业物联网和自动化场景。
Ubuntu 26.04 LTS is built on Linux 7.0, continuing Canonical's commitment to shipping the latest upstream kernels at the time of release.
文章明确指出Ubuntu 26.04 LTS基于Linux 7.0内核,这表明Canonical坚持使用最新上游内核的策略。相比其他可能使用更保守内核版本的Linux发行版,Ubuntu的这一策略确保了用户能够获得最新的硬件支持和性能改进。
With optimized images across AWS, Azure, Google Cloud, IBM Cloud and Oracle Cloud, developers and enterprises can rely on Ubuntu 26.04 LTS for their most demanding public cloud workloads.
文章提到Ubuntu 26.04 LTS支持5大主流云平台(AWS, Azure, Google Cloud, IBM Cloud, Oracle Cloud),这反映了Ubuntu在云环境中的广泛兼容性。相比其他Linux发行版,Ubuntu在多云支持方面表现出色,这增强了其作为企业级操作系统的竞争力。
Ubuntu powers millions of PCs and laptops around the world.
这是一个模糊的数量描述,'millions'没有提供具体数字,无法确定Ubuntu的确切用户规模。相比其他Linux发行版如Red Hat或SUSE,Ubuntu确实拥有更广泛的桌面用户基础,但缺乏精确的市场份额数据支持这一说法。
The 11th long-term supported release of Ubuntu delivers deep silicon optimization and state-of-the-art security for enterprise workloads.
这表明Ubuntu 26.04是第11个LTS版本,按照Ubuntu每两年发布一个LTS版本的规律,这与Ubuntu的历史发展时间线一致。作为第11个LTS版本,它代表了Canonical在长期支持方面的成熟经验,为企业和用户提供稳定可靠的选择。
Socket, an a16z portfolio company, detected the malicious dependency in the Axios attack within 6 minutes of its publication. That's roughly 63,000 times faster than the industry average.
令人惊讶的是:Socket公司在Axios攻击发布后仅6分钟就检测到恶意依赖,这比行业平均水平快约63,000倍。这种速度差异凸显了传统安全工具与新型行为检测方法之间的巨大鸿沟,也展示了早期检测在防止供应链攻击中的关键作用。
Within eight days, the same campaign had cascaded from GitHub Actions to Docker Hub, npm, PyPI, and the VS Code extension marketplace. With just one token across five ecosystems, thousands of organizations were potentially impacted.
令人惊讶的是:一个单一的访问令牌可以在短短八天内横跨五个主要生态系统(GitHub Actions、Docker Hub、npm、PyPI和VS Code扩展市场),自动传播恶意代码,影响数千个组织。这种级联供应链攻击展示了现代软件生态系统的脆弱性。
The industry average time to detect a supply chain breach is 267 days. SolarWinds went undetected for 14 months. XZ Utils took two years to surface.
令人惊讶的是:软件供应链漏洞的平均检测时间长达267天,有些攻击如XZ Utils甚至需要两年才被发现。这意味着攻击者有充足的时间在系统中潜伏并造成广泛损害,而组织往往在损害发生后才意识到问题。
_Self-reported score with custom Anthropic scaffold._ SWEPro were evaluated with the mini-swe-agent scaffold. However, we use the scores reported by Anthropic for Opus with the max thinking efforts due to frequent timeouts during our evaluation trials.
脚注2揭示了重要数据点:Opus 4.6的53.4分是Anthropic的自报分数,因为作者在评估过程中频繁遇到超时问题,无法自行验证。这表明性能比较中存在数据可靠性问题,特别是对于Opus的评估依赖于厂商自报数据,可能存在偏差。
The depth of recursion becomes a tunable compute axis at inference time, requiring no retraining. A small model, by reading itself, can iterate toward answers that neither it nor any of its workers could reach in a single pass.
文章描述了一种递归推理机制,称小模型通过自我迭代可以达到单次推理无法达到的结果,但未提供具体的性能提升数据或实验证据。这一断言缺乏量化依据,需要更多实验数据支持。
Sakana Fugu models are based on our ICLR 2026 papers (**Trinity** and **Conductor**), and we have substantially further improved the methods to increase the performance and user experience
文章提到模型基于ICLR 2026论文,并已大幅改进方法和用户体验,但没有具体说明改进的幅度或基准数据。此处缺乏量化依据,无法评估从研究原型到商业产品的改进程度。
Two variants are available: **Sakana Fugu Mini 🐟**, optimized with latency in mind, and **Sakana Fugu Ultra 🐡**, the full orchestration system, optimized for performance for demanding tasks.
文章提到有两种变体:Mini(延迟优化)和Ultra(性能优化),但未提供具体的性能指标差异,如延迟降低百分比或吞吐量提升数据。这种缺乏具体量化参数的描述难以评估两种变体在实际应用中的性能差异。
GPQAD | 94.4 | 90.9 | 92.7 | 92.4 | **95.1** | LCBv6 | 90.3 | 92.1 | 92.4 | 90.4 | **93.2** | SWEPro | 48.4 | 51.2 | _53.4_ | 51.3 | **54.2**
性能对比表格显示,Sakana Fugu Ultra在三个基准测试中均优于竞争对手:GPQAD上达95.1%(超越Gemini 3.1的94.4%),LCBv6上达93.2%(超越GPT 5.4的92.1%),SWEPro上达54.2%(超越Opus 4.6的53.4%)。这些数据表明其多模型协调策略确实带来了性能提升,特别是在科学推理任务上优势明显。
Initially, our Sakana Fugu model will be available as an **API**, where it has served as a key internal tool for our own researchers and engineers
这里提到Sakana Fugu模型将作为API提供,且已作为内部工具使用,但没有具体说明内部使用的时间跨度或用户数量。此数据点缺乏具体量化依据,无法评估其内部应用的规模和成熟度。
Fugu models achieve superior performance by dynamically coordinating and orchestrating a diverse pool of powerful models.
大多数人认为使用多个模型需要用户手动选择最适合特定任务的模型,这既复杂又效率低下,但作者认为通过动态协调多个模型可以实现比任何单一模型都更好的性能,这挑战了当前多模型使用的常规方法,暗示未来AI系统可能自动优化模型组合而非依赖人工选择。
The depth of recursion becomes a tunable compute axis at inference time, requiring no retraining.
大多数人认为AI模型的计算能力主要受限于其架构和训练数据,一旦训练完成,其推理能力基本固定,但作者提出Fugu模型可以通过调整递归深度在推理时动态扩展计算能力,这挑战了传统AI模型的固定计算范式,暗示未来AI系统可能具有前所未有的灵活性。
When a Fugu model is allowed to call itself recursively, reading its own prior output as context and deciding whether to revise its coordination strategy, a new form of test-time scaling emerges.
大多数人认为AI模型的能力主要取决于训练阶段,推理阶段只是应用已学知识,但作者提出Fugu模型可以在推理时通过自我递归调用实现能力扩展,这挑战了传统AI推理阶段的局限性,暗示小型模型可能通过自我迭代达到超越其初始能力水平的表现。
We believe this is what drove the separate reports of usage limits draining faster than expected.
大多数人会直接将API使用量异常归因于用户行为或模型本身,但作者揭示了一个技术实现细节(缓存bug)如何间接导致使用量异常。这挑战了常规问题归因逻辑,展示了系统组件间的意外互动如何产生看似无关的问题表象。
As part of this investigation, we ran more ablations (removing lines from the system prompt to understand the impact of each line) using a broader set of evaluations. One of these evaluations showed a 3% drop for both Opus 4.6 and 4.7.
大多数人认为微小的系统提示变更只会带来微不足道的影响,但作者展示了一个看似微不足道的提示变更(限制字数)却导致了3%的性能下降。这挑战了'小变更小影响'的直觉认知,揭示了AI系统中微小变化可能带来的非线性影响。
After multiple weeks of internal testing and no regressions in the set of evaluations we ran, we felt confident about the change and shipped it alongside Opus 4.7 on April 16.
大多数人认为充分的内部测试可以预防产品发布后的重大问题,但作者展示了一个经过数周内部测试且没有发现问题的系统提示变更却导致了明显的质量下降。这挑战了'测试覆盖率等于产品质量'的传统观念,暗示了评估指标与实际用户体验之间可能存在巨大鸿沟。
Two unrelated experiments made it challenging for us to reproduce the issue at first: an internal-only server-side experiment related to message queuing; and an orthogonal change in how we display thinking suppressed this bug in most CLI sessions
大多数人认为复杂的系统测试流程应该能够发现大多数关键缺陷,但作者展示了即使有多重测试机制,两个看似无关的实验如何协同掩盖了一个严重bug。这挑战了'全面测试能保证产品质量'的传统认知,揭示了系统复杂性带来的意外风险。
In our internal evals and testing, medium effort achieved slightly lower intelligence with significantly less latency for the majority of tasks.
大多数人认为内部评估和测试足以代表用户真实体验,但作者承认他们的内部测试未能准确捕捉到用户对AI智能度的实际感知差异。这暗示了实验室环境与实际使用场景之间存在根本性脱节,挑战了传统产品测试方法论的有效性。
We reverted this change on April 7 after users told us they'd prefer to default to higher intelligence and opt into lower effort for simple tasks.
大多数人认为AI系统应该优化速度和效率,但作者认为用户更愿意默认选择更高智能而非更低延迟,这挑战了产品优化的常规思维。用户宁愿忍受偶尔的延迟也要换取更高的代码质量,这违背了大多数科技公司追求'更快更省'的常规做法。
Each cell shows how often a given curve fit is not significantly worse than the fit with the best cross-validation accuracy.
研究使用交叉验证来评估不同曲线拟合的优劣,每个单元格显示给定曲线拟合与最佳拟合相比不显著差于的频率。这种方法提供了更稳健的统计评估,减少了过拟合风险。
We examine whether AI capabilities are accelerating by fitting statistical models to benchmark performance over time, and comparing their predictive accuracies.
研究方法基于统计模型拟合和预测准确度比较,这是一种严谨的方法论。通过比较不同曲线拟合的预测能力,可以更客观地判断是否存在加速趋势,而非仅凭直观观察。
Reasoning models show both a one-off jump in performance and a roughly 2-3x faster trend compared to non-reasoning models.
推理模型性能提升速度是非推理模型的2-3倍,这是一个显著的增长率差异。这个倍数关系表明推理模型确实带来了质的飞跃,但需要考虑这是否反映了模型架构的根本改进,还是仅仅由于更多计算资源的投入。
Three of four metrics show strong evidence of acceleration, driven by reasoning models.
文章核心发现,75%的指标显示AI能力正在加速,且主要由推理模型驱动。这是一个明确的量化结论,但需要关注的是,仅基于4个指标就得出'加速'的结论可能存在样本偏差,特别是这些指标主要集中在数学和编程领域。
Our fourth metric, an index constructed from WeirdML V2 results, showed no sign of acceleration. A single global linear trend fit the data best.
这个25%的指标没有显示出加速趋势,提供了一个重要的对比案例。作者推测这可能是因为WeirdML V2设置了资源限制环境(模型只有5次提交代码的机会,无法使用外部工具),这与当前RL训练的重点不符。这表明AI进步可能高度依赖于测试环境和评估标准。
We have been calling this the 'reasoning' / 'non-reasoning' split, but this is not a perfectly clean dichotomy. Several correlated but not strictly identical changes happened over the same few months: scaling inference compute, heavier use of RL in post-training, and models producing reasoning tokens.
这里承认了分类方法的局限性,指出2024年左右的AI能力加速可能是由多个因素共同作用的结果,而非仅仅是推理能力的提升。这表明文章作者对数据的复杂性有清醒认识,但缺乏对这些因素相对重要性的量化分析。
The best-performing model across these three metrics was a pair of independent linear trends: one for reasoning models and one for non-reasoning models.
这个模型选择结果(100%的三个指标)表明将模型分为推理和非推理两类是最优预测模型。这提供了强有力的统计证据,支持推理能力可能是AI加速发展的关键因素。然而,文章没有详细说明如何定义推理模型,这可能影响结果的可靠性。
Reasoning models show both a one-off jump in performance and a roughly 2-3x faster trend compared to non-reasoning models.
这是一个重要的性能对比数据,表明推理模型比非推理模型的进步速度快2-3倍。这是一个显著的加速比率,暗示推理能力的突破可能代表了AI发展的一个转折点。然而,文章没有提供具体的基准测试数据来支持这一倍数关系,需要谨慎对待。
Three of the four metrics (ECI, log METR 50% time horizon, and a math-focused index we constructed from several math benchmarks) show strong evidence that progress has sped up relative to a global linear trend fit to data from 2023 onward.
这是一个关键的统计数据,表明75%的AI能力指标显示出加速趋势。文章使用2023年后的数据进行线性拟合,发现三个指标偏离了线性趋势。这个比例相当高,但值得注意的是,样本量较小(n=4),可能影响统计显著性。需要更多指标来验证这一发现。
Several correlated but not strictly identical changes happened over the same few months: scaling inference compute, heavier use of RL in post-training, and models producing reasoning tokens.
大多数人可能将AI进步归因于单一因素(如模型规模或数据量),但作者指出推理能力的提升是多种因素共同作用的结果,包括推理计算扩展、强化学习更广泛应用以及模型产生推理标记等。这挑战了人们对AI进步驱动因素的认知。
Tasks where correctness is harder to verify may not have seen the same speedup, so the acceleration we document here may not be as general as the headline numbers suggest.
主流媒体和公众可能认为AI能力在所有领域都在加速提升,但作者明确指出,在正确性难以验证的任务中可能没有相同的加速现象。这一观点挑战了人们对AI进步普遍性的假设。
WeirdML V2 places models in an unusually resource-constrained environment: models get only five attempts to submit working code, with no access to external tools. This setup has not been the focus of recent RL training.
大多数人可能认为所有AI评估指标都会反映相同的进步趋势,但研究发现WeirdML V2指标没有显示加速,因为它设置了资源限制环境,而近期强化学习训练并未关注此类设置。这表明AI进步可能受评估方法的影响。
The three metrics where we find acceleration are concentrated in programming and mathematics. These are areas that labs have explicitly targeted for improvement, and they share an important property: correctness is easy to verify automatically.
主流观点可能认为AI能力在各个领域的提升是均衡的,但作者指出加速现象主要集中在编程和数学领域,因为这些领域的正确性容易自动验证。这暗示AI进步可能不是普遍性的,而是集中在特定可量化的领域。
Reasoning models show both a one-off jump in performance and a roughly 2-3x faster trend compared to non-reasoning models.
大多数人可能认为不同类型的AI模型性能提升速度大致相同,但研究发现推理模型不仅有一次性的性能飞跃,而且提升速度是非推理模型的2-3倍。这一发现颠覆了人们对不同模型类型进步速度的预期。
Three of four metrics show strong evidence of acceleration, seemingly driven by reasoning models.
大多数人认为AI能力提升是渐进式的线性增长,但作者通过数据分析发现,在四个关键能力指标中有三个出现了明显加速,且这种加速似乎与推理模型的出现直接相关。这挑战了人们对AI进步速度的普遍认知。
Three of four metrics show strong evidence of acceleration, seemingly driven by reasoning models.
大多数人认为AI能力的发展是持续稳定的线性增长,但作者通过数据分析发现,在四个关键指标中有三个显示出明显的加速趋势,这种加速是由推理模型驱动的。这一结论挑战了人们对AI进步速度的常规认知,表明2024年推理模型的引入可能标志着AI能力发展模式的转变。
Parameters are estimated by unweighted least squares. Time t is measured in years since the first observation in each dataset.
研究使用最小二乘法进行参数估计,时间以年为单位从每个数据集的第一个观测点开始计算。这种方法选择是统计标准做法,但未加权处理可能低估了近期数据点的重要性,因为近期数据点通常代表更先进的模型能力。时间单位的选择也影响了增长率解释的直观性。
We pre-selected the 6-month horizon as our primary metric, balancing genuine forecasting distance against the limited date range of our data.
6个月的预测时间窗口是一个关键选择,既考虑了实际预测意义,又受限于数据的时间范围。这个时间跨度相对较短,可能不足以捕捉长期趋势,但适合检测最近的加速变化。选择这一窗口反映了研究者在数据有限情况下的务实权衡。
The products will need to get worse, more expensive, or both if VCs are to get their money back.
主流观点认为科技公司会通过产品创新和改进来提高价值,但作者直言AI公司可能需要让产品变得更差或更昂贵才能满足投资者回报要求,这挑战了科技行业进步的叙事,揭示了资本压力与产品价值之间的潜在冲突。
Anthropic made fun of this idea during the last Super Bowl.
大多数人认为广告是AI公司实现盈利的可行途径,特别是考虑到免费服务的模式,但作者指出Anthropic公开嘲笑广告模式,暗示AI行业内部对商业模式存在根本性分歧,挑战了广告作为AI盈利解决方案的主流观点。
Open weight (read: free) models are widely available and good enough that most people probably couldn't tell the difference.
主流观点认为付费的云端LLM服务在质量上显著优于免费开源模型,但作者声称开源模型已经好到大多数用户无法分辨差异,这挑战了付费服务价值主张的核心,暗示AI行业可能面临价值重估。
the system achieved this training result more than 20 times faster than conventional synchronization methods.
大多数人认为分布式训练由于需要同步和通信,必然比单机训练慢,但作者认为Decoupled DiLoCo比传统同步方法快20倍以上,这挑战了人们对分布式训练速度的固有认知,展示了异步计算的潜力。
chips from different generations running at different speeds still matched the ML performance of single-chip-type training runs, ensuring that even older hardware can meaningfully accelerate AI training.
大多数人认为混合不同代际的硬件进行训练会降低性能或效率,但作者认为即使不同代际、不同速度的芯片混合使用,仍能达到与单一芯片类型训练相同的机器学习性能,这挑战了硬件必须同质化的行业共识。
With increasing levels of hardware failure, Decoupled DiLoCo continues to deliver a high level of 'goodput', or useful training, while that of other approaches nosedives.
大多数人认为硬件故障会显著降低分布式训练的效率和性能,但作者认为即使在硬件故障率极高的环境下,Decoupled DiLoCo仍能保持88%的有效训练率,而传统方法则暴跌至27%,这挑战了人们对故障容忍能力的传统认知。
By dividing large training runs across decoupled 'islands' of compute, with asynchronous data flowing between them, this architecture isolates local disruptions so that other parts of the system can keep learning efficiently.
大多数人认为分布式AI训练需要高度同步和紧密耦合的系统才能保证效率,但作者认为通过解耦的'计算岛屿'架构,即使局部硬件故障,系统其他部分仍能高效学习,因为故障被隔离了。这挑战了传统分布式训练必须保持同步的主流认知。
The Prompt API uses the Gemini Nano model in Chrome. While the API is built into Chrome, the model is downloaded separately the first time an origin uses the API.
大多数人认为内置API应该包含所有必要组件,无需额外下载,但作者明确指出模型需要单独下载。这与人们对'内置'API应该即开即用的普遍认知相悖,暗示用户首次使用时可能会面临显著的下载时间和存储压力。
The Prompt API for the web is still being developed. While we build this API, refer to our best practices on session management for optimal performance.
大多数人认为浏览器AI功能应该是成熟且生产就绪的,但作者明确表示该API仍在开发中。这与人们对Chrome作为成熟浏览器应该提供稳定可靠功能的认知相悖,暗示AI功能可能还不够稳定,需要开发者额外注意性能优化。
The network requirement is only for the initial download of the model. Subsequent use of the model does not require a network connection. No data is sent to Google or any third party when using the model.
大多数人认为使用Google的AI模型必然会涉及数据传输和隐私问题,但作者强调模型完全在设备上运行且不向Google发送数据。这与人们对大型科技公司AI服务通常涉及数据收集的普遍认知相悖,暗示Chrome的AI功能可能比想象的更加注重隐私保护。
The Prompt API isn't available in Web Workers for now, due to the complexity of establishing a responsible document for each worker in order to check the permissions policy status.
大多数人认为现代浏览器API应该支持Web Workers以实现并行处理,但作者明确表示Prompt API不支持Web Workers。这与人们对浏览器API应该全面支持现代Web开发模式的认知相悖,限制了开发者在后台线程中使用AI的能力。
Microsoft continues to participate directly in OpenAI's growth as a major shareholder.
大多数人认为在修改了合作协议后,微软可能会减少其在OpenAI的股权投资,但作者认为微软仍然是OpenAI的主要股东,这表明尽管合作关系有所调整,但双方仍然保持着深度的利益绑定,这可能是一种非传统的长期战略伙伴关系模式。
Revenue share payments from OpenAI to Microsoft continue through 2030, independent of OpenAI's technology progress, at the same percentage but subject to a total cap.
大多数人认为随着OpenAI技术的发展,其对微软的支付可能会增加或调整,但作者认为OpenAI对微软的支付将保持固定比例且有上限,这表明OpenAI正在寻求更可预测的财务安排,不受技术进步的影响,这可能是一种反直觉的风险管理策略。
Microsoft will continue to have a license to OpenAI IP for models and products through 2032. Microsoft's license will now be non-exclusive.
大多数人认为微软会寻求对OpenAI技术的独家使用权,以保持其在AI领域的竞争优势,但作者认为微软的许可权变为非独家,这打破了传统科技合作中的排他性模式,暗示OpenAI正在向更开放的合作方式转变,可能为其他合作伙伴铺平道路。
Microsoft will no longer pay a revenue share to OpenAI.
大多数人认为微软作为OpenAI的主要投资者和合作伙伴,会继续通过收入分成来支持OpenAI的发展,但作者认为微软已经改变了这一模式,这可能表明微软认为OpenAI的技术已经足够成熟,不再需要这种财务激励,或者微软有其他方式从合作中获益。
OpenAI can now serve all its products to customers across any cloud provider.
大多数人认为OpenAI会完全依赖微软Azure云服务,因为微软是其主要投资者和合作伙伴,但作者认为OpenAI现在拥有了多云策略的灵活性,这打破了科技巨头间典型的排他性合作模式,暗示OpenAI正在寻求更大的自主权和市场机会。
this means that existing estimates overstate the returns to software R&D, and makes the software intelligence explosion seem much less likely.
R&D Returns Overstated
Accounting for compute bottlenecks suggests that returns to software R&D may be lower than previously estimated, reducing explosion likelihood.
But I think we have enough evidence to think that software progress might really be several times a year, and to make a best guess contextualized with a lot of uncertainty.
Progress Estimation
Despite uncertainties, evidence suggests software progresses at several times per year, with estimates ranging from 2-50x annually.
gpt-oss-20b does substantially better than GPT-3 on MMLU, despite using the same amount of training compute.
Real-World Progress Example
Comparing models with same compute but different performance (like GPT-3 vs gpt-oss-20b) provides concrete evidence of software progress.
This means that almost all existing estimates of software progress were misleading.
Measurement Problems
Existing software progress estimates are misleading due to data quality improvements and scale-dependence factors not properly accounted for.
these estimates rely on an overly conservative estimate of software progress of 3× per year
Progress Underestimation
Existing software intelligence explosion models may use conservative progress estimates, potentially underestimating explosion likelihood.
Synthetic data can help push beyond this — a good example that Millidge raises is the Phi series of models.
Synthetic Data Impact
Synthetic data generation techniques like Phi models can dramatically improve efficiency beyond traditional distillation methods.
If doubling cumulative research effort also doubles compute efficiency, then the returns to R&D are 1. If it quadruples, then the returns are 2.
R&D Returns Measurement
Returns to AI software R&D measure how research effort translates to compute efficiency gains, with >1 threshold for potential explosion.
Almost all the evidence points to very fast software progress: each year, the training compute needed to get to the same capability declines several times — possibly even ten times or more.
Rapid Efficiency Gains
Software progress enables 2-10x annual compute efficiency gains, though estimates have wide confidence intervals due to data limitations.
AI software progress is about reducing the training compute you need to get to the same level of capability, through better algorithms or data.
Software Progress Definition
Software progress enables achieving same AI capabilities with less compute through algorithmic or data improvements, a key efficiency driver.
I would put venture capitalist in finite demand & open loop. There's only a certain amount of venture capital dollars entering the ecosystem in a year, & investment selection remains an open problem.
作者将风险投资置于'有限需求+开放循环'象限,这是一个令人惊讶的见解。它暗示即使在AI时代,某些需要人类判断和有限资源的领域仍然难以被AI完全替代,这对理解AI的局限性提供了重要视角。
Open Loop + Finite Demand = Utility Tools. Preparing 10-Ks & 10-Qs. Legal contract review. Insurance claims processing. One report per quarter, one contract per deal. AI makes the work faster, but doesn't create new work to do.
这个分类揭示了AI在有限需求领域的真正价值在于效率提升而非创造新工作,这与无限需求领域的AI应用形成鲜明对比。这解释了为什么某些行业AI采用较慢——它只是优化现有工作流程,而非创造全新价值。
Closed Loop + Infinite Demand = Economic Engines. Software engineering lives here. AI writes the code. Tests verify correctness. More code enables more features. Companies will always need more software.
作者将软件开发定位为'经济引擎',这是一个极具洞察力的观点。它表明AI在软件开发中不仅提高了效率,还创造了无限循环的价值增长模式,这与许多其他AI应用形成鲜明对比。
There were 1 billion commits in 2025. Now, it's 275 million per week, on pace for 14 billion this year if growth remains linear (spoiler: it won't.)
这个数据揭示了软件开发需求的爆炸性增长,暗示AI正在加速而非替代软件开发,这是一个反直觉的观点,通常人们认为AI会减少对开发者的需求,但实际上它可能创造了更多的工作量。
The compliance-driven buyers improvising local AI out of retail Mac Minis because the product they need does not exist.
大多数人认为企业AI采用需要专门的解决方案和供应商,但作者指出一些合规驱动的买家正在使用零售版Mac Mini自行构建本地AI解决方案。这挑战了企业AI市场的传统认知,暗示市场可能存在未被满足的需求,以及企业正在以非传统方式应对AI挑战。
Why the company that moved computing off the mainframe fifty years ago is making the same structural move with AI, and what that predicts.
大多数人将苹果的AI战略视为孤立的商业决策,但作者将其与苹果历史上将计算从大型机转移到个人电脑的战略相提并论。这提供了一个反直觉的历史视角,暗示苹果可能正在引领AI从集中式云服务向分布式设备端的范式转变,挑战了当前AI行业向云端集中化的主流趋势。
The question it forces is not which model is best. It is who owns the inference layer your organization depends on, what happens when the economics of that layer stop being subsidized, and whether the thing in your pocket turns out to matter more than the thing in the datacenter.
大多数人关注AI模型本身的性能和优势,但作者认为真正关键的是谁拥有推理层以及其经济可持续性。这挑战了当前AI行业的主流关注点,暗示未来竞争的核心将从模型本身转向推理层的控制和成本结构,这是一个反直觉的视角转换。
The structural cost problem in AI inference that makes Apple's on-device bet defensible, not just defensive.
大多数人认为苹果转向设备端AI只是防御性策略,因为他们在云AI领域落后,但作者认为这是基于对AI推理层经济结构问题的深刻理解而做出的主动选择。这挑战了主流对苹果AI战略的看法,暗示设备端AI可能比我们想象的更具经济优势。
The board looked at the AI race Apple was losing and, rather than try harder at the thing that was failing, changed which game the company plays.
大多数人认为面对竞争失败,公司应该加倍投入资源在原有领域追赶,但作者认为苹果选择了完全不同的策略——改变游戏规则而非在原有规则下竞争。这挑战了传统商业战略思维,暗示苹果可能正在从云AI转向设备端AI,这是一种颠覆性的战略转向。
For a company that spent fifteen years running a functional model where no single discipline owned a product, putting two hardware engineers at the top is not a personnel decision. It is a structural break.
大多数人认为苹果的高层变动只是常规的人事调整,但作者认为这是苹果在AI竞争中失败后采取的结构性变革,反映了公司战略的根本转变。这挑战了我们对科技公司领导层变动的常规认知,暗示苹果正在从功能型组织转向以硬件为中心的结构,以应对AI挑战。
benchmarks sourced from publicly available material carry contamination risk, where training-data exposure can silently inflate scores.
大多数人认为公开数据集是AI评估的金标准,能够提供客观公正的测试环境。但作者警告,使用公开材料构建的基准测试存在污染风险,训练数据接触会悄无声息地提高分数。这一观点挑战了AI评估领域的传统做法,暗示我们需要更严格的数据隔离措施或转向私有数据集进行评估。
This means that improvements on SWE-bench Verified no longer reflect meaningful improvements in models' real-world software development abilities. Instead, they increasingly reflect how much the model was exposed to the benchmark at training time.
大多数人认为基准测试分数的提高意味着模型实际能力的提升。但作者明确表示,SWE-bench Verified的改进不再反映模型真实软件开发能力的进步,而是更多地反映了模型在训练时接触该基准测试的程度。这一结论挑战了整个AI评估体系的有效性,暗示我们可能需要重新思考如何衡量AI的真实进步。
We also found evidence that models that have seen the problems during training are more likely to succeed, because they have additional information needed to pass the underspecified tests.
大多数人认为AI模型的性能提升主要源于算法和架构的改进。但作者发现,模型在SWE-bench上的成功更多取决于它们是否在训练中见过这些问题,而非真正的编程能力提升。这一观点与行业普遍认为的'模型进步'叙事相悖,暗示当前AI发展评估可能存在严重偏差。
Tests reject correct solutions: We audited a 27.6% subset of the dataset that models often failed to solve and found that at least 59.4% of the audited problems have flawed test cases that reject functionally correct submissions
大多数人认为代码测试是客观公正的,能够准确评估模型的真实能力。但作者发现,近60%的测试案例存在缺陷,会拒绝功能上正确的解决方案。这一发现挑战了AI评估领域的共识,表明我们广泛使用的基准测试可能存在系统性问题,无法准确反映模型的实际编程能力。
Our RL infra team used a K2.6-backed agent that operated autonomously for 5 days, managing monitoring, incident response, and system operations, demonstrating persistent context, multi-threaded task handling, and full-cycle execution from alert to resolution.
大多数人认为AI代理系统难以长时间持续运行,通常会面临注意力分散、上下文丢失或性能下降的问题。但作者展示的AI系统能够连续5天自主管理复杂的技术运维工作,这挑战了人们对AI代理持续运行能力的传统认知,暗示AI可能已经具备接近人类的持久工作能力。
The architecture scales horizontally to 300 sub-agents executing across 4,000 coordinated steps simultaneously, a substantial expansion from K2.5's 100 sub-agents and 1,500 steps.
大多数人认为AI系统的扩展主要依赖于增加单个模型的计算能力和参数规模,而非增加智能体的数量。作者提出的300个智能体并行执行的模式挑战了这一认知,暗示未来AI发展可能更侧重于'多智能体协作'而非'单一模型增强',这可能会重新定义AI系统的架构设计原则。
Kimi K2.6 autonomously overhauled exchange-core, an 8-year-old open-source financial matching engine. Over a 13-hour execution, the model iterated through 12 optimization strategies, initiating over 1,000 tool calls to precisely modify more than 4,000 lines of code.
大多数人认为AI在复杂工程任务中仍需要人类专家的指导和监督,难以独立完成大规模系统重构。但作者展示了AI能够自主分析、优化并重构一个运行8年的金融系统,这挑战了人们对AI工程能力的传统认知,暗示AI可能已经具备系统级架构设计和优化的能力。
Kimi K2.6 demonstrates significant improvements over Kimi K2.5 in internal evaluations conducted by CodeBuddy: code generation accuracy increased by 12%, long-context stability improved by 18%, and tool invocation success rate reached 96.60%.
大多数人认为AI模型迭代通常是渐进式的改进,每次版本更新可能有5-10%的性能提升。但数据显示Kimi K2.6实现了远超预期的飞跃,特别是在工具调用成功率接近97%的情况下,这挑战了人们对AI模型能力提升速度的常规认知,暗示可能存在某种技术突破或架构创新。
Meta founder and CEO Mark Zuckerberg described superintelligence in a blog post last year
文章提到Meta的AI战略包括开发'超级智能',但未提供具体投资金额、研发时间表或预期成果。缺乏量化依据,无法评估这一战略的规模、时间框架或可能带来的商业价值。这种技术愿景需要更多具体数据来支撑其可行性评估。
Wedbush Securities analyst Dan Ives said in a report on Thursday.
文章提到分析师预测未来可能有更多裁员,但未提供具体数字或预测比例。缺乏量化依据,无法评估分析师预测的可靠性。这类行业分析通常需要更具体的数据支持,如预计裁员数量、时间表或财务影响等。
The layoffs will start on May 20, the company confirmed.
这是一个明确的时间节点,距离文章发布日期(2026年4月23日)约一个月时间。这表明Meta已经完成了决策过程并制定了具体实施计划,反映了公司行动的紧迫性。这种提前通知的时间框架在科技行业裁员中较为常见,给予员工一定的准备时间。
Meta plans to lay off roughly 8,000 employees, or 10% of its workforce
这是一个显著但合理的裁员比例,10%的裁员规模反映了Meta在AI转型中的重大战略调整。相比其他科技公司裁员比例(通常在5-20%之间),这一比例处于中等偏高水平,表明Meta正在积极重组以支持AI投资。此数据点来自公司官方声明,可信度较高。
Claude is now being deployed to NEC Group employees around the world
大多数人认为企业会谨慎地小规模试点AI工具,但作者认为NEC正在全球范围内大规模部署Claude,这表明企业对AI技术的信任度远高于预期,挑战了传统的技术采用曲线和变革管理理论。
NEC will establish a Center of Excellence to develop a highly skilled, AI-enabled engineering organization
大多数人认为AI会使专业知识和技能贬值,但作者认为AI实际上需要更高水平的工程专业知识,因为企业正在建立专门的卓越中心来培养AI技能,这表明AI工具正在提升而非降低工程工作的专业门槛。
As part of its long-running Client Zero initiative, in which NEC serves as its own first customer before offering its technology to clients
大多数人认为企业会先开发产品然后内部使用,但作者认为NEC采用了反向策略,先内部大规模应用AI技术然后再向客户推广,这表明企业正在采用更激进的方法来验证和改进AI解决方案,挑战了传统的产品开发流程。
NEC aims to build one of Japan's largest AI-native engineering teams, who will use Claude Code in their work.
大多数人认为AI会取代大量工程师职位,但作者认为AI实际上是在创造新的工程角色和技能需求,因为NEC正在积极建立一支大规模的AI原生工程团队,这表明AI工具正在增强而非替代工程能力,创造新的就业机会。
Claude packages everything into a handoff bundle that you can pass to Claude Code with a single instruction.
大多数人认为设计和开发是两个分离的专业领域,需要专门的交接流程和工具,但作者暗示AI可以实现从设计到开发的无缝单指令转换。这一观点挑战了软件开发与设计之间的传统界限,暗示AI可能重新定义跨职能协作的方式。
Our most complex pages, which took 20+ prompts to recreate in other tools, only required 2 prompts in Claude Design.
大多数人认为复杂的设计任务需要更多的提示和人工干预,但作者声称他们的AI工具能用更少的提示完成更复杂的设计。这一观点挑战了人们对AI设计工具复杂度与输入量关系的普遍认知,暗示AI可能在某些方面比人类更擅长处理复杂性。
What used to take a week of back-and-forth between briefs, mockups, and review rounds now happens in a single conversation.
大多数人认为设计过程必然需要多轮迭代和长时间沟通,但作者声称AI可以将这一过程缩短到单次对话完成。这一观点挑战了设计工作流程的传统认知,暗示AI可能彻底改变设计协作的时间框架和效率预期。
Claude Design gives designers room to explore widely and everyone else a way to produce visual work.
大多数人认为设计专业技能是创造高质量视觉作品的必要条件,但作者认为AI工具可以让非专业人士也能生产专业水平的视觉作品。这一观点挑战了设计专业性的传统观念,暗示专业技能可能不再是高质量设计的唯一门槛。
Even experienced designers have to ration exploration—there's rarely time to prototype a dozen directions, so you limit yourself to a few.
大多数人认为专业设计师拥有充分的创意自由和资源来探索多种设计方案,但作者认为即使是经验丰富的设计师也受到时间和资源的严重限制,只能探索少数几个方向。这一观点挑战了人们对设计行业创意过程的普遍认知,揭示了设计实践中的现实约束。
The gains are especially strong in agentic coding, computer use, knowledge work, and early scientific research—areas where progress depends on reasoning across context and taking action over time.
大多数人认为AI进步主要体现在特定领域的知识获取和模式识别上,而非跨上下文的推理和长期行动能力。但作者强调GPT-5.5在需要持续推理和行动的领域取得显著进步,这一观点挑战了AI能力发展的主流叙事,暗示通用智能可能比预期更早实现。
GPT‑5.5 found a proof of a longstanding asymptotic fact about off-diagonal Ramsey numbers, later verified in Lean. The result is a concrete example of GPT‑5.5 contributing not just code or explanation, but a surprising and useful mathematical argument in a core research area.
大多数人认为AI在数学研究领域仅能辅助计算或提供解释,无法独立进行创造性数学推理。但作者展示GPT-5.5能够发现并证明数学定理,这一突破挑战了数学研究作为纯粹人类活动的传统观念,暗示AI可能成为真正的'研究伙伴'而非仅是工具。
We are treating the biological/chemical and cybersecurity capabilities of GPT‑5.5 as High under our Preparedness Framework. While GPT‑5.5 didn't reach Critical cybersecurity capability level, our evaluations and testing showed that its cybersecurity capabilities are a step up compared to GPT‑5.4.
大多数人认为AI在网络安全领域的应用主要局限于防御辅助,而非直接参与核心安全任务。但作者暗示GPT-5.5已具备'高级'网络安全能力,这一分类表明AI已从被动防御工具向主动安全参与者转变,挑战了网络安全领域对人类主导地位的认知。
Losing access to GPT‑5.5 feels like I've had a limb amputated.
大多数人将AI工具视为辅助性资源,失去后只会带来不便而非功能丧失。但这位NVIDIA工程师的比喻表明,GPT-5.5已从辅助工具转变为不可或缺的'认知延伸',这种依赖程度远超当前主流认知中人与AI的关系定位,暗示了人机协作范式的根本性转变。
GPT‑5.5 delivers this step up in intelligence without compromising on speed: larger, more capable models are often slower to serve, but GPT‑5.5 matches GPT‑5.4 per-token latency in real-world serving, while performing at a much higher level of intelligence.
大多数人认为更强大的AI模型必然伴随着更高的计算成本和更慢的响应速度,但作者认为GPT-5.5打破了这一规律,实现了更高的智能水平与相同的延迟时间并存。这一反直觉的发现挑战了AI领域'能力与效率成反比'的传统认知,暗示模型架构优化可能比单纯扩大规模更有效。
Drug manufacturers pay pharmacy benefit managers rebates above 50% of list price for formulary access.
制药公司向药品福利管理商支付的回扣超过标价的50%,这一比例远高于OpenAI承诺的17%回报率。这表明在B2B分销渠道中,支付渠道费用是常见做法,但不同行业的支付比例差异很大,制药行业的渠道成本明显高于AI软件行业。
Google Cloud launched a parallel $750m fund to pay McKinsey, Accenture, and Deloitte to train engineers and co-fund client AI projects.
谷歌云的7.5亿美元基金规模约为OpenAI DeployCo(100亿美元)的7.5%,但谷歌云直接向咨询公司支付费用而非承诺回报率。这反映了不同AI厂商采用的不同分销策略,OpenAI通过PE firms获得企业渠道,而谷歌云则通过咨询公司实现市场渗透。
Structure: $500M OpenAI equity plus $4B from TPG, Bain, Advent, Brookfield, and Goanna form a $10B LLC.
DeployCo的结构显示OpenAI出资5亿美元(占总资金的5%),而PE firms出资40亿美元(40%),形成总计100亿美元的LLC。这种资本结构表明OpenAI虽然拥有超级投票权,但在资金贡献上处于次要位置,主要依靠PE firms的渠道网络来推广其产品。
The median US buyout fund returns 13% to 16% net.
文中提到美国收购基金的中位回报率为13-16%,而OpenAI承诺的17%回报率高于这一水平,约为行业平均值的1.06-1.3倍。这一差异表明OpenAI为了获得渠道优势愿意支付溢价,但也暗示了PE partners可能承担了额外的风险或OpenAI的业务模式需要实现超常增长。
OpenAI pledged $1.5B to a joint venture called DeployCo, guaranteeing private-equity partners a 17% annual return floor over five years.
OpenAI承诺的17%年化回报率显著高于行业平均水平(13-16%),这表明OpenAI愿意支付高额费用以确保其AI软件在企业市场的渗透。这种回报保证相当于为PE partners提供了风险缓冲,反映了OpenAI对市场扩张的强烈意愿,但也意味着OpenAI需要实现更高的业务增长来支撑这一承诺。
Jeremy didn't get laid off. He got leveraged.
大多数人认为在裁员潮中,高额使用AI工具的员工可能会被视为成本负担而被裁掉,但作者提出了一个颠覆性的观点:像Jeremy这样大量使用AI工具的员工不仅没有被裁员,反而获得了更大的杠杆效应和影响力。这挑战了人们对AI成本与价值的传统认知。
The Meta cuts are the inverse. When one person with the right AI tools can do the work of 10-to-15 people, the person most at risk isn't the one using the AI. It's the one whose job description overlaps with what AI now does by itself.
大多数人认为在AI时代,使用AI工具的员工会更有价值并保住工作,但作者提出了反直觉的观点:真正面临失业风险的是那些工作内容与AI功能重叠的人,而不是那些善于利用AI工具的人。这挑战了人们对AI技能价值的普遍理解。
A US lab would never; well, unless you count a code red or Meta's throw money at the problem moves.
大多数人认为美国AI实验室会始终保持技术领先优势并公开承认自己的不足,但作者暗示美国实验室(尤其是Meta)只会通过大量投入资金来掩盖技术差距,而非公开承认落后。这种观点挑战了人们对美国科技企业透明度和创新能力的传统认知。
The tradeoff is that the same input can map to more tokens—roughly 1.0–1.35× depending on the content type. Second, Opus 4.7 thinks more at higher effort levels, particularly on later turns in agentic settings. This improves its reliability on hard problems, but it does mean it produces more output tokens.
大多数人认为AI模型升级应该提高效率,减少资源消耗。但作者指出Claude Opus 4.7实际上会产生更多输出token,消耗更多计算资源。这种'效率降低'换取'可靠性提高'的权衡挑战了人们对AI发展必然带来效率提升的认知,表明在某些场景下,模型可能需要更多思考才能达到更好的结果。
Our alignment assessment concluded that the model is 'largely well-aligned and trustworthy, though not fully ideal in its behavior'. Note that Mythos Preview remains the best-aligned model we've trained according to our evaluations.
大多数人可能会认为最新、最强大的AI模型应该在对齐和安全性方面表现最好。但作者明确指出,虽然Claude Opus 4.7功能强大,但在对齐方面反而不如之前的Mythos Preview模型。这一反直觉的结论挑战了'能力越强,对齐越好'的普遍假设,暗示AI发展可能存在能力与对齐之间的权衡。
On some measures, such as honesty and resistance to malicious 'prompt injection' attacks, Opus 4.7 is an improvement on Opus 4.6; in others (such as its tendency to give overly detailed harm-reduction advice on controlled substances), Opus 4.7 is modestly weaker.
大多数人认为AI模型的每个新版本都应该在所有安全指标上都有进步。但作者明确指出Claude Opus 4.7在某些安全方面反而比前代模型表现更弱,这挑战了人们对AI安全线性进步的假设。这种非线性的安全表现表明,模型能力的提升可能伴随着某些方面的权衡,而非全面增强。
Opus 4.7 is better at using file system-based memory. It remembers important notes across long, multi-session work, and uses them to move on to new tasks that, as a result, need less up-front context.
大多数人认为AI模型在长对话中会逐渐'忘记'早期信息,需要不断重复上下文。但作者认为Claude Opus 4.7能够跨会话记忆重要信息,这挑战了人们对AI短期记忆局限的认知。这种持久记忆能力意味着AI可以真正进行长期项目,而不需要用户不断重复提供背景信息。
Interestingly, this means that prompts written for earlier models can sometimes now produce unexpected results: where previous models interpreted instructions loosely or skipped parts entirely, Opus 4.7 takes the instructions literally.
大多数人认为AI模型应该越来越能理解用户的意图,即使指令表达不够精确也能灵活处理。但作者认为Claude Opus 4.7反而更严格地遵循字面指令,这可能导致用户为旧模型编写的提示产生意外结果。这种'过度遵从'实际上是一种反直觉的进步,因为它减少了模型对用户意图的推测,增加了可预测性。
I had the intuition that these problems were kind of clustered together and they had some kind of unifying feel to them. And this new method is really confirming that intuition.
大多数人认为数学问题是孤立且独特的,每个问题需要专门的解决方法,但作者认为AI的发现证实了数学问题之间存在某种统一性和关联性,这挑战了人们对数学问题独立性的传统认知。
The LLM took an entirely different route, using a formula that was well known in related parts of math, but which no one had thought to apply to this type of question.
大多数人认为数学突破需要全新的理论和创新方法,但作者认为AI能够通过重新组合和应用现有知识来解决问题,这挑战了人们对创新必须来自全新理论的认知,展示了AI独特的知识连接能力。
For Anthropic, more usage across diverse tasks means more data, which produces a smarter model—just as more queries improved Google search.
大多数人认为AI公司的竞争在于模型架构或算法的优越性,但作者认为数据收集的广度才是关键,这与当前AI行业对模型架构的过度关注形成鲜明对比。
Commoditizing complements doesn't always work because focus is scarce even for the largest, fastest growing businesses.
大多数人认为科技巨头拥有无限资源可以同时追求多个战略方向,但作者强调即使是最大的企业也面临着注意力稀缺的挑战,这挑战了关于大企业无所不能的主流认知。
A free, good-enough product is enough to change market dynamics.
大多数人认为在科技领域只有最佳产品才能获胜,但作者认为在AI时代,一个'足够好'的免费产品就足以改变市场格局,这与传统产品竞争观念形成鲜明对比。
The risk of this strategy to the ecosystem is that it makes previously attractive categories no longer viable.
大多数人认为免费产品会促进市场竞争和创新,但作者指出这种策略实际上会摧毁某些市场类别,使其不再具有商业可行性,这挑战了传统经济学中关于竞争促进创新的认知。
The commoditization flywheel : both companies give away complements to drive usage of the core.
大多数人认为AI公司应该专注于核心产品并保持其专有性,但作者认为AI巨头应该效仿谷歌,通过免费提供互补产品来推动核心产品的使用,这与传统科技公司的护城河策略相悖。
Commoditizing complements doesn't always work because focus is scarce even for the largest, fastest growing businesses.
大多数人认为科技巨头拥有无限资源可以实施任何战略,但作者指出即使是最大的企业也面临注意力稀缺问题。这与对科技巨头的普遍认知相悖,暗示规模优势也有其局限性。
Some categories never developed a competitive response to this strategy: email, advertising infrastructure, user-generated video.
大多数人认为市场竞争总会产生有效的应对策略,但作者指出某些领域完全无法对免费化互补产品策略做出有效回应。这挑战了市场均衡理论,暗示某些市场结构可能注定无法抵抗这种战略。
A free, good-enough product is enough to change market dynamics.
大多数人认为市场竞争需要最佳产品才能获胜,但作者认为在AI时代,一个足够好的免费产品就足以颠覆市场。这与传统产品竞争观念相悖,暗示质量优势可能不如免费模式重要。
I'm not going to trust them to measure it.
大多数人认为AI工具应该能够客观衡量自己的贡献和价值,但作者完全拒绝信任这些工具的自我评估,认为它们有强烈的财务动机来夸大AI的贡献,这种不信任态度挑战了行业对AI工具自我报告数据的普遍接受。
If 90% is AI, do we even need a team?
大多数人认为AI代码生成工具应该被视为辅助工具,不会完全取代开发者,但作者指出,当AI贡献比例达到90%时,管理层可能会质疑开发团队的价值,这表明AI指标报告可能带来意想不到的组织结构和就业影响。
Writing code is not the same as software development. This is only capturing some level of acceleration while writing code, and does not capture time taken in architecture, debugging, review, and deployment.
大多数人认为高AI代码生成比例意味着软件开发效率的大幅提升,但作者指出这只是编码阶段的加速,不包括架构设计、调试、审查等更耗时的环节,因此高AI贡献比例并不等同于整体生产力的提升。
Cursor counted the entire file as AI, even though we can see from the diff that it left plenty of the lines unchanged.
大多数人认为AI代码指标应该精确追踪实际修改的代码行,但作者发现Cursor会将整个文件标记为AI生成,即使只修改了其中部分行,这表明AI工具的追踪系统存在严重缺陷,可能导致完全错误的贡献报告。
So even though I did 100% of the writing and 50% of the refactoring, Windsurf reports that 100% of the code I produced in that session was generated by AI.
大多数人认为代码生成工具的指标应该反映实际使用情况,但作者展示了即使开发者100%手动编写代码,Windsurf仍会报告100%的AI贡献,这表明其指标系统存在根本性缺陷,完全扭曲了实际贡献比例。
customers should expect PCW values of 85%+, often 95%+. This is not a hallucination and is accurate given how we compute this metric
大多数人认为AI代码生成工具应该客观、准确地衡量其贡献,但作者认为这些工具的报告数据被设计得极度偏向高AI贡献比例(85%-95%),因为它们的计算方法有严重缺陷,如不计算用户粘贴的代码、不计算自动添加的符号等,这些偏差导致AI贡献被高估。
Security is a defensive posture; agency is a functional right.
大多数人认为AI讨论中的安全问题主要涉及技术防御,但作者将其重新定义为功能性权利问题。这个观点挑战了安全讨论的主流框架,暗示我们应该从权利和代理的角度重新思考AI治理,而不仅仅是技术防护。
placing constraints upon them not only helps users and services build trust in them, but it also helps people more easily conceptualise what they do.
大多数人认为限制AI代理的能力会限制其创新和价值,但作者认为约束实际上能建立信任并帮助用户理解功能。这个观点挑战了'无限制创新'的主流科技叙事,暗示适当的约束可能带来更大的价值和采用。
Some proposals for AI agents assume that putting agentic code in a TEE or similar 'jail' will solve these problems, but that ignores the need to collectively bargain
大多数人认为通过技术手段(如可信执行环境)可以解决AI代理的信任问题,但作者认为这忽视了集体谈判的必要性。这个观点挑战了技术解决方案的万能论,强调了制度设计和多方协商的重要性。
lack of a well-defined user agent role in AI that's backed up by transparent, public standards... leaves a gap – it makes it harder for a marketplace to form.
大多数人认为AI代理的主要问题是技术或安全方面,但作者认为缺乏明确定义的用户代理角色和透明标准才是根本问题,这阻碍了健康市场的形成。这个观点挑战了行业对AI发展的主流叙事,强调了制度架构比技术实现更重要。
User Agents are a Form of Collective Bargaining
大多数人认为浏览器只是简单的工具,帮助用户访问网站,但作者将其重新概念化为'集体谈判'的形式,认为浏览器代表用户与网站进行利益平衡。这个观点挑战了我们对浏览器功能的传统认知,暗示它实际上是一种复杂的权力平衡机制。
Every time you use an Internet-connected computer, you're trusting someone (and most likely, a multitude) to act on your behalf.
大多数人认为互联网设备是工具,应该按照用户意图工作,但作者认为现代互联网设备实际上是代理,代表多方利益,这些利益可能与用户不一致。这挑战了我们对数字工具本质的理解,暗示我们使用的每台设备都在进行某种形式的'集体谈判'。
The agent interprets new information and adapts the logic. The engine applies that logic continuously and emits precise updates.
大多数人认为AI代理应该具备自主决策和执行能力。但作者提出了一种反直觉的分工模式:AI代理负责策略和逻辑调整,而执行引擎负责持续应用这些逻辑。这种模式将AI从'执行者'重新定位为'策略制定者',挑战了AI自主性的主流认知。
Agents and CDC streams are powerful together because they split the work well.
大多数人认为AI代理应该负责从端到端的任务执行。但作者认为AI代理和数据库引擎应该分工合作:代理负责解释新信息和调整逻辑,而数据库负责持续应用逻辑并发出精确更新。这种分工模式挑战了AI代理应该完全自主的主流观点。
With change data capture (CDC), the system emits a stream of precise updates: inserts, updates, deletes, each tied to specific records.
大多数人认为AI代理需要主动查询数据系统以获取信息。但作者提出了一种反直觉的方法:让数据库主动向AI代理发送变更事件,而不是让代理轮询或查询。这种模式将AI代理从主动查询者转变为被动响应者,从根本上改变了人机交互模式。
The fix is not smarter prompts. It is software built to meet agents halfway.
大多数人认为提高AI提示词质量是改善AI交互的关键。但作者认为真正解决方案是重新设计软件架构,使其与AI代理更好地协作,而不是改进提示词。这一观点颠覆了当前AI优化的主流方法,将焦点从AI本身转向系统设计。
Humans are not a good target for calm technology.
大多数人认为技术应该适应人类的工作方式和认知习惯。但作者认为人类不适合作为'平静技术'的目标,因为人类需要高认知负荷的交互。这一观点挑战了以用户为中心的设计原则,暗示我们应该重新思考人机交互的基本模式。
Today's agents, the copilots, the chatbots are designed to be human like.
大多数人认为AI助手应该模仿人类交互方式,使其更自然、更易用。但作者认为这种设计方向是错误的,因为它需要高认知负荷来交互、解析和管理,违背了'平静技术'的理念。作者暗示我们应该让AI更像机器而非人类,以减少认知负担。
A LeadDev survey found 54% of engineering leaders believe AI copilots will reduce junior hiring long-term.
大多数人认为AI会创造新的就业机会,但作者引用调查表明,行业领导者实际上计划减少初级岗位招聘。这与AI创造就业的主流叙事相悖,揭示了AI可能导致的就业结构变化。
When juniors skip debugging and skip the formative mistakes, they don't build the tacit expertise. And when my generation of engineers retires, that knowledge doesn't transfer to the AI.
大多数人认为AI可以替代人类学习过程,但作者认为跳过调试和错误经验会阻碍隐性知识的形成,导致关键能力无法传承。这与AI可以完全替代人类学习的普遍认知相悖。
The Pentagon told defense CEOs to consolidate or die. Fifty-one major defense contractors collapsed into five.
大多数人认为行业集中化可以提高效率和竞争力,但作者指出国防行业的集中化实际上导致了脆弱性增加和专业知识流失。这与主流的规模经济观点相悖,揭示了过度集中的风险。
A nuclear weapons program lost the ability to make a material it invented. The knowledge existed only in people, and the people were gone.
大多数人认为技术文档和记录足以保存知识,但作者通过Fogbank案例表明,关键知识往往只存在于人的经验中,一旦相关人才流失,即使有文档也无法重建。这挑战了文档化足以保存知识的普遍认知。
memory-driven experience scaling represents a crucial new frontier for agent scaling
大多数人认为智能体扩展应该主要通过增加模型参数或计算资源来实现。但作者提出经验驱动的记忆扩展是智能体扩展的关键新前沿,这挑战了传统扩展范式,暗示未来的AI发展可能更关注如何有效利用经验而非仅仅是扩大规模。
simple checklists evolved into memories with compositional, preventative logic structures
大多数人认为智能体的学习过程是线性的,从简单到复杂逐步发展。但作者观察到智能体的记忆结构经历了质变,从简单的程序清单演变成具有组合性和预防性逻辑的复杂结构。这挑战了对AI学习过程的线性理解,表明学习可能是非线性的、突变的,而非渐进的。
existing TTS methods often discard the exploration trajectory and treat the final answer as the only useful outcome
在测试时扩展(Test-time scaling)领域,主流观点认为只有最终结果才是有价值的,探索过程只是达到结果的手段。但作者认为被忽视的探索轨迹实际上是一个丰富的数据源,可以加速智能体从经验中学习的能力。这一观点挑战了传统TTS方法的价值评估标准。
this self-judgement does not need to be perfectly accurate, as we find ReasoningBank to be quite robust against judgment noise
大多数人认为智能体的自我评估需要高度准确才能有效学习,因为错误的判断会导致错误的记忆形成。但作者认为即使自我判断存在噪声,ReasoningBank仍然能够有效运作,这挑战了传统对评估精确性的严格要求,表明系统可能比预期更能容忍不完美的自我评估。
by over-emphasizing successful experiences, they miss out on a primary source of learning — their own failures
主流观点认为成功经验是学习的主要来源,应该被优先记录和分析。但作者认为失败经验实际上可能是更重要的学习资源,因为它提供了反事实信号和潜在陷阱的宝贵信息。这一观点挑战了传统只关注成功案例的做法,提出失败可能是更强大的学习驱动力。
by recording detailed actions instead of tactical foresight, they fail to distill higher-level, transferable reasoning patterns
大多数人认为记录详细的行动轨迹是智能体学习的最佳方式,因为这样可以保留完整的决策过程。但作者认为这种方法实际上阻碍了学习,因为它只关注具体动作而非可转移的高层次推理模式。这挑战了传统记忆存储的常识,表明简单记录所有交互并不等同于有效学习。