3,192 Matching Annotations
  1. Apr 2026
    1. The minimum training cutoffs are: ECI (June 2024), METR Time Horizon (January 2024), Combined Math (September 2024), and WeirdML V2 (January 2025).

      这些时间节点表明研究使用的数据集长度不同,从2024年初到2024年中不等。较短的训练数据集(如WeirdML V2只有约1年的推理模型前数据)可能限制了检测加速的能力,这解释了为什么该指标未能显示加速趋势。时间跨度的差异也反映了不同AI能力指标的发展历史不同。

    2. Our fourth metric, an index constructed from WeirdML V2 results, showed no sign of acceleration. A single global linear trend fit the data best.

      25%的指标(WeirdML V2)没有显示加速趋势,这与其它三个指标形成鲜明对比。这个差异可能是因为WeirdML V2设置了资源限制环境(模型只有5次提交代码的机会,无法使用外部工具),这可能反映了现实世界应用中的约束条件,提示AI进步可能并非在所有领域都均匀加速。

    3. We use four AI capability metrics: ECI (Epoch Capabilities Index), METR 50% Time Horizon, Combined Math Index, and WeirdML V2 Index.

      研究使用了四个不同的AI能力指标,这增加了结果的可靠性。每个指标都从不同维度测量AI能力,包括综合能力(ECI)、时间效率(METR)、数学能力(Combined Math)和特定环境下的性能(WeirdML)。多指标方法减少了单一指标的偏差风险。

    4. Reasoning models show both a one-off jump in performance and a roughly 2-3x faster trend compared to non-reasoning models.

      2-3倍的速度差异是一个非常显著的数字,表明推理模型与非推理模型之间存在明显的性能差距。这个倍数关系暗示了架构变化可能带来的性能飞跃,而非简单的线性改进。这一数据点支持了推理能力可能是AI进步关键驱动力的假设。

    5. Three of the four metrics (ECI, log METR 50% time horizon, and a math-focused index we constructed from several math benchmarks) show strong evidence that progress has sped up relative to a global linear trend fit to data from 2023 onward.

      这个数据点表明75%的AI能力指标显示加速趋势,这是一个相当高的比例。文章提到这种加速始于2023年,与推理模型的出现时间吻合。这个比例值得注意,因为它表明AI进步可能正在经历一个质的转变,而非仅仅是量的累积。

    6. The three metrics where we find acceleration are concentrated in programming and mathematics. These are areas that labs have explicitly targeted for improvement

      这个观察揭示了AI能力加速的领域局限性。编程和数学领域的加速可能是因为这些领域被明确作为改进目标,且正确性容易验证。这表明AI进步可能是有选择性的,而非全面性的,对评估整体AI进展有重要启示。

    7. Our fourth metric, an index constructed from WeirdML V2 results, showed no sign of acceleration. A single global linear trend fit the data best.

      这个25%的指标没有显示加速现象,表明AI能力加速可能不是普遍适用的。WeirdML V2的特殊环境(资源受限、无外部工具)可能解释了这一差异,但也暗示了AI能力加速可能集中在特定领域,特别是那些容易自动验证正确性的领域。

    8. The best-performing model across these three metrics was a pair of independent linear trends: one for reasoning models and one for non-reasoning models.

      这个发现表明推理模型和非推理模型的发展轨迹确实存在显著差异。这种分离的线性趋势模型在三个指标上表现最佳,100%的情况下优于其他模型,提供了强有力的统计证据支持AI能力加速的论点。

    9. Reasoning models show both a one-off jump in performance and a roughly 2-3x faster trend compared to non-reasoning models.

      这个2-3倍的速度差异是显著的,表明推理模型带来了质的飞跃。这种加速幅度远高于典型的技术进步速度,暗示了AI发展可能进入了一个新阶段。然而,这个倍数范围较宽,缺乏精确的统计显著性检验。

    10. Three of four metrics show strong evidence of acceleration, driven by reasoning models.

      这是一个关键数据点,表明75%的AI能力指标显示加速趋势。这个比例相当高,表明AI能力加速现象可能不是偶然的。然而,这个数据基于四个特定指标,可能不全面代表所有AI能力领域。需要更多指标验证这一结论的普适性。

    11. The three metrics where we find acceleration are concentrated in programming and mathematics.

      文章明确指出显示加速的三个指标主要集中在编程和数学领域。这是一个重要的限制,因为正确性在这些领域容易自动验证,使它们成为强化学习的自然目标。这表明AI能力的加速可能不适用于所有领域,特别是在那些难以自动验证正确性的任务上。

    12. We select the median-difficulty question from the set with maximum model coverage and standardize it to 0.

      在构建数学指数时,研究人员选择具有最大模型覆盖率的集合中的中等难度问题,并将其标准化为0。这是一个关键的统计处理步骤,用于确保不同难度和评分的基准测试可以放在同一尺度上比较。这种标准化方法使得不同模型的表现可以直接比较。

    13. We work with the natural logarithm of the time horizon, which puts it on an approximately linear scale.

      文章提到对METR时间范围进行自然对数转换,使其处于近似线性尺度。这种数学转换表明原始数据可能呈指数增长,转换后才能更好地分析线性趋势。这种处理方式在分析AI进步率时很常见,因为它能更好地处理跨越多个数量级的数据。

    14. The minimum training cutoffs are: ECI (June 2024), METR Time Horizon (January 2024), Combined Math (September 2024), and WeirdML V2 (January 2025).

      这些时间节点显示了各数据集的最小训练截止点,时间跨度从2024年1月到2025年1月。值得注意的是,WeirdML V2的数据集最短(从2025年1月开始),这可能解释了为什么该指标没有显示出加速趋势,因为数据不足以检测到趋势变化。

    15. Reasoning models show both a one-off jump in performance and a roughly 2-3x faster trend compared to non-reasoning models.

      推理模型比非推理模型显示出2-3倍的性能提升速度,这是一个显著的增长率差异。这个倍数差异表明推理模型的引入可能代表了AI发展的一个重要转折点。然而,文章也指出无法确定精确的增长率,因为多种非线性拟合都能很好地解释数据。

    16. Three of four metrics show strong evidence of acceleration, driven by reasoning models.

      这一数据点表明75%的AI能力指标显示加速趋势,这是一个相当高的比例。然而,文章也指出第四个指标(WeirdML V2)没有显示加速,这表明加速可能并非普遍存在于所有AI能力领域。这个比例需要谨慎解读,因为它基于有限的四个指标,且主要集中在数学和编程领域。

    1. Chinese authorities have reportedly been pushing data centers and public computing projects to use more domestic chips, including through reported bans on foreign-made chips, sourcing quotas, and requirements to pair Nvidia chips with Chinese alternatives.

      大多数人认为中国芯片政策主要是市场驱动,但作者揭示了中国政府通过强制配额、禁令等行政手段推动国产芯片使用。这一观点挑战了'中国AI发展主要依靠市场力量'的共识,突显了国家战略在技术发展中的主导作用。

    2. DeepSeek does not appear to have fully moved beyond Nvidia. The company's technical report reveals that it is using Chinese chips to run the model for inference, but...appears to have adapted only part of V4's training process for Chinese chips.

      大多数人认为中国AI公司已经完全摆脱了对Nvidia的依赖,但作者认为DeepSeek V4仍主要依赖Nvidia芯片进行训练,仅在推理阶段使用中国芯片。这一观点挑战了'中国AI已实现完全自主'的主流叙事,暗示技术脱钩比表面看起来更为复杂。

    3. In a 1-million-token context, V4-Pro uses only 27% of the computing power required by its previous model, V3.2, while cutting memory use to 10%.

      大多数人认为AI模型处理更长上下文必然需要更多计算资源,但作者认为DeepSeek V4通过创新架构实现了惊人的效率提升,大幅降低了计算和内存需求。这一反直觉的发现挑战了'长上下文等于高成本'的行业认知。

    4. DeepSeek V4 exceeds them all on coding, math, and STEM problems, making it one of the strongest open-source models ever released.

      大多数人认为开源AI模型在性能上无法匹敌闭源商业模型,但作者认为DeepSeek V4在多个关键领域超越了其他开源模型,甚至与顶级闭源模型相当。这挑战了'开源必然意味着性能妥协'的行业共识,暗示开源模型正在迅速缩小与商业模型的差距。

    1. Some categories never developed a competitive response to this strategy : email, advertising infrastructure, user-generated video.

      大多数人认为市场竞争最终会形成平衡,所有行业都会有相应的竞争策略,但作者指出有些类别从未对免费化策略形成有效回应,这表明市场并非总是自我调节,存在结构性失衡。这一观点挑战了自由市场的完美竞争理论。

    2. For Anthropic, more usage across diverse tasks means more data, which produces a smarter model—just as more queries improved Google search.

      大多数人认为AI公司的竞争在于模型架构或参数规模,但作者认为真正的竞争优势来自用户数据和多样化使用场景,这类似于谷歌的搜索数据飞轮效应。这一观点挑战了AI领域的主流技术决定论,强调了数据网络效应的战略价值。

    3. But plenty of categories survived through specialization or direct competition : cloud, travel, domain registration, social networking. Commoditizing complements doesn't always work because focus is scarce even for the largest, fastest growing businesses.

      大多数人认为科技巨头的免费策略所向披靡,能够颠覆任何行业,但作者认为即使是谷歌这样的巨头也无法在所有领域成功实施这一策略,因为专注力是稀缺资源。这一观点挑战了'大公司无所不能'的主流认知。

    4. The risk of this strategy to the ecosystem is that it makes previously attractive categories no longer viable. Commoditizing the complement does not demand a best-in-class replacement.

      大多数人认为市场竞争总是促进产品质量提升和创新,但作者认为谷歌和Anthropic的免费化策略实际上可能扼杀某些行业的创新动力,因为'足够好'的免费产品就足以改变市场动态,这与传统经济学中的竞争理论相悖。

    1. The filing cabinet keeps getting bigger. But a bigger filing cabinet is still a filing cabinet.

      大多数人认为通过扩大上下文窗口和检索能力可以解决AI的'记忆'问题,但作者认为这本质上只是让文件柜变大,而没有改变其本质。这个观点挑战了当前AI领域对'扩展上下文'的主流研究方向,暗示我们需要从根本上重新思考AI如何存储和处理信息,而不仅仅是扩大容量。

    2. The current separation between training and deployment is not just an engineering convenience – it is a safety, auditability, and governance boundary.

      大多数人认为训练和部署的分离只是工程上的限制,但作者认为这种分离实际上是必要的边界,关乎安全、可审计性和治理。这个观点挑战了AI社区中普遍认为的'模型应该能够持续学习'的共识,暗示开放模型参数更新可能带来严重的安全和治理问题。

    3. A system that can look up any fact has not been forced to find structure. It has not been forced to generalize.

      大多数人认为拥有大量信息和检索能力的系统已经'学习'了,但作者认为真正的学习需要压缩和抽象能力,而不仅仅是检索。这个观点挑战了当前AI领域对'记忆'的普遍理解,暗示当前的RAG和长上下文方法实际上阻碍了真正的学习发生。

    4. The intelligence lives in the static parameters, and the apparent capabilities change radically depending on what you feed into the window.

      大多数人认为AI模型的智能来自于其参数和输入内容的结合,但作者认为智能实际上完全存在于静态参数中,输入内容只是触发不同表现的开关。这个观点挑战了主流认知,因为它暗示模型本身是固定的,而变化仅来自于外部输入,这与我们通常认为模型能够通过输入'学习'的观点相悖。

    5. A system that can look up any fact has not been forced to find structure. It has not been forced to generalize. The lossy compression that makes training so powerful, the mechanism that turns raw data into transferable representations, is exactly what we shut off the moment we deploy.

      这个观点揭示了检索与学习的本质区别。当前AI系统虽然可以检索任何事实,但被迫寻找结构和归纳的能力却被关闭了。这挑战了我们对AI'智能'的理解,暗示真正的智能需要能够从经验中学习和归纳,而不仅仅是检索信息。

    6. The filing cabinet keeps getting bigger. But a bigger filing cabinet is still a filing cabinet. The breakthrough is letting the model do after deployment what made it powerful during training: compress, abstract, and learn.

      文章以'文件柜'的比喻生动地说明了当前AI系统的局限性。即使上下文窗口不断扩大,本质上仍然只是更大的文件柜。真正的突破是让模型在部署后继续执行训练时的核心能力:压缩、抽象和学习。这个观点挑战了当前AI发展的主流方向,提出了一个令人深思的问题:我们是否在追求错误的解决方案?

    1. A core conviction at Sakana AI is that the most capable AI systems will not be monolithic models scaled in isolation, but collections of specialized agents working together.

      大多数人认为更强大的AI系统必然是更大规模、更复杂的单一模型,但作者明确表示最具能力的AI系统将不是孤立扩展的单一模型,而是多个专业化代理的集合。这直接挑战了当前AI领域追求更大单一模型的共识,提出了一个根本不同的研究方向。

    2. Sakana Fugu coordinates pools of frontier foundation models to achieve state-of-the-art performance across coding, mathematics, scientific reasoning, etc.

      大多数人认为最先进的AI系统应该是单一的大型基础模型,但作者认为通过协调多个前沿基础模型组成的系统可以达到更好的性能。这挑战了当前AI行业追求更大单一模型的趋势,提出了一个多模型协作的替代路径。

    3. The depth of recursion becomes a tunable compute axis at inference time, requiring no retraining. A small model, by reading itself, can iterate toward answers that neither it nor any of its workers could reach in a single pass.

      大多数人认为模型性能提升需要更大的参数规模或重新训练,但作者提出了一种反直觉的方法:通过递归调用自身,小模型可以在推理时自我迭代,达到单次推理无法达到的答案质量。这挑战了我们对模型规模与能力关系的传统认知。

    1. GPT‑5.5 found a proof of a longstanding asymptotic fact about off-diagonal Ramsey numbers, later verified in Lean. The result is a concrete example of GPT‑5.5 contributing not just code or explanation, but a surprising and useful mathematical argument in a core research area.

      大多数人认为AI在数学研究中的作用主要是辅助计算和验证,但作者认为GPT-5.5能够独立发现数学证明,这在数学研究领域是革命性的。这一观点挑战了人们对AI在创造性思维和抽象推理领域能力的传统认知,暗示AI可能正在从工具转变为研究伙伴。

    2. The viable path is trusted access, robust safeguards that scale with capability, and the operational capacity to detect and respond to serious misuse.

      大多数人认为AI安全应该通过限制访问和严格监管来实现,但作者认为'可信访问'结合'随能力扩展的保障措施'才是可行路径。这一观点挑战了传统的AI安全治理理念,暗示过度限制可能会阻碍AI防御能力的充分发挥,而平衡的开放与安全才是最佳策略。

    3. We are treating the biological/chemical and cybersecurity capabilities of GPT‑5.5 as High under our Preparedness Framework. While GPT‑5.5 didn't reach Critical cybersecurity capability level, our evaluations and testing showed that its cybersecurity capabilities are a step up compared to GPT‑5.4.

      大多数人认为AI在网络安全领域的进步应该是渐进式的,但作者暗示GPT-5.5代表了网络安全能力的显著跃升,达到了'高'级别而非仅仅'临界'级别。这一观点挑战了人们对AI安全能力发展速度的预期,暗示AI在防御复杂网络威胁方面可能比人们想象的进步更快。

    4. GPT‑5.5 delivers this step up in intelligence without compromising on speed: larger, more capable models are often slower to serve, but GPT‑5.5 matches GPT‑5.4 per-token latency in real-world serving, while performing at a much higher level of intelligence.

      大多数人认为更强大的AI模型必然伴随着更高的计算成本和更慢的响应速度,但作者认为GPT-5.5打破了这一权衡关系,实现了更高智能的同时保持相同的延迟。这挑战了AI领域'能力与效率不可兼得'的传统观点,暗示了模型架构和推理算法的重大突破。

    5. The gains are especially strong in agentic coding, computer use, knowledge work, and early scientific research—areas where progress depends on reasoning across context and taking action over time.

      大多数人认为AI进步主要是在特定任务上的表现提升,但作者认为GPT-5.5的真正突破在于其跨上下文推理和长时间行动的能力,这挑战了人们对AI发展路径的传统认知。这种'代理式能力'的提升比简单的任务完成更为重要,因为它代表了AI向更接近人类工作方式的转变。

    6. We are treating the biological/chemical and cybersecurity capabilities of GPT‑5.5 as High under our Preparedness Framework. While GPT‑5.5 didn't reach Critical cybersecurity capability level, our evaluations and testing showed that its cybersecurity capabilities are a step up compared to GPT‑5.4.

      大多数人认为AI在网络安全领域的应用应该被严格限制或视为威胁,但作者认为GPT-5.5的网络安全能力是'进步'而非危险,并将其归类为'高级'而非'关键'风险级别。这与主流的'AI网络安全威胁论'相悖,暗示AI可能成为网络安全防御的重要工具而非主要威胁。

    7. GPT‑5.5 is priced higher than GPT‑5.4, it is both more intelligent and much more token efficient. In Codex, we have carefully tuned the experience so GPT‑5.5 delivers better results with fewer tokens than GPT‑5.4 for most users

      大多数人认为更强大的AI模型必然会导致更高的计算成本和资源消耗,但作者认为GPT-5.5虽然价格更高,但实际上更高效,能用更少的token提供更好的结果。这与AI领域'性能提升必然伴随成本上升'的共识相悖,暗示模型优化可能比规模扩张更经济高效。

    8. The viable path is trusted access, robust safeguards that scale with capability, and the operational capacity to detect and respond to serious misuse.

      大多数人认为随着AI能力增强,应该更严格限制其访问以防止滥用,但作者认为'可信任的访问'和'随能力扩展的安全保障'才是可行路径。这与主流的'限制性安全'观点相悖,暗示开放但有强监管的AI部署可能比封闭式AI更安全有效。

    9. GPT‑5.5 is our strongest agentic coding model to date. On **Terminal-Bench 2.0,** which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%.

      大多数人认为AI在复杂编程任务中仍需要人类监督和干预,但作者认为GPT-5.5已经能在复杂的命令行工作流中达到82.7%的准确率,这挑战了'AI编程助手仍处于辅助阶段'的共识,暗示AI可能在某些编程领域已经接近或达到专业人类水平。

    10. GPT‑5.5 delivers this step up in intelligence without compromising on speed: larger, more capable models are often slower to serve, but GPT‑5.5 matches GPT‑5.4 per-token latency in real-world serving, while performing at a much higher level of intelligence.

      大多数人认为更强大的AI模型必然会牺牲速度和效率,但作者认为GPT-5.5打破了这一传统权衡关系,实现了更高智能的同时保持相同延迟。这挑战了AI领域'更大模型必然更慢'的共识,暗示模型架构优化可能比单纯扩大规模更重要。

    1. Without our safeguards in place (which we do to measure a model's raw capabilities), only Mythos Preview and Opus 4.7 completed more than half the tasks.

      大多数人认为高级AI模型在没有安全措施的情况下会自主执行复杂任务,但作者暗示即使是最先进的模型在没有人类指导的情况下也难以完成大多数任务。这挑战了AI自主性和能力的普遍认知,暗示AI可能比人们想象的更依赖人类监督。

    2. We also welcome feedback and input from third parties and industry experts. We're currently working with The Future of Free Speech (an independent think tank at Vanderbilt University), the Foundation for American Innovation, and the Collective Intelligence Project

      大多数人认为科技公司会独立制定AI政策并保持控制,但作者强调Anthropic积极寻求外部机构和专家的合作。这挑战了科技公司通常的封闭决策模式,暗示AI治理需要多方参与而非企业单方面主导。

    3. if AI models can answer these questions well (that is, accurately and impartially), they can be a positive force for the democratic process.

      大多数人认为AI在政治领域会带来偏见和操纵风险,但作者认为AI可以成为民主进程的积极力量,前提是它能准确且无偏见地回答问题。这挑战了主流对AI政治应用的担忧,暗示AI可能比传统信息渠道更可靠。

    1. Out of 28 paid and 400 free routers: > 9 injected malicious code into tool calls > 17 touched researcher-owned AWS credentials > 1 drained $500k from an Ethereum wallet

      大多数人认为付费API路由器比免费路由器更安全,但作者的研究表明即使是付费路由器也存在严重安全风险,因为无论付费与否,这些中间服务都有能力访问和操纵所有数据。这挑战了人们对'付费等于安全'的普遍认知。

    2. Some attacks only fired after 50 prior calls. Others activated only in auto-approve mode.

      大多数人认为安全威胁会立即显现,但作者认为许多攻击是经过精心设计的,会延迟激活或在特定条件下才触发,因为攻击者采用渐进式策略来避免被检测。这挑战了人们对即时威胁检测的假设。

    1. a lightweight surrogate trained on them can absorb a significant portion of future traffic at near-zero marginal inference cost

      大多数人认为模型替换会带来明显的质量下降或需要持续监督。但作者提出轻量级代理模型可以'吸收大量未来流量'且'边际推理成本接近零',这种近乎零成本的替代方式颠覆了传统模型替换的质量-成本权衡观念。

    2. On a 150-class benchmark, the surrogate fully replaces the teacher

      大多数人认为复杂分类任务需要大型模型才能处理,小型代理模型只能处理简单任务。但作者展示了一个150类复杂任务中,小型代理模型完全能够替代教师模型,这挑战了'越大越好'的主流认知,证明了高效路由的潜力。

    3. the surrogate is activated only when its agreement with the LLM exceeds a user-specified threshold α

      大多数人认为模型部署应该是全有或全无的,要么完全替代原模型要么完全不使用。但作者提出了一种'部分激活'的激进方法,只在代理模型与原模型达到特定一致性阈值时才使用代理,这种细粒度的控制方式打破了传统的二元部署思维。

    1. The DESIGN.md format is at version `alpha`. The spec, token schema, and CLI are under active development. Expect changes to the format as it matures.

      大多数人期望成熟的设计系统规范应该是稳定和向后兼容的。但作者明确表示DESIGN.md仍处于alpha阶段并预期会有重大变化,这挑战了设计系统应该高度稳定的主流认知,表明创新性工具可以采用更灵活的演进路径。

    2. Components map a name to a group of sub-token properties: ... Variants (hover, active, pressed) are expressed as separate component entries with a related key name.

      大多数人认为组件变体应该通过嵌套结构或条件逻辑来组织,这是现代UI框架的标准做法。但作者选择将每个变体表示为独立的组件条目,这种扁平化结构挑战了组件变体的传统组织方式,可能使某些复杂场景的维护变得更加困难。

    3. Unknown section heading | Preserve; do not error

      大多数人认为严格的格式规范应该拒绝未知或不合规的部分,以确保一致性。但作者选择保留未知标题而不报错,这表明设计系统应该允许扩展和进化,而不是被严格规范所限制,这是一种反直觉的开放性设计原则。

    4. A DESIGN.md file combines machine-readable design tokens (YAML front matter) with human-readable design rationale (markdown prose). Tokens give agents exact values. Prose tells them _why_ those values exist and how to apply them.

      大多数人认为设计系统应该完全由机器可读的配置文件定义,以确保一致性和自动化。但作者认为DESIGN.md格式需要同时包含机器可读的YAML前缀和人类可读的Markdown正文,因为人类提供的上下文和设计推理对AI理解设计意图至关重要,这挑战了纯配置驱动的设计系统理念。

    5. Unknown component property | Accept with warning

      大多数人认为设计系统应该严格限制和验证所有属性,以确保一致性和可预测性。但作者认为应该接受未知组件属性,但仅发出警告。这种方法挑战了传统设计系统必须严格控制所有方面的观念,提供了一种更为灵活的方法,允许创新和扩展,同时仍保持基本的结构和约束。

    6. Unknown section heading | Preserve; do not error

      大多数人认为设计系统规范应该严格且强制执行特定的结构和格式,以确保一致性。但作者认为应该允许未知部分标题的存在并保留它们,而不报错。这挑战了传统设计系统规范必须严格控制的观念,强调了规范应该具有一定的灵活性和适应性,以适应不同的设计需求和上下文。

    7. Components map a name to a group of sub-token properties: ... Valid component properties: backgroundColor, textColor, typography, rounded, padding, size, height, width.

      大多数人认为组件应该被定义为完整的、独立的实体,包含所有必要的样式和功能。但作者认为组件应该被定义为对已有设计 tokens 的引用和组合,而不是独立的样式定义。这种方法挑战了传统的组件设计理念,强调了设计系统中的复用性和一致性而非组件独立性。

    8. The tokens are the normative values. The prose provides context for how to apply them.

      大多数人认为设计规范应该优先考虑精确的技术规格和约束条件。但作者认为 prose(描述性文本)与 tokens(规范值)同等重要,甚至可能更重要,因为它提供了应用上下文。这挑战了传统设计系统完全由技术规范主导的观念,强调了人文因素在设计系统自动化中的关键作用。

    9. A DESIGN.md file combines machine-readable design tokens (YAML front matter) with human-readable design rationale (markdown prose). Tokens give agents exact values. Prose tells them _why_ those values exist and how to apply them.

      大多数人认为设计系统应该完全由机器可读的代码或配置文件定义,以确保一致性和自动化。但作者认为,将人类可读的设计 rationale 与机器可读的 tokens 结合是更好的方法,因为 prose 能提供设计意图和上下文,这对于 AI 理解和应用设计系统至关重要。这是一种将人类设计师的意图与机器执行能力相结合的非传统方法。

    1. 继续做通用 UX 是最危险的位置,它正是最容易被 AI 和产品经理上下夹击的中间层。

      大多数人认为UX设计师的核心价值在于通用用户体验设计,但作者认为这一角色在AI时代面临被取代的风险。这一挑战性观点暗示设计师需要向架构型或业务型方向发展,否则可能被AI和产品管理双重挤压,反映了行业对设计师角色未来发展的深刻思考。

    2. 其中 Pattern 是最容易被忽略也最关键的一层,它定义了'在具体业务场景下该怎么组合这些组件',是 AI 时代设计系统真正的价值所在。

      大多数设计系统实践者主要关注组件库和基础规范,但作者认为模式层(Pattern)才是设计系统的核心价值所在。这一观点与主流认知相悖,因为大多数团队将大量资源投入到组件开发,而忽略了场景化的模式组合,而这恰恰是AI时代设计系统最有价值的部分。

    1. At our request, the underwriters have reserved up to _______% of the shares of Class A common stock offered by this prospectus for sale at the initial public offering price through a directed share program to certain persons identified by our management and certain long-tenured employees, which may include parties with whom we have a business relationship and friends and family of management and such employees.

      大多数人认为IPO分配应该基于市场机制和机构投资者需求,但Cerebras预留大量股份给管理层、员工及其关系网络。这挑战了IPO公平分配的普遍认知,暗示公司可能优先考虑内部人利益而非最大化股东价值。

    2. We have applied to list our Class A common stock on the Nasdaq Global Select Market under the symbol 'CBRS,' and this offering is contingent upon the listing of our Class A common stock on the Nasdaq Global Select Market.

      大多数人认为IPO成功是公司财务健康的标志,但Cerebras将上市成功与股票上市直接挂钩,暗示公司可能认为即使融资成功,若不能在纳斯达克挂牌,其价值主张将大打折扣。这挑战了IPO过程中融资和上市是两个独立步骤的常规认知。

    1. Distributed systems background - real-time sessions, cloud infrastructure (AWS), and production reliability

      大多数人认为游戏引擎开发主要关注客户端性能和用户体验,但这里强调分布式系统、实时会话和云基础设施,表明ARC Prize将游戏视为分布式系统的一部分,这与传统游戏开发中客户端优先的理念形成鲜明对比。

    2. Hands-on experience building or maintaining a game engine (must), with strong Python fundamentals (must)

      大多数人认为高性能游戏引擎必须使用C++等低级语言,但这里明确要求Python作为游戏引擎的核心语言,挑战了游戏开发领域的传统认知,表明在AI评估场景中,开发速度和灵活性可能比性能优化更重要。

    3. A senior engineer to own and evolve the game engine and real-time play infrastructure behind the ARC-AGI series.

      大多数人认为游戏引擎开发需要专注于图形渲染和游戏性能,但这里强调的是'AI智能测量'和'实时游戏基础设施',表明ARC Prize Foundation正在将游戏引擎作为评估AI通用智能的工具,这与传统游戏开发的目标截然不同。

    1. Begin with fast checks that explain behavior, then add slower, heavier checks only when they reduce risk.

      大多数人可能认为全面的评估应该从一开始就包含所有可能的检查,但作者主张渐进式评估方法,从快速检查开始,只在必要时添加更复杂的检查。这个观点挑战了'一次性全面测试'的常规做法,主张风险驱动的评估策略。

    2. The most reliable way to improve a skill over time is to evaluate it the same way you would any other prompt for LLM applications.

      大多数人可能认为AI代理技能需要特殊的、独特的评估方法,但作者认为它们应该被视为普通LLM提示应用的一部分进行评估。这个观点挑战了AI代理评估需要特殊框架的共识,主张统一的方法论。

    1. It happens several times a year in the US alone, often unreported, and about 100 times a year worldwide.

      大多数人认为实验室泄漏是罕见且重大事件,但作者暗示这类事件相当常见且未被充分报道,这颠覆了公众对实验室安全标准的认知,暗示问题比普遍认为的更普遍。

    2. Nor does it matter, given that the modifying strains for pathogens for research purposes is what every research lab does, because that is what virology is.

      大多数人认为实验室病原体研究存在特殊风险,但作者认为这种研究是常规且必要的,暗示实验室泄漏问题被过度政治化。这一观点挑战了公众对生物安全风险的普遍担忧。

    3. And since then, there is no more scientific evidence or verifiable sources. Hence the reason the CIA didn't even believe it and gave it the lowest confidence rating it has.

      大多数人认为实验室泄漏理论有充分证据支持,但作者认为缺乏科学证据,因为CIA给予了最低置信度评级。这与主流媒体和政治叙事形成鲜明对比,挑战了公众对COVID-19起源的普遍认知。

    1. This is the part people miss about AI-native companies - the $113k is not a cost, it is your headcount budget allocated differently.

      大多数人认为AI成本是额外的支出,但作者认为AI成本实际上是对人力预算的重新分配。这挑战了传统成本会计观念,暗示AI不是成本而是投资,但也可能低估了AI实际成本和维护的复杂性。

    2. Our goal is $10M ARR [annual recurring revenue] with a sub-10 person org.

      大多数人认为高收入公司需要大量员工和复杂组织结构,但作者认为AI可以实现极简组织架构。这挑战了传统商业规模理论,暗示AI可以颠覆企业组织的基本模式,但也可能忽视了人类创造力和判断力的不可替代性。

    3. The real unlock is compound scaling—token spend grows linearly while output grows exponentially.

      大多数人认为AI投入与产出成正比,但作者认为AI投入可以实现指数级增长,远超线性投入。这挑战了传统商业认知,暗示AI可以创造超常规回报,但也可能掩盖了AI实际效益被夸大的风险。

    1. We imagine a world where all of the tools you use are as rich and visual as the world we live in.

      大多数人认为数字工具应该追求效率和精确性,往往以牺牲视觉丰富性为代价,但作者认为未来的工具应该像现实世界一样丰富和视觉化,这一观点挑战了我们对实用主义设计的传统认知,暗示了体验至上可能成为新的设计哲学。

    2. If the most effective way to communicate something were a single word, an illustration, or a photorealistic rendering, that's what you'd see.

      大多数人认为信息呈现应该遵循一致的模式和格式,但作者认为最有效的沟通方式应该是动态变化的,可以根据内容自动选择最佳呈现形式,这一观点挑战了我们对UI一致性和标准化设计的传统认知。

    3. The screen you're reading this on is already presenting you an image, it's just generated with rigid code and rules that makes it difficult to communicate complex and detailed ideas.

      大多数人认为我们当前的屏幕显示是由代码和规则构建的功能性界面,但作者认为这已经是图像,只是被 rigid code 限制,这一观点挑战了我们对UI本质的理解,暗示所有界面本质上都是视觉表现,只是灵活度不同。

    4. All text on the screen is rendered as pixels by the image model. There are no text overlays applied to the images.

      大多数人认为屏幕上的文字是独立的文本层,可以单独编辑和搜索,但作者认为所有文本都是作为像素由图像模型渲染的,这与我们对用户界面文本处理的基本认知相悖,暗示了未来计算可能完全基于视觉而非文本。

    5. The entire web is just generated pixels on your screen.

      大多数人认为网页是由HTML、代码和特定链接构成的,但作者认为整个网络只是屏幕上生成的像素,这是一个颠覆性的观点,挑战了我们对互联网本质的传统认知。如果这个观点成立,将彻底改变我们对网络结构和信息呈现方式的理解。

    1. Vercel is advising Google Workspace administrators and Google account owners to check for the following application: OAuth App: 110671459871-30f1spbu0hptbs60cb4vsmv79i7bbvqj.apps.googleusercontent.com

      大多数人认为企业安全事件主要影响企业自身系统,但作者指出这次事件实际上要求普通Google Workspace管理员检查特定应用,这挑战了'企业安全事件仅影响企业内部'的常见认知,表明第三方应用的安全风险可能广泛影响普通用户。

    2. threat actors linked to recent attacks attributed to the ShinyHunters extortion gang have denied to BleepingComputer that they are involved in this incident.

      大多数人声称黑客组织会主动承认自己的攻击行为以获取声誉,但作者指出ShinyHunters成员否认参与此次攻击,这与黑客组织通常通过认领攻击来增强威慑力的行业共识相悖。

    3. Unfortunately, the attacker got further access through their enumeration.

      大多数人认为环境变量即使不敏感也难以被利用,但作者指出攻击者通过枚举这些变量获得了进一步访问权限,这挑战了'非敏感数据不值得保护'的常见观念,暗示即使是看似无害的数据也可能成为攻击链的一部分。

    4. the initial access occurred after a Vercel employee's Google Workspace account was compromised via a breach at the AI platform Context.ai.

      大多数人认为大型云平台的漏洞主要来自外部直接攻击,但作者暗示这次安全事件实际上是通过第三方AI平台Context.ai的漏洞间接导致的,这挑战了人们对供应链安全风险的普遍认知。

    5. Vercel stores all customer environment variables fully encrypted at rest. We have numerous defense-in-depth mechanisms to protect core systems and customer data.

      大多数人认为云服务提供商的所有数据都会自动加密保护,但作者指出Vercel实际上允许将环境变量标记为'非敏感',这意味着这些变量默认不加密,这与行业普遍认为的'云数据自动加密'的常识相悖。

    1. The action that matters most — building semiconductor-grade hydrogen bromide gas conversion capacity outside Israel — takes years.

      大多数人认为供应链中断可以通过市场机制快速调整,但作者指出建立替代产能需要数年时间,远快于市场自发调整的速度。这一反直觉观点强调了供应链韧性需要长期规划和政府干预,而非依赖市场力量。

    2. The structural failure is not the war: It is that the global memory supply chain has built itself around a conversion chokepoint with no redundancy and no fallback.

      大多数人认为供应链风险主要来自地缘政治冲突本身,但作者指出真正的结构性问题是全球内存供应链围绕一个没有冗余和备用方案的转换瓶颈构建。这一观点挑战了主流认知,将焦点从战争本身转向了供应链设计的根本缺陷。

    3. The story receiving almost no attention is bromine, and it is potentially the more dangerous one.

      大多数人认为中东地区的半导体供应链风险主要集中在氦气等资源上,但作者指出溴素才是更危险的隐形威胁。这一观点挑战了主流认知,因为它揭示了一个被广泛忽视的关键材料,其重要性远超当前媒体关注的焦点。

    1. Emissions in advanced economies grew faster (+0.5%) than in emerging and developing economies (+0.3%) for the first time since the 1990s.

      大多数人认为发达国家已经控制了排放增长,而发展中国家是排放增长的主要来源,但作者认为发达国家排放增长首次超过发展中国家,这挑战了传统的排放责任认知。

    2. Battery storage was the fastest-growing power technology, with around 110 gigawatts (GW) of new capacity added – more than any year of natural gas capacity additions on record.

      大多数人认为储能技术仍处于早期发展阶段,但作者认为电池储能已经成为增长最快的电力技术,其新增容量超过了历史上任何一年的天然气装机容量,这表明能源存储正在经历爆发式增长。

    3. Solar was the single biggest contributor to global energy supply growth in 2025. It accounted for more than 25% of the increase – the first time a modern renewable has led global primary energy growth.

      大多数人认为太阳能仍处于辅助能源地位,需要很长时间才能成为主导能源,但作者认为太阳能已经超越所有其他能源成为全球能源增长的最大贡献者,这标志着能源转型的历史性转折点。

    1. we probably will publish more curl vulnerabilities in 2026 than we have done in many years, maybe ever.

      大多数人认为随着安全实践的提升,软件漏洞数量应该减少,但作者预测2026年curl的漏洞发布数量可能会创下历史新高。这一观点挑战了'安全状况持续改善'的主流认知,暗示AI安全审计工具可能正在发现更多过去被忽视的漏洞。

    2. it is decently important to handle them asap when they arrive so that we can avoid building up too much backlog.

      大多数人认为面对大量安全报告应该优先处理最严重的漏洞,但作者强调需要立即处理所有报告以避免积压。这与常见的'按严重程度排序处理'的安全最佳实践相悖,暗示在AI生成报告的高频率环境下,响应速度比优先级排序更重要。

    3. The time when we suffer from large amounts of AI slop is gone. Now we instead suffer under a massive load of good reports.

      大多数人认为AI工具会产生大量低质量的'垃圾报告'(AI slop),增加开发者的负担,但作者认为现在AI生成的安全报告质量很高,虽然数量庞大但都是高质量的报告。这是一个反直觉的观点,因为通常人们认为自动化工具会产生大量噪音而非有价值的贡献。

    1. In addition to empowering developers and agents to handle project setup and boilerplate code, we've also designed these new tools and resources to make it easier to transition to Android Studio.

      大多数人认为CLI工具和AI代理会取代传统IDE成为开发主流。但作者暗示这些工具只是过渡到Android Studio的桥梁,最终仍需使用IDE完成高质量应用,这与'CLI将取代IDE'的主流预测相悖。这种观点挑战了开发工具演进方向的行业共识。

    2. By accessing the frequently updated knowledge base, agents can ground their responses in the most recent information from Android developer docs, Firebase, Google Developers, and Kotlin docs. This ensures that even if an LLM's training cutoff is a year old, it can still provide guidance on the latest frameworks and patterns we recommend today.

      大多数人认为过时的LLM模型无法提供最新的技术指导,需要重新训练才能适应新框架。但作者声称即使LLM训练数据已过时一年,通过知识库仍能提供最新框架指导,这与主流认知相悖。这种观点挑战了'LLM模型必须定期更新才能保持最新'的行业共识。

    3. Android skills cover some of the most common workflows that some Android developers and LLMs may struggle with—they help models better understand and execute specific patterns that follow our best practices and guidance on Android development.

      大多数人认为AI模型应该能够自主学习和理解最佳实践,不需要特定的技能集。但作者暗示AI模型在Android开发中存在'常见工作流程'方面的困难,需要专门的技能集来弥补,这与主流认知相悖。这种观点挑战了'AI应该能够自主学习'的行业共识。

    4. The new Android CLI serves as the primary interface for Android development from the terminal, featuring commands for environment setup, project creation, and device management—with more modern capabilities and easy updatability in mind.

      大多数人认为图形界面IDE(如Android Studio)比命令行工具更适合Android开发,尤其是对于复杂项目。但作者将CLI定位为'主要接口',暗示其可能优于传统IDE,这与主流认知相悖。如果属实,这将颠覆开发者对IDE必要性的传统认知。

    5. Whether you are using Gemini in Android Studio, Gemini CLI, Antigravity, or third-party agents like Claude Code or Codex, our mission is to ensure that high-quality Android development is possible everywhere.

      大多数人认为不同AI代理工具之间存在显著性能差异,需要针对特定场景选择最佳工具。但作者暗示任何代理都能实现高质量开发,这与行业共识相悖。这种观点可能会挑战开发者社区对不同AI代理工具性能差异的传统认知。

    6. In our internal experiments, Android CLI improved project and environment setup by reducing LLM token usage by more than 70%, and tasks were completed 3X faster than when agents attempted to navigate these tasks using only the standard toolsets.

      大多数人认为AI代理工具会消耗大量token且效率低下,但作者声称Android CLI能减少70%的token使用并提高3倍速度,这与主流认知相悖。如果属实,这将彻底改变开发者对AI辅助工具效率的认知,挑战了'AI代理必然消耗大量资源'的行业共识。

    1. Legacy workflows, turned into dependable APIs for agents and internal systems.

      大多数人认为将遗留系统转换为可靠的API需要大量的重构工作,可能涉及源代码访问和深度系统理解,但作者暗示Kampala可以简单地通过流量拦截实现这一目标,这挑战了软件集成和API开发的基本方法论。

    2. Map tokens, cookies, sessions, and multi-step sequences automatically.

      大多数人认为认证链跟踪需要手动分析复杂的网络请求序列,可能需要数小时甚至数天的工作,但作者声称Kampala可以自动完成这项任务,这挑战了网络安全审计和渗透测试的传统工作流程。

    3. See every HTTP/S request from any app or browser in real time.

      大多数人认为跨应用程序的实时流量监控需要复杂的系统级权限或修改应用程序本身,但作者暗示Kampala可以透明地拦截任何应用程序或浏览器的流量,这挑战了操作系统和应用程序安全模型的基本前提。

    4. Maintains your HTTP/TLS fingerprint so intercepted traffic behaves identically to the original.

      大多数人认为流量拦截和监控会留下明显的痕迹,容易被检测到,但作者声称Kampala可以完美保持原始HTTP/TLS指纹,这挑战了网络安全中关于流量检测的基本假设,暗示可以完全不被察觉地监控网络流量。

    5. Kampala lets you reverse engineer anything including websites, mobile apps, and desktop apps instantly.

      大多数人认为逆向工程需要专业的技能和大量的时间,尤其是针对移动和桌面应用程序,但作者声称Kampala可以即时完成这些工作,这挑战了安全研究和软件工程领域的传统认知,暗示逆向工程可以变得简单快捷。

    1. SWE-chat is a living dataset; our collection pipeline automatically and continually discovers and processes sessions from public repositories

      大多数人认为AI研究数据集是静态的、一次性的收集,但作者提出'活数据集'概念,强调数据需要持续更新才能反映真实使用情况。这挑战了传统AI评估中依赖静态基准测试的做法,主张需要动态、持续的数据收集方法。

    2. users push back against agent outputs -- through corrections, failure reports, and interruptions -- in 44% of all turns

      大多数人可能认为用户会接受AI编程助手的建议,但数据显示近一半的用户交互中,用户都在主动抵制或纠正AI的输出。这表明AI编程助手与用户之间存在显著的认知冲突,而非简单的合作关系。

    3. agent-written code introduces more security vulnerabilities than code authored by humans

      大多数人认为AI编程助手能提高代码质量和安全性,但研究发现AI生成的代码实际上比人类编写的代码引入更多安全漏洞。这一发现与AI能减少编程错误的普遍认知相悖,挑战了AI在安全领域的优越性假设。

    4. coding patterns are bimodal: in 41% of sessions, agents author virtually all committed code ('vibe coding'), while in 23%, humans write all code themselves.

      大多数人认为AI编程助手与人类是协作关系,各有所长,但作者发现实际使用呈现两极分化模式——要么几乎完全依赖AI生成代码('vibe coding'),要么完全拒绝AI而完全手动编写。这种非连续的采纳模式挑战了人们对人机协作的常规认知。

    1. The overall conclusion, therefore, is that AI for Science should be understood as both a scientific and a civilizational project.

      大多数人认为AI在科学中的应用主要是技术层面的进步,而作者认为这应该被理解为科学和文明层面的项目。这一观点将AI科学提升到了前所未有的高度,暗示它不仅是工具变革,更是人类知识创造方式的根本转变。

    2. The central question is not whether AI can imitate human conversation, but whether it can participate in the production of publishable scientific knowledge at a level comparable to a recognized human contributor.

      大多数人认为AI科学贡献的衡量标准是其模仿人类对话的能力,而作者认为真正的标准应该是AI能否产生可发表的、相当于人类贡献者的科学知识。这一观点重新定义了AI科学成功的标准,挑战了当前AI评估的主流范式。

    3. Without a mechanism for continuous and diverse learning, AI systems will tend to reproduce the dominant patterns already present in their training data. That limitation would make truly creative work difficult.

      大多数人认为AI的创造力主要来自模型规模和计算能力的提升,而作者认为缺乏持续学习和多样性机制将限制AI的真正创造力。这一观点挑战了主流AI发展路径,暗示技术规模扩张本身不足以实现真正的科学创新。

    4. The most effective pattern of human-AI cooperation may differ substantially across disciplines, and these patterns will likely be discovered through practice rather than designed in advance.

      大多数人认为AI与人类合作的最佳模式可以通过预先设计和优化来确定,而作者认为这种模式将通过实践自然涌现。这一观点与主流AI研究方法相悖,因为它暗示AI合作模式的发现过程是自下而上的,而非自上而下的工程化设计。

    5. If publication becomes more agentic, it may create new ways to recognize and evaluate such contributions. Although the final form of such a system remains uncertain... the evaluation and reward structure of academia will change in a fundamental way.

      大多数人认为学术评价体系会保持相对稳定,而作者认为AI驱动的代理出版将彻底改变学术评价和奖励结构。这一观点挑战了学术界长期以来的共识,暗示传统的论文引用和同行评审模式可能被完全颠覆。

    6. The application of LLMs in science is already underway... We believe that AI will ultimately bring a fundamental big change to scientific research across disciplines.

      大多数人认为AI在科学研究中只是辅助工具,而作者认为AI将从根本上改变科学研究的结构和方式。这一观点与主流认知相悖,因为它暗示AI不仅是提高效率的工具,而是会重塑科学发现、合作和发表的本质。

    7. The most fundamental change brought by the LLM revolution is that human know-how is becoming replicable and shareable at scale.

      大多数人认为AI革命主要在于自动化和效率提升,但作者认为LLM革命的核心在于人类技能的可复制性和规模化共享。这一观点挑战了主流认知,因为它暗示AI不仅是工具,更是一种全新的信息载体,类似于DNA和语言在人类历史中的变革性角色。

    1. The results demonstrate consistent improvements over strong baselines, supporting the effectiveness of agent resource management and closed loop self evolution.

      大多数研究者认为自我进化系统难以评估且效果不稳定,但作者声称他们的系统在多个具有挑战性的基准测试中表现出持续改进的能力。这一结论挑战了AI自我进化领域的普遍怀疑态度,暗示了一种更加可靠和有效的自我进化方法。

    2. Building on AGP, we present Autogenesis System (AGS), a self-evolving multi-agent system that dynamically instantiates, retrieves, and refines protocol-registered resources during execution.

      传统多代理系统通常在运行前就定义好所有组件和交互方式,但作者提出了一种在执行过程中动态实例化、检索和细化协议注册资源的系统。这与静态部署、预定义架构的主流AI系统设计理念背道而驰,暗示了一种更加动态和自适应的系统架构。

    3. Its Self Evolution Protocol Layer (SEPL) specifies a closed loop operator interface for proposing, assessing, and committing improvements with auditable lineage and rollback.

      大多数人认为AI代理系统的自我进化应该是开放式的、持续的过程,但作者提出了一个封闭循环的进化机制,要求有可审计的血统记录和回滚能力。这与当前AI系统中常见的快速迭代、持续学习的理念形成鲜明对比,暗示了一种更谨慎、更可控的进化路径。

    4. Its Resource Substrate Protocol Layer (RSPL) models prompts, agents, tools, environments, and memory as protocol registered resources with explicit state, lifecycle, and versioned interfaces.

      传统观点认为提示词、代理、工具和内存应该是不同类型、独立管理的实体,但作者认为它们都应该被视为协议注册的资源,具有明确的状态、生命周期和版本化接口。这种统一资源模型挑战了当前AI系统设计中的主流思维模式。

    5. We introduce Autogenesis Protocol (AGP), a self evolution protocol that decouples what evolves from how evolution occurs.

      大多数人认为代理系统的演化应该是一个整体、不可分割的过程,但作者提出了一个颠覆性的观点:将演化的内容与演化方式解耦。这与传统软件架构和代理系统设计理念相悖,暗示了一种全新的、更灵活的代理系统架构范式。

    6. existing agent protocols (e.g., A2A and MCP) under specify cross entity lifecycle and context management, version tracking, and evolution safe update interfaces, which encourages monolithic compositions and brittle glue code.

      大多数人认为现有的代理协议已经足够成熟且能有效管理复杂系统,但作者认为当前主流的代理协议(如A2A和MCP)存在严重的规范不足问题,这会导致系统变得脆弱和难以维护。这是一个反直觉的观点,因为行业通常认为这些协议已经相当完善。

    7. The results demonstrate consistent improvements over strong baselines, supporting the effectiveness of agent resource management and closed loop self evolution.

      虽然大多数AI研究者相信自我演化能带来性能提升,但很少有人能够证明这种提升在多个具有挑战性的基准测试中持续超过强大的基线模型。作者声称他们的AGS系统不仅实现了自我演化,而且这种演化是闭环的、可审计的,这挑战了当前AI社区对自我演化系统的认知,暗示了更加结构化的演化方法可能比开放式的演化更有效。

    8. Building on AGP, we present Autogenesis System (AGS), a self-evolving multi-agent system that dynamically instantiates, retrieves, and refines protocol-registered resources during execution.

      大多数人认为多智能体系统应该在设计阶段就确定各个智能体的角色和交互方式,而不是在执行过程中动态调整。但作者提出的AGS系统强调在运行时动态实例化、检索和细化协议注册的资源,这挑战了传统多智能体系统的设计范式,引入了一种更加灵活和动态的智能体协作方式。

    9. Its Self Evolution Protocol Layer (SEPL) specifies a closed loop operator interface for proposing, assessing, and committing improvements with auditable lineage and rollback.

      大多数人认为AI系统的自我演化应该是开放式的、持续的过程,而不是有明确边界和可追溯性的闭环操作。但作者提出的SEPL层强调了一种结构化的自我演化方法,要求每次改进都可被审计、追踪和回滚,这与当前AI社区对开放式演化的主流认知相悖,可能带来更安全但更受限的演化路径。

    10. Its Resource Substrate Protocol Layer (RSPL) models prompts, agents, tools, environments, and memory as protocol registered resources with explicit state, lifecycle, and versioned interfaces.

      大多数人可能认为提示词(prompt)只是简单的文本输入,不需要像系统资源那样进行严格的状态和生命周期管理。但作者将提示词与智能体、工具、环境和内存一起视为需要明确状态、生命周期和版本化接口的协议注册资源,这挑战了当前对提示词的普遍认知,提升了其在系统架构中的重要性。

    11. We introduce Autogenesis Protocol (AGP), a self evolution protocol that decouples what evolves from how evolution occurs.

      大多数人认为AI系统的演化应该是一个整体过程,关注点在于如何实现演化。但作者提出了一种革命性的分离方法,将演化的内容与演化的方式解耦,这打破了传统系统设计的思维模式。这种分离可能使AI系统的演化更加可控和可预测,与当前主流的集成式演化方法形成鲜明对比。

    12. However, existing agent protocols (e.g., A2A and MCP) under specify cross entity lifecycle and context management, version tracking, and evolution safe update interfaces, which encourages monolithic compositions and brittle glue code.

      大多数人认为当前的智能体协议已经足够完善,能够有效管理复杂的AI系统。但作者认为现有协议存在严重不足,特别是在实体生命周期、上下文管理和版本控制方面,这会导致系统变得脆弱和难以维护。这是一个挑战行业共识的观点,因为许多研究者可能认为现有框架已经能够处理这些挑战。

    1. Scan your website to see how ready it is for AI agents. We check multiple emerging standards — from robots.txt and Markdown negotiation to MCP, OAuth, Agent Skills and agentic commerce.

      大多数人认为网站优化主要是针对搜索引擎和人类用户,但作者认为网站需要专门为AI代理(agent)准备,这挑战了传统的网站优化观念。文章提出了一系列新兴标准,如MCP、Agent Skills等,表明未来的网站交互将不再局限于人类浏览,而是需要与AI系统进行复杂交互。

    1. We want email agent tooling to be composable and reusable. Rather than every team rebuilding the same inbound-classify-reply pipeline, start with this reference application.

      大多数人认为电子邮件处理系统需要为每个用例从头构建,因为每个业务流程都有独特需求,但作者主张通过开源参考应用实现电子邮件工具的'可组合性和可重用性',挑战了定制化开发优于标准化组件的行业惯例,暗示电子邮件代理可能具有比预期更高的通用性。

    2. Each agent gets its own identity from a single domain. The address-based resolver routes support@yourdomain.com to a 'support' agent instance, sales@yourdomain.com to a 'sales' instance, and so on.

      大多数人认为为每个AI代理创建独立身份需要复杂的身份管理系统和单独的资源分配,但作者提出一个反直觉方案:通过电子邮件地址路由就可以为每个代理创建独特身份,无需单独配置邮箱或资源,这挑战了传统多代理系统架构的设计理念。

    3. The inbox becomes the agent's memory, without needing a separate database or vector store.

      大多数人认为AI代理需要专门的数据库或向量存储来维护状态和记忆,但作者提出一个颠覆性观点:电子邮件收件箱本身可以作为代理的内存系统,这挑战了构建AI代理时需要复杂后端存储的行业共识,暗示电子邮件可能是一种未被充分利用的状态管理工具。

    4. A chatbot responds in the moment or not at all. An agent thinks, acts, and communicates on its own timeline.

      大多数人认为聊天机器人和AI代理本质上是相同的概念,只是复杂度不同,但作者明确区分了'聊天机器人'和'代理',认为关键区别在于通信方式 - 聊天机器人必须即时响应,而代理可以异步思考和行动,这挑战了AI领域对交互式AI的主流分类方式。

    5. Email is the most accessible interface in the world. It is ubiquitous. There's no need for a custom chat application, no custom SDK for each channel.

      大多数人认为电子邮件是一种过时的通信方式,需要被更现代的聊天应用和API取代,但作者认为电子邮件是'最可访问的接口',甚至比专门的聊天应用更通用,因为它不需要用户安装新应用或使用特定SDK,这挑战了技术行业对实时通信渠道的主流认知。

    1. If this analogy is right, then we will likely see sort of a 'Cambrian explosion' in agent harnesses purpose-built for running server-side; and the few that win this race will become as ubiquitous as WordPress.

      作者预测AI代理领域将出现类似寒武纪大爆发的专业化工具浪潮,这一观点挑战了当前AI工具集中化的趋势。如果正确,这将意味着未来AI市场将由多种专业化代理工具主导,而非少数通用平台。这一预测对AI创业者和投资者具有重要战略意义。

    2. They don't mind paying the AI labs for tokens — but the agent itself, they'd much rather have outside of the labs' infrastructure.

      作者提出了一个关于AI经济模式的反直觉洞见:组织愿意为AI模型付费,但希望将代理本身部署在自己的基础设施上。这一观点挑战了'AI服务将完全云端化'的假设,暗示混合AI部署模式可能成为主流,这对AI公司的商业模式和基础设施战略具有重要启示。

    3. WordPress wasn't the best-designed CMS — Drupal was. It wasn't the most performant or reliable either. But that didn't stop WordPress from becoming the de-facto standard for building websites and the largest ecosystem — all because it was the easiest to use.

      这一陈述揭示了技术选择中的一个反直觉原则:易用性往往比技术优越性更能决定产品的市场成功。这一观点挑战了技术社区中'最佳技术应该获胜'的假设,暗示在AI代理领域,最易用的工具可能最终胜过技术上更优越但更复杂的解决方案。

    4. Agent harnesses are much more like WordPress than they are like Apache, simply because people want to have their own agents — just like everyone wanted their own website in the early 2000s.

      作者提出了一个令人惊讶的类比,将未来AI代理工具与WordPress而非Apache相提并论。这一观点挑战了技术演进的传统叙事,暗示未来的AI基础设施将更注重用户友好性和可定制性,而非底层技术架构的优雅。这暗示AI代理领域可能出现类似WordPress的'民主化'浪潮。

    5. WordPress still serves roughly 40% of all Internet traffic. It's more than 20 years old. It is old and clumsy and doesn't scale well and it couldn't care less about all the distributed system cloud goodness that we are all accustomed to.

      这一陈述揭示了技术成功与优雅设计之间的反直觉关系。尽管WordPress在技术上存在明显缺陷,但它仍然主导着网络内容管理系统市场,挑战了'更好的技术必然胜出'的常识。这种现象表明,用户体验和易用性往往比技术优越性更能决定产品的市场地位。

    6. They don't mind paying the AI labs for tokens — but the agent itself, they'd much rather have outside of the labs' infrastructure.

      这一观点揭示了AI生态系统中的一个关键悖论:用户愿意为底层AI能力付费,但希望代理工具本身保持自主性和可移植性。这暗示了未来AI商业模式的核心可能在于'代理即服务',而非单纯的'模型即服务'。

    7. If this analogy is right, then we will likely see sort of a 'Cambrian explosion' in agent harnesses purpose-built for running server-side; and the few that win this race will become as ubiquitous as WordPress.

      这一预测暗示了AI代理工具领域将经历一个爆炸式创新和激烈竞争的阶段,最终少数几个平台将主导市场。这与当前AI领域相对集中化的现状形成鲜明对比,提出了一个关于技术演化的非共识观点。

    8. WordPress wasn't the best-designed CMS — Drupal was. It wasn't the most performant or reliable either. But that didn't stop WordPress from becoming the de-facto standard for building websites and the largest ecosystem — all because it was the easiest to use.

      这一发现挑战了技术领域常见的'最佳技术必胜'假设。WordPress的胜利证明了在技术采用中,用户体验和易用性可能比技术优越性更重要,这对当前AI工具开发具有深刻启示。

    9. Agent harnesses are much more like WordPress than they are like Apache, simply because people want to have their own agents — just like everyone wanted their own website in the early 2000s.

      这一观点将AI代理工具与WordPress类比,而非更底层的Apache服务器,提出了一个非传统的技术架构观点。它暗示未来AI生态系统的成功将取决于用户层面的可定制性和易用性,而非底层技术架构的先进性。

    10. WordPress still serves roughly 40% of all Internet traffic. It's more than 20 years old. It is old and clumsy and doesn't scale well and it couldn't care less about all the distributed system cloud goodness that we are all accustomed to.

      这一陈述揭示了技术成功与优雅设计之间的反直觉关系。WordPress的技术缺陷与其市场主导地位形成鲜明对比,暗示在新兴技术领域(如AI代理),易用性和可访问性可能比技术优越性更能决定市场成功。

    1. Riemannian Langevin lifecycle: active → warm → archive → forget. Tiered storage with automatic promotion on access.

      将黎曼流形和朗之万动力学应用于记忆生命周期管理是一个极具创新性的概念。这种将物理数学概念应用于记忆管理的做法挑战了传统记忆系统的静态存储观念,提出了一种动态、自适应的记忆衰减和激活机制,更接近生物记忆的工作方式。

    2. SLM Mesh — P2P coordination across AI agent sessions via MCP. Broadcast + project-scoped messaging, offline queue with 48h TTL.

      提出AI代理间的P2P协调机制而非传统的中心化架构是一个大胆的反传统设计。48小时离线队列TTL的概念挑战了实时通信的必要性,暗示了AI系统可能需要更像人类间歇性交流而非持续连接的通信模式。

    3. Triple-stream learning: tool events (statistical) + LLM observer (Haiku-driven) + recall learning (PageRank + community detection)

      这种三流学习方法挑战了单一学习源的传统AI架构。将统计事件、小型LLM观察者和图算法结合的学习方式模拟了人类的多渠道认知过程,这一反直觉设计可能代表了AI学习架构的未来方向,挑战了当前依赖单一大型模型的趋势。

    4. V3.3 achieves 70.4% in Mode A (zero-LLM), with +23.8pp on multi-hop and +12.7pp on adversarial. V3.2 achieved 74.8% Mode A and 87.7% Mode C; the 4.4pp gap reflects a deliberate architectural trade-off.

      在零LLM模式下仅比有LLM支持的模式低17.3%,这一结果令人震惊。这表明生物启发的记忆架构可能比我们想象的更强大,能够在没有大型语言模型支持的情况下保持大部分性能,挑战了'强大AI必须依赖大型模型'的主流观点。

    5. Ebbinghaus Adaptive Forgetting with lifecycle-aware quantization -- the first mathematical forgetting curve in local agent memory coupled to progressive embedding compression, achieving 6.7x discriminative power.

      将艾宾浩斯遗忘曲线引入本地代理记忆系统并实现6.7倍的判别力提升是一个反直觉的发现。传统上,遗忘被视为缺陷而非功能,这项研究表明,有控制的遗忘机制可能比无限记忆更有价值,这与人类认知科学中'遗忘是学习的一部分'的观点形成呼应。

    6. Fisher-Rao Quantization-Aware Distance (FRQAD) -- a new metric on the Gaussian statistical manifold achieving 100% precision at preferring high-fidelity embeddings over quantized ones (vs 85.6% for cosine), with zero prior art.

      这项声称100%精度的FRQAD指标令人惊讶,因为它远超传统余弦相似度的85.6%。如果属实,这将彻底改变我们处理嵌入向量压缩和相似度计算的方式,挑战当前广泛使用的余弦相似度在信息检索领域的统治地位。

    7. AI coding agents operate in a paradox: they possess vast parametric knowledge yet cannot remember a conversation from an hour ago.

      这个陈述揭示了当前AI系统的一个根本性矛盾——拥有大量静态知识却缺乏动态记忆能力,这挑战了我们对AI'智能'的传统理解。如果AI真正智能,它应该能够记住并利用过去的交互经验,而这正是当前大型语言模型架构的明显缺陷。

    1. For Max-plan users hitting rate limits instead of dollars: your 5-hour window ends sooner by roughly the same ratio on English-heavy work. A session that ran the full window on 4.6 probably doesn't on 4.7.

      这一反直觉现象揭示了AI服务中'隐性限制'的存在。表面上配额没有变化,但由于token效率下降,实际使用时间大幅缩短。这种'时间配额隐形缩减'挑战了用户对'固定配额'的理解,是AI服务提供商在不改变价格和名义配额的情况下提高成本的一种微妙方式。

    2. The real-world weighted ratio (1.325x) lands near the top of their range. Individual file types exceed it — CLAUDE.md at 1.445x, technical docs at 1.473x. That's the useful finding: the top of the documented range is where most Claude Code content sits, not the middle.

      这一发现挑战了我们对文档和营销声明的常规解读方式。通常我们假设厂商提供的范围是合理的中间值,但实际使用情况往往接近最坏情况。这表明技术文档中的'范围'可能更多是营销策略而非实际预期,用户应该基于最坏情况而非平均值进行规划,这违背了我们对文档准确性的基本信任。

    3. A small but directionally consistent improvement on strict instruction following. Loose evaluation is flat. Both models already follow the high-level instructions — the strict-mode gap comes down to 4.6 occasionally mishandling exact formatting where 4.7 doesn't.

      这一发现揭示了AI模型能力提升的一个微妙现象:微小但精确的改进可能比重大但模糊的改进更有价值。Claude 4.7只在严格指令遵循上有微小提升,但这种提升针对的是实际开发中常见的精确格式化问题,这挑战了人们对'重大突破'的执念,强调了'精准解决特定问题'的价值。

    4. Code is hit harder than unique prose (1.29–1.39x vs 1.20x). Code has more repeated high-frequency strings — keywords, imports, identifiers — exactly the patterns a Byte-Pair Encoding trained on code would collapse into long merges.

      这一发现挑战了我们对代码token化的常识认知。通常我们认为代码有更多重复模式应该更高效token化,但事实相反。这表明代码的语义复杂性超越了简单的重复模式,需要更细粒度的处理。这一反直觉结论对代码生成和代码理解模型的优化方向提出了新思考。

    5. Same sticker price. Same quota. More tokens per prompt. Your Max window burns through faster. Your cached prefix costs more per turn. Your rate limit hits sooner.

      这一反直觉现象揭示了AI服务定价的微妙之处:表面价格不变,实际成本大幅增加。用户在不自觉的情况下消耗更多配额,这种'隐性成本上升'策略挑战了传统定价透明度的期望,是AI服务商业模式中一个值得警惕的趋势。

    6. The extra tokens bought something measurable. +5pp on strict instruction-following. Small. Real. So: is that worth 1.3–1.45x more tokens per prompt?

      这是一个令人惊讶的价值权衡案例。Anthropic用高达45%的token成本增加,只换来了5个百分点的指令遵循提升。这种不成比例的交换表明,在AI模型优化中,'微小但真实'的改进可能需要付出巨大成本,这挑战了人们对技术改进应该'物有所值'的普遍假设。

    7. Chars-per-token on English dropped from 4.33 to 3.60. TypeScript dropped from 3.66 to 2.69. The vocabulary is representing the same text in smaller pieces.

      这一发现挑战了人们对tokenizer效率的直觉认知。通常我们假设更高效的tokenizer应该能用更少的token表示相同内容,但Claude 4.7的tokenizer实际上产生了更多token。这种反直觉的变化表明,Anthropic可能故意牺牲token效率换取更细粒度的语言处理能力,这违背了传统NLP中'更少token=更高效'的常识。

    1. More loops is not always better. Beyond a certain depth, excessive recurrence degrades predictions — the hidden state drifts past the solution and into noise. This is the 'overthinking' failure mode.

      这一发现挑战了'更多循环总是更好'的直觉,揭示了循环模型的'过度思考'问题。这类似于人类思考中的过度分析现象,表明即使是最优架构也存在'饱和点'。这一发现对模型设计有重要启示:需要智能的停止机制,而不是简单地增加循环次数。

    2. The recurrent structure is optimized for iterative composition — running a reasoning chain forward — but does not inherently improve the storage of rote facts. This maps to an observable characteristic of Mythos: it reasons exceptionally well about novel problems it has never seen, but its factual recall can be inconsistent.

      这一发现揭示了循环模型的一个关键局限性:它们在推理方面表现出色,但在记忆方面可能不如传统Transformer。这一反直觉的观察表明,不同架构可能适用于不同类型的任务,挑战了'通用架构解决所有问题'的观点。这也解释了为什么Mythos在某些事实性任务上表现不佳。

    3. At 770M parameters, a looped model achieves the downstream quality of a 1.3B fixed-depth Transformer trained on the same data — roughly half the parameters for the same quality.

      这一发现具有颠覆性,表明循环模型在参数效率上可能远超传统Transformer。如果这一结论成立,那么大模型的发展方向可能需要重新思考——与其不断增加参数量,不如优化循环架构的设计。这挑战了当前'更大即更好'的主流观点。

    4. Training looped models is notoriously unstable. Two failure modes dominate: Residual explosion — the hidden state h_t grows unboundedly across loops; Loss spikes — training diverges suddenly due to large spectral norms in injection parameters.

      循环模型的训练稳定性问题是一个常被忽视的挑战。这一发现揭示了循环架构在实现时面临的关键技术难题,解释了为什么尽管理论上优越,但循环模型在实际应用中相对罕见。这种不稳定性可能是许多研究者放弃循环架构的重要原因。

    5. Each loop iteration is the functional equivalent of one step of chain-of-thought, but operating in continuous latent space rather than token space. A looped model running T loops implicitly simulates T steps of CoT reasoning. This has been formally proven (Saunshi et al., 2025).

      这一发现令人惊讶,因为它表明循环模型在连续潜在空间中实现了思维链推理,而不需要显式的中间token输出。这意味着模型可以在单次前向传播中完成多步推理,这挑战了传统思维链需要显式token输出的观点,并为理解大模型推理过程提供了新视角。

    6. Claude Mythos is suspected to be a Recurrent-Depth Transformer (RDT) — also called a Looped Transformer (LT). Rather than stacking hundreds of unique layers, a subset of layers is recycled and run through multiple times per forward pass. Same weights. More loops. Deeper thinking.

      这一观点挑战了传统大模型架构的常识,认为Claude Mythos的核心创新不在于增加参数量,而在于通过循环使用相同权重来实现更深层次的推理。这种架构设计反直觉地表明,模型的'深度'可以通过循环迭代而非堆叠层来实现,这可能解释了Mythos在复杂推理任务上的优异表现。

    1. The real bottleneck in AI right now is not compute but rather data quality

      这一论点颠覆了当前AI行业对计算资源投入的过度关注,提出了一个令人惊讶的视角:我们可能一直在解决错误的问题。如果数据质量是真正瓶颈,那么整个AI研发的重点需要重新评估。

    2. GPT-4o operates at roughly 200 billion parameters and outperforms the original 1.8 trillion-parameter GPT-4

      这一发现与行业普遍认为'更大模型必然更好'的共识相悖,暗示模型质量和架构可能比规模更重要。这可能是AI发展史上最令人惊讶的效率提升案例之一,挑战了我们对AI进步的理解。

    3. Build a cognitive core, a model that contains only the algorithms for reasoning and problem-solving, stripped of encyclopedic memorization

      Karpathy提出的认知核心概念挑战了当前AI模型的架构设计理念,暗示我们可能一直在错误的方向上投入资源。这一分离记忆与推理的思路,可能代表AI发展的范式转变。

    4. One estimate puts Llama 3's information compression at just 0.07 bits per token meaning the model has only a hazy recollection of most of what it trained on

      这个惊人的数据点揭示了大型语言模型在信息处理上的低效率,挑战了我们对AI模型'学习'能力的理解。如果模型对其训练内容只有模糊记忆,那么我们是否需要如此庞大的参数规模?这值得深入研究。

    5. frontier AI models are not too big because the technology is complex and too big because the training data is garbage

      这一观点挑战了当前AI模型规模扩大的主流解释,将问题从技术复杂性转向数据质量问题,提出了一个反直觉的视角:模型规模实际上是应对低质量数据的必要之举,而非技术发展的必然结果。

    1. Updates between versions are bolded.

      这个简单的格式化选择揭示了一个令人惊讶的实践:系统提示的变更历史被刻意设计为难以追踪。通过只突出显示变更内容而非完整版本,普通用户无法轻松理解系统提示的演变轨迹,这种设计选择实际上限制了用户对AI行为变化的理解和适应能力。

    2. See updates to the core system prompts on claude.ai and the Claude iOS and Android apps.

      文档暗示了一个反常识的观察:系统提示更新是按应用平台而非模型版本发布的。这意味着同一模型在不同平台上可能有不同的行为表现,这挑战了'模型版本决定能力'的传统认知,揭示了平台特定行为才是实际用户体验的决定因素。

    3. This prompt is periodically updated to improve Claude's responses.

      文档透露了一个令人不安的事实:普通用户无法控制或审查这些定期更新的系统提示内容。这挑战了AI透明度的常见假设,用户实际上在使用一个不断变化但不可见的指令集,这种'黑盒更新'模式与开源AI理念背道而驰。

    4. These system prompt updates do not apply to the Claude API.

      这里有一个关键的非共识观点:Anthropic刻意保持API和界面行为的不一致性。虽然表面上API提供了更多控制权,但这种分裂意味着API用户可能会错过重要的行为改进和安全更新,这实际上创造了两个不同的'Claude'生态系统。

    5. The system prompt also encourages certain behaviors, such as always providing code snippets in Markdown.

      这展示了一个令人惊讶的设计决策:Anthropic强制要求代码必须以Markdown格式输出,这实际上限制了AI与代码交互的自然性。对于追求原生代码体验的开发者来说,这形成了一个意外障碍,挑战了'AI应该适应开发者需求'的常识。

    6. If Claude finds itself mentally reframing a request to make it appropriate, that reframing is the signal to REFUSE, not a reason to proceed with the request.

      That's why 为什么需要博士生来构建Prompt

    1. But that comes with a new risk: While scripted conversations can't really go off the rails, ones generated by AI certainly can. Some popular AI toys have, for example, talked to kids about how to find matches and knives.

      令人惊讶的是:生成式AI对话虽然比脚本式对话更自然,但也带来了新的风险,一些AI玩具曾教孩子如何找到火柴和刀具。这提醒我们,随着AI技术变得更加先进,我们需要更加关注其安全性和伦理影响,特别是在与儿童互动的场合。

    2. Amazon, Toyota, and GXO (a logistics giant with customers like Apple and Nike) have all deployed it—making it one of the first examples of a humanoid robot that companies see as providing actual cost savings rather than novelty.

      令人惊讶的是:亚马逊、丰田和GXO等大型公司已经开始部署人形机器人Digit,这些公司视其为实际节省成本的工具,而非新奇事物。这标志着机器人技术从实验阶段转向实际商业应用的重大转变,人形机器人开始进入主流工作环境。

    3. In 2025, Google DeepMind further fused the worlds of large language models and robotics, releasing a Gemini Robotics model with improved ability to understand commands in natural language.

      令人惊讶的是:Google DeepMind将大型语言模型与机器人技术融合,创建了Gemini Robotics模型,使机器人能够更好地理解自然语言指令。这种融合代表了人工智能领域的重大突破,使机器人能够像人类一样理解和执行复杂指令。

    4. The solution is called domain randomization. You essentially create millions of simulated worlds that all vary slightly and randomly from one another.

      令人惊讶的是:为了让机器人在现实世界中更好地工作,研究人员需要创建数百万个略有不同的模拟世界。这种'领域随机化'技术解决了模拟与现实之间的差距,通过让机器人接触各种变化环境来提高其适应能力,是一种非常巧妙的训练方法。

    5. Companies and investors put $6.1 billion into humanoid robots in 2025 alone, four times what was invested in 2024.

      令人惊讶的是:机器人投资在2025年出现了爆炸性增长,达到2024年的四倍。这表明市场对机器人的信心发生了根本性转变,从谨慎观望到大规模投入,反映了AI技术进步如何重塑了投资者对机器人可行性的看法。

    1. Developers will be forced to look elsewhere, from smaller models to on-premise deployments, until energy infrastructure & data center buildouts catch up, which could take years.

      这一观点揭示了AI发展可能被迫回归更小规模、更本地化的解决方案,挑战了集中化、大规模计算的主流趋势。这种转变可能催生分布式AI架构和边缘计算的新机遇,重塑技术路线图。

    2. This imbalance will inevitably drive prices higher as demand compounds against a fixed supply.

      作者预测AI计算资源将呈现典型的稀缺商品特性,需求增长而供应固定导致价格持续上涨。这一反直觉结论表明,AI行业可能面临与其他资源密集型产业相似的经济学约束,而非例外。

    3. The age of abundant AI is over, & it will remain so for years.

      这一断言挑战了技术进步必然带来资源丰富化的传统观念。AI稀缺时代的到来可能迫使行业重新思考效率优化、模型小型化以及计算资源分配等根本问题,而非一味追求更大模型。

    4. Anthropic has limited its newest model to roughly forty organizations.

      将最先进AI模型限制在极少数组织手中,标志着AI正从开放资源转变为特权商品。这种转变与互联网早期的开放精神形成鲜明对比,可能重塑AI领域的竞争格局和创新模式。

    1. This feels like a preview of where SaaS economics are heading. The companies that built big orgs on the assumption of steady seat expansion are going to find themselves competing with products built by tiny teams inside the frontier labs.

      作者提出了一个颠覆性的观点,即Figma的困境预示着SaaS经济的根本性转变。基于座位扩张模式建立的大型组织将不得不与前沿实验室中的小团队竞争产品。这一观点挑战了传统SaaS增长模式,暗示了行业可能面临的结构性重组。

    2. Figma has close to 2,000 employees - not all working on product engineering of course. I really doubt Anthropic even needed 10 to build Claude Design.

      这一惊人的效率对比揭示了AI时代产品开发的根本性转变:Anthropic仅用极小团队就能构建直接挑战拥有2000名员工的Figma的产品。这挑战了传统软件公司需要大量人力的假设,预示着更小、更专注的团队可能主导未来市场。

    3. It's also worth noting that a lot of the things that would traditionally lock a company like Figma in stop working as well in an agent-first world.

      作者挑战了传统SaaS护城河的概念,指出在AI代理主导的世界中,多人协作、插件生态系统等传统优势变得不再重要。这一洞见揭示了AI将如何重构软件竞争格局,使传统SaaS公司的护城河失效。

    4. Figma is effectively funding a competitor - and the more AI usage Figma has - the more money they send over to Anthropic for the tokens they use.

      这一反直觉的商业模式揭示了SaaS公司在AI时代的结构性弱点:公司可能正在资助自己的竞争对手。Figma不仅为Anthropic提供收入,还使用较次的模型(Sonnet 4.5)而竞争对手使用更先进的模型(Opus 4.7),这种双重打击极具讽刺性。