Unknown component property | Accept with warning
大多数人认为设计系统应该严格限制和验证所有属性,以确保一致性和可预测性。但作者认为应该接受未知组件属性,但仅发出警告。这种方法挑战了传统设计系统必须严格控制所有方面的观念,提供了一种更为灵活的方法,允许创新和扩展,同时仍保持基本的结构和约束。
Unknown component property | Accept with warning
大多数人认为设计系统应该严格限制和验证所有属性,以确保一致性和可预测性。但作者认为应该接受未知组件属性,但仅发出警告。这种方法挑战了传统设计系统必须严格控制所有方面的观念,提供了一种更为灵活的方法,允许创新和扩展,同时仍保持基本的结构和约束。
Unknown section heading | Preserve; do not error
大多数人认为设计系统规范应该严格且强制执行特定的结构和格式,以确保一致性。但作者认为应该允许未知部分标题的存在并保留它们,而不报错。这挑战了传统设计系统规范必须严格控制的观念,强调了规范应该具有一定的灵活性和适应性,以适应不同的设计需求和上下文。
Components map a name to a group of sub-token properties: ... Valid component properties: backgroundColor, textColor, typography, rounded, padding, size, height, width.
大多数人认为组件应该被定义为完整的、独立的实体,包含所有必要的样式和功能。但作者认为组件应该被定义为对已有设计 tokens 的引用和组合,而不是独立的样式定义。这种方法挑战了传统的组件设计理念,强调了设计系统中的复用性和一致性而非组件独立性。
The tokens are the normative values. The prose provides context for how to apply them.
大多数人认为设计规范应该优先考虑精确的技术规格和约束条件。但作者认为 prose(描述性文本)与 tokens(规范值)同等重要,甚至可能更重要,因为它提供了应用上下文。这挑战了传统设计系统完全由技术规范主导的观念,强调了人文因素在设计系统自动化中的关键作用。
A DESIGN.md file combines machine-readable design tokens (YAML front matter) with human-readable design rationale (markdown prose). Tokens give agents exact values. Prose tells them _why_ those values exist and how to apply them.
大多数人认为设计系统应该完全由机器可读的代码或配置文件定义,以确保一致性和自动化。但作者认为,将人类可读的设计 rationale 与机器可读的 tokens 结合是更好的方法,因为 prose 能提供设计意图和上下文,这对于 AI 理解和应用设计系统至关重要。这是一种将人类设计师的意图与机器执行能力相结合的非传统方法。
继续做通用 UX 是最危险的位置,它正是最容易被 AI 和产品经理上下夹击的中间层。
大多数人认为UX设计师的核心价值在于通用用户体验设计,但作者认为这一角色在AI时代面临被取代的风险。这一挑战性观点暗示设计师需要向架构型或业务型方向发展,否则可能被AI和产品管理双重挤压,反映了行业对设计师角色未来发展的深刻思考。
其中 Pattern 是最容易被忽略也最关键的一层,它定义了'在具体业务场景下该怎么组合这些组件',是 AI 时代设计系统真正的价值所在。
大多数设计系统实践者主要关注组件库和基础规范,但作者认为模式层(Pattern)才是设计系统的核心价值所在。这一观点与主流认知相悖,因为大多数团队将大量资源投入到组件开发,而忽略了场景化的模式组合,而这恰恰是AI时代设计系统最有价值的部分。
At our request, the underwriters have reserved up to _______% of the shares of Class A common stock offered by this prospectus for sale at the initial public offering price through a directed share program to certain persons identified by our management and certain long-tenured employees, which may include parties with whom we have a business relationship and friends and family of management and such employees.
大多数人认为IPO分配应该基于市场机制和机构投资者需求,但Cerebras预留大量股份给管理层、员工及其关系网络。这挑战了IPO公平分配的普遍认知,暗示公司可能优先考虑内部人利益而非最大化股东价值。
We have applied to list our Class A common stock on the Nasdaq Global Select Market under the symbol 'CBRS,' and this offering is contingent upon the listing of our Class A common stock on the Nasdaq Global Select Market.
大多数人认为IPO成功是公司财务健康的标志,但Cerebras将上市成功与股票上市直接挂钩,暗示公司可能认为即使融资成功,若不能在纳斯达克挂牌,其价值主张将大打折扣。这挑战了IPO过程中融资和上市是两个独立步骤的常规认知。
Distributed systems background - real-time sessions, cloud infrastructure (AWS), and production reliability
大多数人认为游戏引擎开发主要关注客户端性能和用户体验,但这里强调分布式系统、实时会话和云基础设施,表明ARC Prize将游戏视为分布式系统的一部分,这与传统游戏开发中客户端优先的理念形成鲜明对比。
Hands-on experience building or maintaining a game engine (must), with strong Python fundamentals (must)
大多数人认为高性能游戏引擎必须使用C++等低级语言,但这里明确要求Python作为游戏引擎的核心语言,挑战了游戏开发领域的传统认知,表明在AI评估场景中,开发速度和灵活性可能比性能优化更重要。
Help lay the game and environment foundations for ARC-AGI-4 and ARC-AGI-5
大多数人认为AI评估应专注于现有模型的性能测试,但这里暗示ARC Prize正在规划多代ARC-AGI系统,表明他们相信AI评估需要长期、分阶段的演进,这与当前行业一次性基准测试的主流做法形成鲜明对比。
You'll be responsible for stabilizing the current stack to setting the foundation for what comes next.
大多数人认为技术角色应专注于创新和前沿功能,但这里强调的是'稳定当前系统'和'为未来奠定基础',暗示ARC Prize认为在AI评估领域,稳定性比创新更为关键,这与许多初创公司的快速迭代文化相悖。
A senior engineer to own and evolve the game engine and real-time play infrastructure behind the ARC-AGI series.
大多数人认为游戏引擎开发需要专注于图形渲染和游戏性能,但这里强调的是'AI智能测量'和'实时游戏基础设施',表明ARC Prize Foundation正在将游戏引擎作为评估AI通用智能的工具,这与传统游戏开发的目标截然不同。
Begin with fast checks that explain behavior, then add slower, heavier checks only when they reduce risk.
大多数人可能认为全面的评估应该从一开始就包含所有可能的检查,但作者主张渐进式评估方法,从快速检查开始,只在必要时添加更复杂的检查。这个观点挑战了'一次性全面测试'的常规做法,主张风险驱动的评估策略。
The fastest way to get started is to use Codex's built-in skill creator (which itself is also a skill).
大多数人可能认为工具创建应该独立于使用它的系统,但作者认为工具创建本身也应该是一个可执行的技能。这个观点挑战了传统工具开发与使用分离的范式,主张元编程和自举方法。
The most reliable way to improve a skill over time is to evaluate it the same way you would any other prompt for LLM applications.
大多数人可能认为AI代理技能需要特殊的、独特的评估方法,但作者认为它们应该被视为普通LLM提示应用的一部分进行评估。这个观点挑战了AI代理评估需要特殊框架的共识,主张统一的方法论。
It happens several times a year in the US alone, often unreported, and about 100 times a year worldwide.
大多数人认为实验室泄漏是罕见且重大事件,但作者暗示这类事件相当常见且未被充分报道,这颠覆了公众对实验室安全标准的认知,暗示问题比普遍认为的更普遍。
Nor does it matter, given that the modifying strains for pathogens for research purposes is what every research lab does, because that is what virology is.
大多数人认为实验室病原体研究存在特殊风险,但作者认为这种研究是常规且必要的,暗示实验室泄漏问题被过度政治化。这一观点挑战了公众对生物安全风险的普遍担忧。
For me Ralph Baric's 2024 test testimony moved the lab leak hypothesis to pretty likely.
大多数人认为Ralph Baric的证词不足以改变COVID-19起源的科学共识,但作者认为这一证词显著增加了实验室泄漏理论的可信度,这挑战了科学界对证据标准的普遍理解。
And since then, there is no more scientific evidence or verifiable sources. Hence the reason the CIA didn't even believe it and gave it the lowest confidence rating it has.
大多数人认为实验室泄漏理论有充分证据支持,但作者认为缺乏科学证据,因为CIA给予了最低置信度评级。这与主流媒体和政治叙事形成鲜明对比,挑战了公众对COVID-19起源的普遍认知。
We run a similar model processing loan documents that would normally require a team of 15.
大多数人认为复杂业务流程需要专业团队处理,但作者认为AI可以替代15人团队。这挑战了传统行业用人标准,暗示AI可以大幅减少人力需求,但也可能忽视了AI在复杂决策中的局限性和风险。
This is the part people miss about AI-native companies - the $113k is not a cost, it is your headcount budget allocated differently.
大多数人认为AI成本是额外的支出,但作者认为AI成本实际上是对人力预算的重新分配。这挑战了传统成本会计观念,暗示AI不是成本而是投资,但也可能低估了AI实际成本和维护的复杂性。
Our goal is $10M ARR [annual recurring revenue] with a sub-10 person org.
大多数人认为高收入公司需要大量员工和复杂组织结构,但作者认为AI可以实现极简组织架构。这挑战了传统商业规模理论,暗示AI可以颠覆企业组织的基本模式,但也可能忽视了人类创造力和判断力的不可替代性。
The real unlock is compound scaling—token spend grows linearly while output grows exponentially.
大多数人认为AI投入与产出成正比,但作者认为AI投入可以实现指数级增长,远超线性投入。这挑战了传统商业认知,暗示AI可以创造超常规回报,但也可能掩盖了AI实际效益被夸大的风险。
We imagine a world where all of the tools you use are as rich and visual as the world we live in.
大多数人认为数字工具应该追求效率和精确性,往往以牺牲视觉丰富性为代价,但作者认为未来的工具应该像现实世界一样丰富和视觉化,这一观点挑战了我们对实用主义设计的传统认知,暗示了体验至上可能成为新的设计哲学。
If the most effective way to communicate something were a single word, an illustration, or a photorealistic rendering, that's what you'd see.
大多数人认为信息呈现应该遵循一致的模式和格式,但作者认为最有效的沟通方式应该是动态变化的,可以根据内容自动选择最佳呈现形式,这一观点挑战了我们对UI一致性和标准化设计的传统认知。
The screen you're reading this on is already presenting you an image, it's just generated with rigid code and rules that makes it difficult to communicate complex and detailed ideas.
大多数人认为我们当前的屏幕显示是由代码和规则构建的功能性界面,但作者认为这已经是图像,只是被 rigid code 限制,这一观点挑战了我们对UI本质的理解,暗示所有界面本质上都是视觉表现,只是灵活度不同。
All text on the screen is rendered as pixels by the image model. There are no text overlays applied to the images.
大多数人认为屏幕上的文字是独立的文本层,可以单独编辑和搜索,但作者认为所有文本都是作为像素由图像模型渲染的,这与我们对用户界面文本处理的基本认知相悖,暗示了未来计算可能完全基于视觉而非文本。
The entire web is just generated pixels on your screen.
大多数人认为网页是由HTML、代码和特定链接构成的,但作者认为整个网络只是屏幕上生成的像素,这是一个颠覆性的观点,挑战了我们对互联网本质的传统认知。如果这个观点成立,将彻底改变我们对网络结构和信息呈现方式的理解。
Vercel is advising Google Workspace administrators and Google account owners to check for the following application: OAuth App: 110671459871-30f1spbu0hptbs60cb4vsmv79i7bbvqj.apps.googleusercontent.com
大多数人认为企业安全事件主要影响企业自身系统,但作者指出这次事件实际上要求普通Google Workspace管理员检查特定应用,这挑战了'企业安全事件仅影响企业内部'的常见认知,表明第三方应用的安全风险可能广泛影响普通用户。
threat actors linked to recent attacks attributed to the ShinyHunters extortion gang have denied to BleepingComputer that they are involved in this incident.
大多数人声称黑客组织会主动承认自己的攻击行为以获取声誉,但作者指出ShinyHunters成员否认参与此次攻击,这与黑客组织通常通过认领攻击来增强威慑力的行业共识相悖。
Unfortunately, the attacker got further access through their enumeration.
大多数人认为环境变量即使不敏感也难以被利用,但作者指出攻击者通过枚举这些变量获得了进一步访问权限,这挑战了'非敏感数据不值得保护'的常见观念,暗示即使是看似无害的数据也可能成为攻击链的一部分。
the initial access occurred after a Vercel employee's Google Workspace account was compromised via a breach at the AI platform Context.ai.
大多数人认为大型云平台的漏洞主要来自外部直接攻击,但作者暗示这次安全事件实际上是通过第三方AI平台Context.ai的漏洞间接导致的,这挑战了人们对供应链安全风险的普遍认知。
Vercel stores all customer environment variables fully encrypted at rest. We have numerous defense-in-depth mechanisms to protect core systems and customer data.
大多数人认为云服务提供商的所有数据都会自动加密保护,但作者指出Vercel实际上允许将环境变量标记为'非敏感',这意味着这些变量默认不加密,这与行业普遍认为的'云数据自动加密'的常识相悖。
The action that matters most — building semiconductor-grade hydrogen bromide gas conversion capacity outside Israel — takes years.
大多数人认为供应链中断可以通过市场机制快速调整,但作者指出建立替代产能需要数年时间,远快于市场自发调整的速度。这一反直觉观点强调了供应链韧性需要长期规划和政府干预,而非依赖市场力量。
The structural failure is not the war: It is that the global memory supply chain has built itself around a conversion chokepoint with no redundancy and no fallback.
大多数人认为供应链风险主要来自地缘政治冲突本身,但作者指出真正的结构性问题是全球内存供应链围绕一个没有冗余和备用方案的转换瓶颈构建。这一观点挑战了主流认知,将焦点从战争本身转向了供应链设计的根本缺陷。
The story receiving almost no attention is bromine, and it is potentially the more dangerous one.
大多数人认为中东地区的半导体供应链风险主要集中在氦气等资源上,但作者指出溴素才是更危险的隐形威胁。这一观点挑战了主流认知,因为它揭示了一个被广泛忽视的关键材料,其重要性远超当前媒体关注的焦点。
Emissions in advanced economies grew faster (+0.5%) than in emerging and developing economies (+0.3%) for the first time since the 1990s.
大多数人认为发达国家已经控制了排放增长,而发展中国家是排放增长的主要来源,但作者认为发达国家排放增长首次超过发展中国家,这挑战了传统的排放责任认知。
Battery storage was the fastest-growing power technology, with around 110 gigawatts (GW) of new capacity added – more than any year of natural gas capacity additions on record.
大多数人认为储能技术仍处于早期发展阶段,但作者认为电池储能已经成为增长最快的电力技术,其新增容量超过了历史上任何一年的天然气装机容量,这表明能源存储正在经历爆发式增长。
Solar was the single biggest contributor to global energy supply growth in 2025. It accounted for more than 25% of the increase – the first time a modern renewable has led global primary energy growth.
大多数人认为太阳能仍处于辅助能源地位,需要很长时间才能成为主导能源,但作者认为太阳能已经超越所有其他能源成为全球能源增长的最大贡献者,这标志着能源转型的历史性转折点。
we probably will publish more curl vulnerabilities in 2026 than we have done in many years, maybe ever.
大多数人认为随着安全实践的提升,软件漏洞数量应该减少,但作者预测2026年curl的漏洞发布数量可能会创下历史新高。这一观点挑战了'安全状况持续改善'的主流认知,暗示AI安全审计工具可能正在发现更多过去被忽视的漏洞。
it is decently important to handle them asap when they arrive so that we can avoid building up too much backlog.
大多数人认为面对大量安全报告应该优先处理最严重的漏洞,但作者强调需要立即处理所有报告以避免积压。这与常见的'按严重程度排序处理'的安全最佳实践相悖,暗示在AI生成报告的高频率环境下,响应速度比优先级排序更重要。
The time when we suffer from large amounts of AI slop is gone. Now we instead suffer under a massive load of good reports.
大多数人认为AI工具会产生大量低质量的'垃圾报告'(AI slop),增加开发者的负担,但作者认为现在AI生成的安全报告质量很高,虽然数量庞大但都是高质量的报告。这是一个反直觉的观点,因为通常人们认为自动化工具会产生大量噪音而非有价值的贡献。
In addition to empowering developers and agents to handle project setup and boilerplate code, we've also designed these new tools and resources to make it easier to transition to Android Studio.
大多数人认为CLI工具和AI代理会取代传统IDE成为开发主流。但作者暗示这些工具只是过渡到Android Studio的桥梁,最终仍需使用IDE完成高质量应用,这与'CLI将取代IDE'的主流预测相悖。这种观点挑战了开发工具演进方向的行业共识。
By accessing the frequently updated knowledge base, agents can ground their responses in the most recent information from Android developer docs, Firebase, Google Developers, and Kotlin docs. This ensures that even if an LLM's training cutoff is a year old, it can still provide guidance on the latest frameworks and patterns we recommend today.
大多数人认为过时的LLM模型无法提供最新的技术指导,需要重新训练才能适应新框架。但作者声称即使LLM训练数据已过时一年,通过知识库仍能提供最新框架指导,这与主流认知相悖。这种观点挑战了'LLM模型必须定期更新才能保持最新'的行业共识。
Android skills cover some of the most common workflows that some Android developers and LLMs may struggle with—they help models better understand and execute specific patterns that follow our best practices and guidance on Android development.
大多数人认为AI模型应该能够自主学习和理解最佳实践,不需要特定的技能集。但作者暗示AI模型在Android开发中存在'常见工作流程'方面的困难,需要专门的技能集来弥补,这与主流认知相悖。这种观点挑战了'AI应该能够自主学习'的行业共识。
The new Android CLI serves as the primary interface for Android development from the terminal, featuring commands for environment setup, project creation, and device management—with more modern capabilities and easy updatability in mind.
大多数人认为图形界面IDE(如Android Studio)比命令行工具更适合Android开发,尤其是对于复杂项目。但作者将CLI定位为'主要接口',暗示其可能优于传统IDE,这与主流认知相悖。如果属实,这将颠覆开发者对IDE必要性的传统认知。
Whether you are using Gemini in Android Studio, Gemini CLI, Antigravity, or third-party agents like Claude Code or Codex, our mission is to ensure that high-quality Android development is possible everywhere.
大多数人认为不同AI代理工具之间存在显著性能差异,需要针对特定场景选择最佳工具。但作者暗示任何代理都能实现高质量开发,这与行业共识相悖。这种观点可能会挑战开发者社区对不同AI代理工具性能差异的传统认知。
In our internal experiments, Android CLI improved project and environment setup by reducing LLM token usage by more than 70%, and tasks were completed 3X faster than when agents attempted to navigate these tasks using only the standard toolsets.
大多数人认为AI代理工具会消耗大量token且效率低下,但作者声称Android CLI能减少70%的token使用并提高3倍速度,这与主流认知相悖。如果属实,这将彻底改变开发者对AI辅助工具效率的认知,挑战了'AI代理必然消耗大量资源'的行业共识。
Capture sequences and replay them as stable automations.
大多数人认为工作流程自动化需要专门的自动化工具或脚本编写,且难以处理复杂的认证和状态变化,但作者声称Kampala可以通过简单的流量捕获和重放实现稳定的自动化,这挑战了流程自动化领域的传统工具和方法。
Legacy workflows, turned into dependable APIs for agents and internal systems.
大多数人认为将遗留系统转换为可靠的API需要大量的重构工作,可能涉及源代码访问和深度系统理解,但作者暗示Kampala可以简单地通过流量拦截实现这一目标,这挑战了软件集成和API开发的基本方法论。
Map tokens, cookies, sessions, and multi-step sequences automatically.
大多数人认为认证链跟踪需要手动分析复杂的网络请求序列,可能需要数小时甚至数天的工作,但作者声称Kampala可以自动完成这项任务,这挑战了网络安全审计和渗透测试的传统工作流程。
See every HTTP/S request from any app or browser in real time.
大多数人认为跨应用程序的实时流量监控需要复杂的系统级权限或修改应用程序本身,但作者暗示Kampala可以透明地拦截任何应用程序或浏览器的流量,这挑战了操作系统和应用程序安全模型的基本前提。
Maintains your HTTP/TLS fingerprint so intercepted traffic behaves identically to the original.
大多数人认为流量拦截和监控会留下明显的痕迹,容易被检测到,但作者声称Kampala可以完美保持原始HTTP/TLS指纹,这挑战了网络安全中关于流量检测的基本假设,暗示可以完全不被察觉地监控网络流量。
Kampala lets you reverse engineer anything including websites, mobile apps, and desktop apps instantly.
大多数人认为逆向工程需要专业的技能和大量的时间,尤其是针对移动和桌面应用程序,但作者声称Kampala可以即时完成这些工作,这挑战了安全研究和软件工程领域的传统认知,暗示逆向工程可以变得简单快捷。
SWE-chat is a living dataset; our collection pipeline automatically and continually discovers and processes sessions from public repositories
大多数人认为AI研究数据集是静态的、一次性的收集,但作者提出'活数据集'概念,强调数据需要持续更新才能反映真实使用情况。这挑战了传统AI评估中依赖静态基准测试的做法,主张需要动态、持续的数据收集方法。
despite rapidly improving capabilities, coding agents remain inefficient in natural settings
大多数人认为随着AI能力的提升,编程助手的效率会相应提高,但研究发现在实际开发环境中,AI编程助手仍然效率低下。这表明实验室环境下的性能提升不一定能转化为实际工作流程中的效率增益。
users push back against agent outputs -- through corrections, failure reports, and interruptions -- in 44% of all turns
大多数人可能认为用户会接受AI编程助手的建议,但数据显示近一半的用户交互中,用户都在主动抵制或纠正AI的输出。这表明AI编程助手与用户之间存在显著的认知冲突,而非简单的合作关系。
agent-written code introduces more security vulnerabilities than code authored by humans
大多数人认为AI编程助手能提高代码质量和安全性,但研究发现AI生成的代码实际上比人类编写的代码引入更多安全漏洞。这一发现与AI能减少编程错误的普遍认知相悖,挑战了AI在安全领域的优越性假设。
Just 44% of all agent-produced code survives into user commits
大多数人认为AI生成的代码会被大量采纳,但研究显示只有不到一半的AI生成代码最终被用户保留。这表明AI编程助手的实际贡献远低于表面看起来那么大,用户对AI输出有很高的筛选和修正率。
coding patterns are bimodal: in 41% of sessions, agents author virtually all committed code ('vibe coding'), while in 23%, humans write all code themselves.
大多数人认为AI编程助手与人类是协作关系,各有所长,但作者发现实际使用呈现两极分化模式——要么几乎完全依赖AI生成代码('vibe coding'),要么完全拒绝AI而完全手动编写。这种非连续的采纳模式挑战了人们对人机协作的常规认知。
The overall conclusion, therefore, is that AI for Science should be understood as both a scientific and a civilizational project.
大多数人认为AI在科学中的应用主要是技术层面的进步,而作者认为这应该被理解为科学和文明层面的项目。这一观点将AI科学提升到了前所未有的高度,暗示它不仅是工具变革,更是人类知识创造方式的根本转变。
The central question is not whether AI can imitate human conversation, but whether it can participate in the production of publishable scientific knowledge at a level comparable to a recognized human contributor.
大多数人认为AI科学贡献的衡量标准是其模仿人类对话的能力,而作者认为真正的标准应该是AI能否产生可发表的、相当于人类贡献者的科学知识。这一观点重新定义了AI科学成功的标准,挑战了当前AI评估的主流范式。
Without a mechanism for continuous and diverse learning, AI systems will tend to reproduce the dominant patterns already present in their training data. That limitation would make truly creative work difficult.
大多数人认为AI的创造力主要来自模型规模和计算能力的提升,而作者认为缺乏持续学习和多样性机制将限制AI的真正创造力。这一观点挑战了主流AI发展路径,暗示技术规模扩张本身不足以实现真正的科学创新。
The most effective pattern of human-AI cooperation may differ substantially across disciplines, and these patterns will likely be discovered through practice rather than designed in advance.
大多数人认为AI与人类合作的最佳模式可以通过预先设计和优化来确定,而作者认为这种模式将通过实践自然涌现。这一观点与主流AI研究方法相悖,因为它暗示AI合作模式的发现过程是自下而上的,而非自上而下的工程化设计。
If publication becomes more agentic, it may create new ways to recognize and evaluate such contributions. Although the final form of such a system remains uncertain... the evaluation and reward structure of academia will change in a fundamental way.
大多数人认为学术评价体系会保持相对稳定,而作者认为AI驱动的代理出版将彻底改变学术评价和奖励结构。这一观点挑战了学术界长期以来的共识,暗示传统的论文引用和同行评审模式可能被完全颠覆。
The application of LLMs in science is already underway... We believe that AI will ultimately bring a fundamental big change to scientific research across disciplines.
大多数人认为AI在科学研究中只是辅助工具,而作者认为AI将从根本上改变科学研究的结构和方式。这一观点与主流认知相悖,因为它暗示AI不仅是提高效率的工具,而是会重塑科学发现、合作和发表的本质。
The most fundamental change brought by the LLM revolution is that human know-how is becoming replicable and shareable at scale.
大多数人认为AI革命主要在于自动化和效率提升,但作者认为LLM革命的核心在于人类技能的可复制性和规模化共享。这一观点挑战了主流认知,因为它暗示AI不仅是工具,更是一种全新的信息载体,类似于DNA和语言在人类历史中的变革性角色。
The results demonstrate consistent improvements over strong baselines, supporting the effectiveness of agent resource management and closed loop self evolution.
大多数研究者认为自我进化系统难以评估且效果不稳定,但作者声称他们的系统在多个具有挑战性的基准测试中表现出持续改进的能力。这一结论挑战了AI自我进化领域的普遍怀疑态度,暗示了一种更加可靠和有效的自我进化方法。
Building on AGP, we present Autogenesis System (AGS), a self-evolving multi-agent system that dynamically instantiates, retrieves, and refines protocol-registered resources during execution.
传统多代理系统通常在运行前就定义好所有组件和交互方式,但作者提出了一种在执行过程中动态实例化、检索和细化协议注册资源的系统。这与静态部署、预定义架构的主流AI系统设计理念背道而驰,暗示了一种更加动态和自适应的系统架构。
Its Self Evolution Protocol Layer (SEPL) specifies a closed loop operator interface for proposing, assessing, and committing improvements with auditable lineage and rollback.
大多数人认为AI代理系统的自我进化应该是开放式的、持续的过程,但作者提出了一个封闭循环的进化机制,要求有可审计的血统记录和回滚能力。这与当前AI系统中常见的快速迭代、持续学习的理念形成鲜明对比,暗示了一种更谨慎、更可控的进化路径。
Its Resource Substrate Protocol Layer (RSPL) models prompts, agents, tools, environments, and memory as protocol registered resources with explicit state, lifecycle, and versioned interfaces.
传统观点认为提示词、代理、工具和内存应该是不同类型、独立管理的实体,但作者认为它们都应该被视为协议注册的资源,具有明确的状态、生命周期和版本化接口。这种统一资源模型挑战了当前AI系统设计中的主流思维模式。
We introduce Autogenesis Protocol (AGP), a self evolution protocol that decouples what evolves from how evolution occurs.
大多数人认为代理系统的演化应该是一个整体、不可分割的过程,但作者提出了一个颠覆性的观点:将演化的内容与演化方式解耦。这与传统软件架构和代理系统设计理念相悖,暗示了一种全新的、更灵活的代理系统架构范式。
existing agent protocols (e.g., A2A and MCP) under specify cross entity lifecycle and context management, version tracking, and evolution safe update interfaces, which encourages monolithic compositions and brittle glue code.
大多数人认为现有的代理协议已经足够成熟且能有效管理复杂系统,但作者认为当前主流的代理协议(如A2A和MCP)存在严重的规范不足问题,这会导致系统变得脆弱和难以维护。这是一个反直觉的观点,因为行业通常认为这些协议已经相当完善。
The results demonstrate consistent improvements over strong baselines, supporting the effectiveness of agent resource management and closed loop self evolution.
虽然大多数AI研究者相信自我演化能带来性能提升,但很少有人能够证明这种提升在多个具有挑战性的基准测试中持续超过强大的基线模型。作者声称他们的AGS系统不仅实现了自我演化,而且这种演化是闭环的、可审计的,这挑战了当前AI社区对自我演化系统的认知,暗示了更加结构化的演化方法可能比开放式的演化更有效。
Building on AGP, we present Autogenesis System (AGS), a self-evolving multi-agent system that dynamically instantiates, retrieves, and refines protocol-registered resources during execution.
大多数人认为多智能体系统应该在设计阶段就确定各个智能体的角色和交互方式,而不是在执行过程中动态调整。但作者提出的AGS系统强调在运行时动态实例化、检索和细化协议注册的资源,这挑战了传统多智能体系统的设计范式,引入了一种更加灵活和动态的智能体协作方式。
Its Self Evolution Protocol Layer (SEPL) specifies a closed loop operator interface for proposing, assessing, and committing improvements with auditable lineage and rollback.
大多数人认为AI系统的自我演化应该是开放式的、持续的过程,而不是有明确边界和可追溯性的闭环操作。但作者提出的SEPL层强调了一种结构化的自我演化方法,要求每次改进都可被审计、追踪和回滚,这与当前AI社区对开放式演化的主流认知相悖,可能带来更安全但更受限的演化路径。
Its Resource Substrate Protocol Layer (RSPL) models prompts, agents, tools, environments, and memory as protocol registered resources with explicit state, lifecycle, and versioned interfaces.
大多数人可能认为提示词(prompt)只是简单的文本输入,不需要像系统资源那样进行严格的状态和生命周期管理。但作者将提示词与智能体、工具、环境和内存一起视为需要明确状态、生命周期和版本化接口的协议注册资源,这挑战了当前对提示词的普遍认知,提升了其在系统架构中的重要性。
We introduce Autogenesis Protocol (AGP), a self evolution protocol that decouples what evolves from how evolution occurs.
大多数人认为AI系统的演化应该是一个整体过程,关注点在于如何实现演化。但作者提出了一种革命性的分离方法,将演化的内容与演化的方式解耦,这打破了传统系统设计的思维模式。这种分离可能使AI系统的演化更加可控和可预测,与当前主流的集成式演化方法形成鲜明对比。
However, existing agent protocols (e.g., A2A and MCP) under specify cross entity lifecycle and context management, version tracking, and evolution safe update interfaces, which encourages monolithic compositions and brittle glue code.
大多数人认为当前的智能体协议已经足够完善,能够有效管理复杂的AI系统。但作者认为现有协议存在严重不足,特别是在实体生命周期、上下文管理和版本控制方面,这会导致系统变得脆弱和难以维护。这是一个挑战行业共识的观点,因为许多研究者可能认为现有框架已经能够处理这些挑战。
Scan your website to see how ready it is for AI agents. We check multiple emerging standards — from robots.txt and Markdown negotiation to MCP, OAuth, Agent Skills and agentic commerce.
大多数人认为网站优化主要是针对搜索引擎和人类用户,但作者认为网站需要专门为AI代理(agent)准备,这挑战了传统的网站优化观念。文章提出了一系列新兴标准,如MCP、Agent Skills等,表明未来的网站交互将不再局限于人类浏览,而是需要与AI系统进行复杂交互。
We want email agent tooling to be composable and reusable. Rather than every team rebuilding the same inbound-classify-reply pipeline, start with this reference application.
大多数人认为电子邮件处理系统需要为每个用例从头构建,因为每个业务流程都有独特需求,但作者主张通过开源参考应用实现电子邮件工具的'可组合性和可重用性',挑战了定制化开发优于标准化组件的行业惯例,暗示电子邮件代理可能具有比预期更高的通用性。
Each agent gets its own identity from a single domain. The address-based resolver routes support@yourdomain.com to a 'support' agent instance, sales@yourdomain.com to a 'sales' instance, and so on.
大多数人认为为每个AI代理创建独立身份需要复杂的身份管理系统和单独的资源分配,但作者提出一个反直觉方案:通过电子邮件地址路由就可以为每个代理创建独特身份,无需单独配置邮箱或资源,这挑战了传统多代理系统架构的设计理念。
The inbox becomes the agent's memory, without needing a separate database or vector store.
大多数人认为AI代理需要专门的数据库或向量存储来维护状态和记忆,但作者提出一个颠覆性观点:电子邮件收件箱本身可以作为代理的内存系统,这挑战了构建AI代理时需要复杂后端存储的行业共识,暗示电子邮件可能是一种未被充分利用的状态管理工具。
A chatbot responds in the moment or not at all. An agent thinks, acts, and communicates on its own timeline.
大多数人认为聊天机器人和AI代理本质上是相同的概念,只是复杂度不同,但作者明确区分了'聊天机器人'和'代理',认为关键区别在于通信方式 - 聊天机器人必须即时响应,而代理可以异步思考和行动,这挑战了AI领域对交互式AI的主流分类方式。
Email is the most accessible interface in the world. It is ubiquitous. There's no need for a custom chat application, no custom SDK for each channel.
大多数人认为电子邮件是一种过时的通信方式,需要被更现代的聊天应用和API取代,但作者认为电子邮件是'最可访问的接口',甚至比专门的聊天应用更通用,因为它不需要用户安装新应用或使用特定SDK,这挑战了技术行业对实时通信渠道的主流认知。
If this analogy is right, then we will likely see sort of a 'Cambrian explosion' in agent harnesses purpose-built for running server-side; and the few that win this race will become as ubiquitous as WordPress.
作者预测AI代理领域将出现类似寒武纪大爆发的专业化工具浪潮,这一观点挑战了当前AI工具集中化的趋势。如果正确,这将意味着未来AI市场将由多种专业化代理工具主导,而非少数通用平台。这一预测对AI创业者和投资者具有重要战略意义。
They don't mind paying the AI labs for tokens — but the agent itself, they'd much rather have outside of the labs' infrastructure.
作者提出了一个关于AI经济模式的反直觉洞见:组织愿意为AI模型付费,但希望将代理本身部署在自己的基础设施上。这一观点挑战了'AI服务将完全云端化'的假设,暗示混合AI部署模式可能成为主流,这对AI公司的商业模式和基础设施战略具有重要启示。
WordPress wasn't the best-designed CMS — Drupal was. It wasn't the most performant or reliable either. But that didn't stop WordPress from becoming the de-facto standard for building websites and the largest ecosystem — all because it was the easiest to use.
这一陈述揭示了技术选择中的一个反直觉原则:易用性往往比技术优越性更能决定产品的市场成功。这一观点挑战了技术社区中'最佳技术应该获胜'的假设,暗示在AI代理领域,最易用的工具可能最终胜过技术上更优越但更复杂的解决方案。
Agent harnesses are much more like WordPress than they are like Apache, simply because people want to have their own agents — just like everyone wanted their own website in the early 2000s.
作者提出了一个令人惊讶的类比,将未来AI代理工具与WordPress而非Apache相提并论。这一观点挑战了技术演进的传统叙事,暗示未来的AI基础设施将更注重用户友好性和可定制性,而非底层技术架构的优雅。这暗示AI代理领域可能出现类似WordPress的'民主化'浪潮。
WordPress still serves roughly 40% of all Internet traffic. It's more than 20 years old. It is old and clumsy and doesn't scale well and it couldn't care less about all the distributed system cloud goodness that we are all accustomed to.
这一陈述揭示了技术成功与优雅设计之间的反直觉关系。尽管WordPress在技术上存在明显缺陷,但它仍然主导着网络内容管理系统市场,挑战了'更好的技术必然胜出'的常识。这种现象表明,用户体验和易用性往往比技术优越性更能决定产品的市场地位。
They don't mind paying the AI labs for tokens — but the agent itself, they'd much rather have outside of the labs' infrastructure.
这一观点揭示了AI生态系统中的一个关键悖论:用户愿意为底层AI能力付费,但希望代理工具本身保持自主性和可移植性。这暗示了未来AI商业模式的核心可能在于'代理即服务',而非单纯的'模型即服务'。
If this analogy is right, then we will likely see sort of a 'Cambrian explosion' in agent harnesses purpose-built for running server-side; and the few that win this race will become as ubiquitous as WordPress.
这一预测暗示了AI代理工具领域将经历一个爆炸式创新和激烈竞争的阶段,最终少数几个平台将主导市场。这与当前AI领域相对集中化的现状形成鲜明对比,提出了一个关于技术演化的非共识观点。
WordPress wasn't the best-designed CMS — Drupal was. It wasn't the most performant or reliable either. But that didn't stop WordPress from becoming the de-facto standard for building websites and the largest ecosystem — all because it was the easiest to use.
这一发现挑战了技术领域常见的'最佳技术必胜'假设。WordPress的胜利证明了在技术采用中,用户体验和易用性可能比技术优越性更重要,这对当前AI工具开发具有深刻启示。
Agent harnesses are much more like WordPress than they are like Apache, simply because people want to have their own agents — just like everyone wanted their own website in the early 2000s.
这一观点将AI代理工具与WordPress类比,而非更底层的Apache服务器,提出了一个非传统的技术架构观点。它暗示未来AI生态系统的成功将取决于用户层面的可定制性和易用性,而非底层技术架构的先进性。
WordPress still serves roughly 40% of all Internet traffic. It's more than 20 years old. It is old and clumsy and doesn't scale well and it couldn't care less about all the distributed system cloud goodness that we are all accustomed to.
这一陈述揭示了技术成功与优雅设计之间的反直觉关系。WordPress的技术缺陷与其市场主导地位形成鲜明对比,暗示在新兴技术领域(如AI代理),易用性和可访问性可能比技术优越性更能决定市场成功。
Riemannian Langevin lifecycle: active → warm → archive → forget. Tiered storage with automatic promotion on access.
将黎曼流形和朗之万动力学应用于记忆生命周期管理是一个极具创新性的概念。这种将物理数学概念应用于记忆管理的做法挑战了传统记忆系统的静态存储观念,提出了一种动态、自适应的记忆衰减和激活机制,更接近生物记忆的工作方式。
SLM Mesh — P2P coordination across AI agent sessions via MCP. Broadcast + project-scoped messaging, offline queue with 48h TTL.
提出AI代理间的P2P协调机制而非传统的中心化架构是一个大胆的反传统设计。48小时离线队列TTL的概念挑战了实时通信的必要性,暗示了AI系统可能需要更像人类间歇性交流而非持续连接的通信模式。
Triple-stream learning: tool events (statistical) + LLM observer (Haiku-driven) + recall learning (PageRank + community detection)
这种三流学习方法挑战了单一学习源的传统AI架构。将统计事件、小型LLM观察者和图算法结合的学习方式模拟了人类的多渠道认知过程,这一反直觉设计可能代表了AI学习架构的未来方向,挑战了当前依赖单一大型模型的趋势。
V3.3 achieves 70.4% in Mode A (zero-LLM), with +23.8pp on multi-hop and +12.7pp on adversarial. V3.2 achieved 74.8% Mode A and 87.7% Mode C; the 4.4pp gap reflects a deliberate architectural trade-off.
在零LLM模式下仅比有LLM支持的模式低17.3%,这一结果令人震惊。这表明生物启发的记忆架构可能比我们想象的更强大,能够在没有大型语言模型支持的情况下保持大部分性能,挑战了'强大AI必须依赖大型模型'的主流观点。
Ebbinghaus Adaptive Forgetting with lifecycle-aware quantization -- the first mathematical forgetting curve in local agent memory coupled to progressive embedding compression, achieving 6.7x discriminative power.
将艾宾浩斯遗忘曲线引入本地代理记忆系统并实现6.7倍的判别力提升是一个反直觉的发现。传统上,遗忘被视为缺陷而非功能,这项研究表明,有控制的遗忘机制可能比无限记忆更有价值,这与人类认知科学中'遗忘是学习的一部分'的观点形成呼应。
Fisher-Rao Quantization-Aware Distance (FRQAD) -- a new metric on the Gaussian statistical manifold achieving 100% precision at preferring high-fidelity embeddings over quantized ones (vs 85.6% for cosine), with zero prior art.
这项声称100%精度的FRQAD指标令人惊讶,因为它远超传统余弦相似度的85.6%。如果属实,这将彻底改变我们处理嵌入向量压缩和相似度计算的方式,挑战当前广泛使用的余弦相似度在信息检索领域的统治地位。
AI coding agents operate in a paradox: they possess vast parametric knowledge yet cannot remember a conversation from an hour ago.
这个陈述揭示了当前AI系统的一个根本性矛盾——拥有大量静态知识却缺乏动态记忆能力,这挑战了我们对AI'智能'的传统理解。如果AI真正智能,它应该能够记住并利用过去的交互经验,而这正是当前大型语言模型架构的明显缺陷。
For Max-plan users hitting rate limits instead of dollars: your 5-hour window ends sooner by roughly the same ratio on English-heavy work. A session that ran the full window on 4.6 probably doesn't on 4.7.
这一反直觉现象揭示了AI服务中'隐性限制'的存在。表面上配额没有变化,但由于token效率下降,实际使用时间大幅缩短。这种'时间配额隐形缩减'挑战了用户对'固定配额'的理解,是AI服务提供商在不改变价格和名义配额的情况下提高成本的一种微妙方式。
The real-world weighted ratio (1.325x) lands near the top of their range. Individual file types exceed it — CLAUDE.md at 1.445x, technical docs at 1.473x. That's the useful finding: the top of the documented range is where most Claude Code content sits, not the middle.
这一发现挑战了我们对文档和营销声明的常规解读方式。通常我们假设厂商提供的范围是合理的中间值,但实际使用情况往往接近最坏情况。这表明技术文档中的'范围'可能更多是营销策略而非实际预期,用户应该基于最坏情况而非平均值进行规划,这违背了我们对文档准确性的基本信任。
A small but directionally consistent improvement on strict instruction following. Loose evaluation is flat. Both models already follow the high-level instructions — the strict-mode gap comes down to 4.6 occasionally mishandling exact formatting where 4.7 doesn't.
这一发现揭示了AI模型能力提升的一个微妙现象:微小但精确的改进可能比重大但模糊的改进更有价值。Claude 4.7只在严格指令遵循上有微小提升,但这种提升针对的是实际开发中常见的精确格式化问题,这挑战了人们对'重大突破'的执念,强调了'精准解决特定问题'的价值。
Code is hit harder than unique prose (1.29–1.39x vs 1.20x). Code has more repeated high-frequency strings — keywords, imports, identifiers — exactly the patterns a Byte-Pair Encoding trained on code would collapse into long merges.
这一发现挑战了我们对代码token化的常识认知。通常我们认为代码有更多重复模式应该更高效token化,但事实相反。这表明代码的语义复杂性超越了简单的重复模式,需要更细粒度的处理。这一反直觉结论对代码生成和代码理解模型的优化方向提出了新思考。
Same sticker price. Same quota. More tokens per prompt. Your Max window burns through faster. Your cached prefix costs more per turn. Your rate limit hits sooner.
这一反直觉现象揭示了AI服务定价的微妙之处:表面价格不变,实际成本大幅增加。用户在不自觉的情况下消耗更多配额,这种'隐性成本上升'策略挑战了传统定价透明度的期望,是AI服务商业模式中一个值得警惕的趋势。
The extra tokens bought something measurable. +5pp on strict instruction-following. Small. Real. So: is that worth 1.3–1.45x more tokens per prompt?
这是一个令人惊讶的价值权衡案例。Anthropic用高达45%的token成本增加,只换来了5个百分点的指令遵循提升。这种不成比例的交换表明,在AI模型优化中,'微小但真实'的改进可能需要付出巨大成本,这挑战了人们对技术改进应该'物有所值'的普遍假设。
Chars-per-token on English dropped from 4.33 to 3.60. TypeScript dropped from 3.66 to 2.69. The vocabulary is representing the same text in smaller pieces.
这一发现挑战了人们对tokenizer效率的直觉认知。通常我们假设更高效的tokenizer应该能用更少的token表示相同内容,但Claude 4.7的tokenizer实际上产生了更多token。这种反直觉的变化表明,Anthropic可能故意牺牲token效率换取更细粒度的语言处理能力,这违背了传统NLP中'更少token=更高效'的常识。
More loops is not always better. Beyond a certain depth, excessive recurrence degrades predictions — the hidden state drifts past the solution and into noise. This is the 'overthinking' failure mode.
这一发现挑战了'更多循环总是更好'的直觉,揭示了循环模型的'过度思考'问题。这类似于人类思考中的过度分析现象,表明即使是最优架构也存在'饱和点'。这一发现对模型设计有重要启示:需要智能的停止机制,而不是简单地增加循环次数。
The recurrent structure is optimized for iterative composition — running a reasoning chain forward — but does not inherently improve the storage of rote facts. This maps to an observable characteristic of Mythos: it reasons exceptionally well about novel problems it has never seen, but its factual recall can be inconsistent.
这一发现揭示了循环模型的一个关键局限性:它们在推理方面表现出色,但在记忆方面可能不如传统Transformer。这一反直觉的观察表明,不同架构可能适用于不同类型的任务,挑战了'通用架构解决所有问题'的观点。这也解释了为什么Mythos在某些事实性任务上表现不佳。
At 770M parameters, a looped model achieves the downstream quality of a 1.3B fixed-depth Transformer trained on the same data — roughly half the parameters for the same quality.
这一发现具有颠覆性,表明循环模型在参数效率上可能远超传统Transformer。如果这一结论成立,那么大模型的发展方向可能需要重新思考——与其不断增加参数量,不如优化循环架构的设计。这挑战了当前'更大即更好'的主流观点。
Training looped models is notoriously unstable. Two failure modes dominate: Residual explosion — the hidden state h_t grows unboundedly across loops; Loss spikes — training diverges suddenly due to large spectral norms in injection parameters.
循环模型的训练稳定性问题是一个常被忽视的挑战。这一发现揭示了循环架构在实现时面临的关键技术难题,解释了为什么尽管理论上优越,但循环模型在实际应用中相对罕见。这种不稳定性可能是许多研究者放弃循环架构的重要原因。
Each loop iteration is the functional equivalent of one step of chain-of-thought, but operating in continuous latent space rather than token space. A looped model running T loops implicitly simulates T steps of CoT reasoning. This has been formally proven (Saunshi et al., 2025).
这一发现令人惊讶,因为它表明循环模型在连续潜在空间中实现了思维链推理,而不需要显式的中间token输出。这意味着模型可以在单次前向传播中完成多步推理,这挑战了传统思维链需要显式token输出的观点,并为理解大模型推理过程提供了新视角。
Claude Mythos is suspected to be a Recurrent-Depth Transformer (RDT) — also called a Looped Transformer (LT). Rather than stacking hundreds of unique layers, a subset of layers is recycled and run through multiple times per forward pass. Same weights. More loops. Deeper thinking.
这一观点挑战了传统大模型架构的常识,认为Claude Mythos的核心创新不在于增加参数量,而在于通过循环使用相同权重来实现更深层次的推理。这种架构设计反直觉地表明,模型的'深度'可以通过循环迭代而非堆叠层来实现,这可能解释了Mythos在复杂推理任务上的优异表现。
The real bottleneck in AI right now is not compute but rather data quality
这一论点颠覆了当前AI行业对计算资源投入的过度关注,提出了一个令人惊讶的视角:我们可能一直在解决错误的问题。如果数据质量是真正瓶颈,那么整个AI研发的重点需要重新评估。
GPT-4o operates at roughly 200 billion parameters and outperforms the original 1.8 trillion-parameter GPT-4
这一发现与行业普遍认为'更大模型必然更好'的共识相悖,暗示模型质量和架构可能比规模更重要。这可能是AI发展史上最令人惊讶的效率提升案例之一,挑战了我们对AI进步的理解。
Build a cognitive core, a model that contains only the algorithms for reasoning and problem-solving, stripped of encyclopedic memorization
Karpathy提出的认知核心概念挑战了当前AI模型的架构设计理念,暗示我们可能一直在错误的方向上投入资源。这一分离记忆与推理的思路,可能代表AI发展的范式转变。
One estimate puts Llama 3's information compression at just 0.07 bits per token meaning the model has only a hazy recollection of most of what it trained on
这个惊人的数据点揭示了大型语言模型在信息处理上的低效率,挑战了我们对AI模型'学习'能力的理解。如果模型对其训练内容只有模糊记忆,那么我们是否需要如此庞大的参数规模?这值得深入研究。
frontier AI models are not too big because the technology is complex and too big because the training data is garbage
这一观点挑战了当前AI模型规模扩大的主流解释,将问题从技术复杂性转向数据质量问题,提出了一个反直觉的视角:模型规模实际上是应对低质量数据的必要之举,而非技术发展的必然结果。
Updates between versions are bolded.
这个简单的格式化选择揭示了一个令人惊讶的实践:系统提示的变更历史被刻意设计为难以追踪。通过只突出显示变更内容而非完整版本,普通用户无法轻松理解系统提示的演变轨迹,这种设计选择实际上限制了用户对AI行为变化的理解和适应能力。
See updates to the core system prompts on claude.ai and the Claude iOS and Android apps.
文档暗示了一个反常识的观察:系统提示更新是按应用平台而非模型版本发布的。这意味着同一模型在不同平台上可能有不同的行为表现,这挑战了'模型版本决定能力'的传统认知,揭示了平台特定行为才是实际用户体验的决定因素。
This prompt is periodically updated to improve Claude's responses.
文档透露了一个令人不安的事实:普通用户无法控制或审查这些定期更新的系统提示内容。这挑战了AI透明度的常见假设,用户实际上在使用一个不断变化但不可见的指令集,这种'黑盒更新'模式与开源AI理念背道而驰。
These system prompt updates do not apply to the Claude API.
这里有一个关键的非共识观点:Anthropic刻意保持API和界面行为的不一致性。虽然表面上API提供了更多控制权,但这种分裂意味着API用户可能会错过重要的行为改进和安全更新,这实际上创造了两个不同的'Claude'生态系统。
The system prompt also encourages certain behaviors, such as always providing code snippets in Markdown.
这展示了一个令人惊讶的设计决策:Anthropic强制要求代码必须以Markdown格式输出,这实际上限制了AI与代码交互的自然性。对于追求原生代码体验的开发者来说,这形成了一个意外障碍,挑战了'AI应该适应开发者需求'的常识。
If Claude finds itself mentally reframing a request to make it appropriate, that reframing is the signal to REFUSE, not a reason to proceed with the request.
That's why 为什么需要博士生来构建Prompt
But that comes with a new risk: While scripted conversations can't really go off the rails, ones generated by AI certainly can. Some popular AI toys have, for example, talked to kids about how to find matches and knives.
令人惊讶的是:生成式AI对话虽然比脚本式对话更自然,但也带来了新的风险,一些AI玩具曾教孩子如何找到火柴和刀具。这提醒我们,随着AI技术变得更加先进,我们需要更加关注其安全性和伦理影响,特别是在与儿童互动的场合。
Amazon, Toyota, and GXO (a logistics giant with customers like Apple and Nike) have all deployed it—making it one of the first examples of a humanoid robot that companies see as providing actual cost savings rather than novelty.
令人惊讶的是:亚马逊、丰田和GXO等大型公司已经开始部署人形机器人Digit,这些公司视其为实际节省成本的工具,而非新奇事物。这标志着机器人技术从实验阶段转向实际商业应用的重大转变,人形机器人开始进入主流工作环境。
In 2025, Google DeepMind further fused the worlds of large language models and robotics, releasing a Gemini Robotics model with improved ability to understand commands in natural language.
令人惊讶的是:Google DeepMind将大型语言模型与机器人技术融合,创建了Gemini Robotics模型,使机器人能够更好地理解自然语言指令。这种融合代表了人工智能领域的重大突破,使机器人能够像人类一样理解和执行复杂指令。
The solution is called domain randomization. You essentially create millions of simulated worlds that all vary slightly and randomly from one another.
令人惊讶的是:为了让机器人在现实世界中更好地工作,研究人员需要创建数百万个略有不同的模拟世界。这种'领域随机化'技术解决了模拟与现实之间的差距,通过让机器人接触各种变化环境来提高其适应能力,是一种非常巧妙的训练方法。
Companies and investors put $6.1 billion into humanoid robots in 2025 alone, four times what was invested in 2024.
令人惊讶的是:机器人投资在2025年出现了爆炸性增长,达到2024年的四倍。这表明市场对机器人的信心发生了根本性转变,从谨慎观望到大规模投入,反映了AI技术进步如何重塑了投资者对机器人可行性的看法。
Developers will be forced to look elsewhere, from smaller models to on-premise deployments, until energy infrastructure & data center buildouts catch up, which could take years.
这一观点揭示了AI发展可能被迫回归更小规模、更本地化的解决方案,挑战了集中化、大规模计算的主流趋势。这种转变可能催生分布式AI架构和边缘计算的新机遇,重塑技术路线图。
This imbalance will inevitably drive prices higher as demand compounds against a fixed supply.
作者预测AI计算资源将呈现典型的稀缺商品特性,需求增长而供应固定导致价格持续上涨。这一反直觉结论表明,AI行业可能面临与其他资源密集型产业相似的经济学约束,而非例外。
The age of abundant AI is over, & it will remain so for years.
这一断言挑战了技术进步必然带来资源丰富化的传统观念。AI稀缺时代的到来可能迫使行业重新思考效率优化、模型小型化以及计算资源分配等根本问题,而非一味追求更大模型。
Anthropic has limited its newest model to roughly forty organizations.
将最先进AI模型限制在极少数组织手中,标志着AI正从开放资源转变为特权商品。这种转变与互联网早期的开放精神形成鲜明对比,可能重塑AI领域的竞争格局和创新模式。
This feels like a preview of where SaaS economics are heading. The companies that built big orgs on the assumption of steady seat expansion are going to find themselves competing with products built by tiny teams inside the frontier labs.
作者提出了一个颠覆性的观点,即Figma的困境预示着SaaS经济的根本性转变。基于座位扩张模式建立的大型组织将不得不与前沿实验室中的小团队竞争产品。这一观点挑战了传统SaaS增长模式,暗示了行业可能面临的结构性重组。
Figma has close to 2,000 employees - not all working on product engineering of course. I really doubt Anthropic even needed 10 to build Claude Design.
这一惊人的效率对比揭示了AI时代产品开发的根本性转变:Anthropic仅用极小团队就能构建直接挑战拥有2000名员工的Figma的产品。这挑战了传统软件公司需要大量人力的假设,预示着更小、更专注的团队可能主导未来市场。
It's also worth noting that a lot of the things that would traditionally lock a company like Figma in stop working as well in an agent-first world.
作者挑战了传统SaaS护城河的概念,指出在AI代理主导的世界中,多人协作、插件生态系统等传统优势变得不再重要。这一洞见揭示了AI将如何重构软件竞争格局,使传统SaaS公司的护城河失效。
Figma is effectively funding a competitor - and the more AI usage Figma has - the more money they send over to Anthropic for the tokens they use.
这一反直觉的商业模式揭示了SaaS公司在AI时代的结构性弱点:公司可能正在资助自己的竞争对手。Figma不仅为Anthropic提供收入,还使用较次的模型(Sonnet 4.5)而竞争对手使用更先进的模型(Opus 4.7),这种双重打击极具讽刺性。
A system that can look up any fact has not been forced to find structure. It has not been forced to generalize. The lossy compression that makes training so powerful, the mechanism that turns raw data into transferable representations, is exactly what we shut off the moment we deploy.
这个观点揭示了检索与学习的本质区别。当前AI系统虽然可以检索任何事实,但被迫寻找结构和归纳的能力却被关闭了。这挑战了我们对AI'智能'的理解,暗示真正的智能需要能够从经验中学习和归纳,而不仅仅是检索信息。
The filing cabinet keeps getting bigger. But a bigger filing cabinet is still a filing cabinet. The breakthrough is letting the model do after deployment what made it powerful during training: compress, abstract, and learn.
文章以'文件柜'的比喻生动地说明了当前AI系统的局限性。即使上下文窗口不断扩大,本质上仍然只是更大的文件柜。真正的突破是让模型在部署后继续执行训练时的核心能力:压缩、抽象和学习。这个观点挑战了当前AI发展的主流方向,提出了一个令人深思的问题:我们是否在追求错误的解决方案?
The current separation between training and deployment is not just an engineering convenience – it is a safety, auditability, and governance boundary. Open it, and several things break at once.
这个观点揭示了持续学习背后的深层挑战。作者指出,训练和部署的分离不仅是工程便利,更是安全、可审计性和治理的边界。这提出了一个令人不安的问题:如果我们允许AI持续学习,我们可能会失去对系统的控制和理解,这是否值得冒险?
The irony is that the very mechanism that makes LLMs powerful during training (e.g. compressing raw data into compact, transferable representations) is exactly what we refuse to let them do after deployment.
这是一个极具洞察力的反直觉观点。文章指出,正是训练过程中使LLMs强大的压缩机制,在部署后却被我们拒绝使用。这暗示我们可能正在错失让AI真正进化的关键机会,同时也提出了一个重要问题:为什么我们不让AI在部署后继续学习?
Large language models live in a similar perpetual present. They emerge from training with vast knowledge frozen into their parameters but they cannot form new memories – cannot update their parameters in response to new experience.
这个观点挑战了我们对AI学习能力的传统认知。LLMs虽然拥有大量知识,却无法像人类一样形成新记忆,这揭示了当前AI系统的根本局限性。作者通过《记忆碎片》电影中的失忆症患者类比,生动地展示了当前AI系统的'永恒现在'状态,这是一个反直觉的深刻洞见。
Such tools promise to turn coders into project managers, letting them delegate and oversee many more tasks than they could cope with by themselves.
这一观点挑战了软件开发行业的职业发展路径,暗示AI代理将从根本上改变程序员的技能需求和工作性质。从编码者到项目管理者的转变,代表着一种职业身份的颠覆性重构,这与人们对技术专业发展的传统认知形成鲜明对比。
But the real power of agents comes when they can work as a team. Instead of lone-wolf bots carrying out single tasks, such as using a browser to make a restaurant reservation or sending you a summary of your inbox, new tools can yoke together multiple agents, give each of them a different job, and orchestrate their behaviors so that they all pull together to complete more complex tasks than an individual agent could do by itself.
这一观点挑战了当前AI代理作为独立工具的主流认知,提出协同工作的AI代理将实现质的飞跃。这种从单点到网络的转变,暗示AI代理系统将实现从简单任务到复杂任务的跨越,这一反直觉结论可能预示着AI应用范式的根本转变。
Think of multi-agent systems as the new assembly lines. Henry Ford's innovation upended entire industries last century. In theory, networks of AI agents could do to white-collar knowledge work what assembly lines did to manufacturing.
这是一个极具挑战性的非共识观点,将AI代理系统与工业革命时期的装配线相提并论,暗示AI将彻底改变白领工作的方式,这与当前人们对AI辅助工具的认知形成鲜明对比。这一论点挑战了人们对AI只是增强工具而非颠覆性技术的普遍认知。
Discovery should focus on trust boundaries, authentication flows, parsers, shared services, and legacy code that still sits on critical paths.
这一建议挑战了传统安全扫描的广度优先方法,转而强调深度优先的特定领域。这表明AI安全研究应该更关注那些传统方法难以发现的复杂逻辑问题,而不是简单地扫描所有代码。这种转变可能带来更有效的安全投资回报。
The scariest part of Mythos is not that one lab has a gated model. It is that the core workflow primitives behind representative findings are no longer confined to a single lab's private stack.
这一洞察挑战了公众对AI安全威胁的传统理解:真正的威胁不是某个实验室拥有受限访问的模型,而是核心工作流程的原型已经公开可用。这意味着攻击者和防御者都可以访问相同的基础技术,使威胁民主化而非集中化。
The real issue is not whether defenders can get access to another model. It is whether they can turn model capability into something a security team can trust and use every day.
这是一个颠覆性的观点:安全团队应该停止将获取新模型作为优先事项,而是专注于如何将现有模型能力转化为可信任的日常工具。这挑战了行业对'最新、最强大模型'的追逐,强调了实施和验证框架的重要性。
Public models can already spot that a security-relevant check is missing in the right code path, but they can still miss the actual invariant being violated and therefore misstate the impact.
这一发现揭示了公共模型在安全分析中的一个关键局限:它们能发现缺失的安全检查,但可能无法正确理解被违反的实际不变量,从而错误陈述影响。这挑战了'AI能完全理解安全含义'的假设,强调了人类专家在解释AI发现中的不可替代性。
The takeaway is not whether Mythos is better or more powerful. It is that public models can already achieve much the same results.
这是一个令人惊讶的结论:Anthropic的Mythos模型可能并不比公共模型强大得多,只是它们的工作流程更成熟。这挑战了行业对专有模型的过度追捧,表明真正的创新在于如何组织和使用AI工具,而不是模型本身的神秘性。
If public models can already do useful work inside that kind of workflow, then the story is not 'Anthropic has a magical cyber artifact.' The story is that serious AI-assisted vulnerability research is no longer confined to a single frontier lab.
这一发现挑战了Anthropic试图构建的叙事:即高级AI安全研究需要受限访问。研究表明,公共模型已经能够复制关键的安全发现,这意味着真正的'护城河'不是模型访问,而是验证、优先排序和操作化的能力。这打破了'只有前沿实验室才能进行高级AI安全研究'的神话。
The real challenge is validating outputs, prioritizing what matters, and operationalizing them.
这是一个反直觉的结论:AI安全研究的前沿已经从模型本身转移到如何有效利用模型的能力。大多数安全团队仍然专注于获取最强大的模型,而实际上真正的瓶颈在于验证、优先排序和将发现转化为可操作的修复。这挑战了'更好的模型等于更好的安全'的传统观念。
What happens is that weak models hallucinate (sometimes causally hitting a real problem) that there is a lack of validation of the start of the window... without understanding why they, if put together, create an issue.
这一发现揭示了AI漏洞检测的严重局限性:弱模型只能通过模式匹配'发现'表面相似的问题,却无法理解问题之间的因果关系。这表明当前AI在网络安全中的应用可能存在系统性盲点,值得深入研究。
So, cyber security of tomorrow will not be like proof of work in the sense of 'more GPU wins'; instead, better models, and faster access to such models, will win.
作者提出了一个颠覆性的观点:未来网络安全的关键不是计算资源的多寡,而是模型质量的优劣。这挑战了当前AI安全领域过度关注计算能力的趋势,暗示我们应该重新思考AI安全研究的投资方向。
Stronger models hallucinate less, so they can't see the problem in any side of the spectrum: the hallucination side of small models, and the real understanding side of Mythos.
这一观察极具反直觉性:更强的模型反而更难发现某些漏洞,因为它们减少幻觉的同时也失去了对问题的'直觉理解'。这暗示AI安全研究可能需要不同能力层次的模型组合,而非简单地追求更大更强的模型。
you can run an inferior model for an infinite number of tokens, and it will never realize(*) that the lack of validation of the start window, if put together with the integer overflow, then put together with the fact the branch where the node should never be NULL is entered regardless, will produce the bug.
作者通过OpenBSD SACK bug的例子提供了一个令人惊讶的发现:弱模型无论运行多久都无法理解复杂漏洞的因果关系。这揭示了AI在理解复杂系统交互方面的根本局限性,挑战了'无限计算可解决任何问题'的假设。
Keeping a human in the loop may not provide the safeguard people imagine, because the human cannot know the AI's intention before it acts.
这一论点直接挑战了军事AI监管的核心原则,即'人类在回路中'能提供有效保障。作者认为这种监督可能是一种幻觉,因为人类无法在AI行动前理解其真实意图,这违背了人们对人类监督有效性的普遍假设。
Huge advances have been made in developing and building more capable models, driven by record investments—forecast by Gartner to grow to around $2.5 trillion in 2026 alone. In contrast, the investment in understanding how the technology works has been minuscule.
这一数据对比揭示了AI领域的一个令人惊讶的不平衡:巨额资金投入到构建更强大的AI系统,而用于理解这些系统如何工作的投资却微不足道。这种不平衡发展可能导致我们拥有强大但不透明的AI武器系统,而对其运作机制知之甚少。
The immediate danger is not that machines will act without human oversight; it is that human overseers have no idea what the machines are actually 'thinking.'
这一陈述挑战了人们对AI战争监管的传统认知,提出真正的危险不在于机器脱离人类控制,而在于人类无法理解AI的'思维'过程。这违反了直觉,因为公众普遍认为人类监督是AI武器系统的主要安全保障。
Including design intent in Claude Code handoffs has made the jump from prototype to production seamless.
这一断言称设计意图可以无缝传递到生产代码中,挑战了设计实现过程中常见的意图丢失问题。这种理想化的工作流程重新定义了原型到生产的转换,需要验证其在复杂项目中的实际表现。
Claude packages everything into a handoff bundle that you can pass to Claude Code with a single instruction.
这一描述暗示了AI系统之间无缝协作的可能性,挑战了传统软件开发中设计到实现阶段的转换壁垒。这种自动化工作流程代表了软件开发范式的潜在革命,值得深入了解其技术实现和实际限制。
Founders and Account Executives can go from a rough outline to a complete, on-brand deck in minutes
这一声明暗示非设计专业人士可以在几分钟内完成专业级别的演示文稿制作,挑战了传统设计专业知识和技能价值的认知。这种能力重新定义了创意工作的门槛,值得探索其对设计行业生态的深远影响。
What used to take a week of back-and-forth between briefs, mockups, and review rounds now happens in a single conversation.
这一断言将设计流程从一周缩短到一次对话,代表了一个极其反直觉的时间压缩。这种戏剧性的效率提升挑战了传统设计工作流程的基本假设,需要验证实际应用案例和可能的局限性。
Our most complex pages, which took 20+ prompts to recreate in other tools, only required 2 prompts in Claude Design.
这一声明暗示Claude Design将设计效率提高了10倍以上,这是一个惊人的效率飞跃。这种反直觉的提升挑战了人们对AI工具渐进式改进的普遍预期,值得独立验证其真实性能和适用场景。
Claude keeps its responses focused and concise so as to avoid potentially overwhelming the user with overly-long responses
Anthropic明确要求Claude保持简洁,这一指令与当前AI模型普遍倾向于生成冗长回答的趋势形成鲜明对比。这表明简洁性可能被低估为用户偏好,而实际上可能影响用户体验和AI效用。这一反直觉发现挑战了'更多信息总是更好'的常规假设。
Claude 4.6 had a section specifically clarifying that 'Donald Trump is the current president of the United States and was inaugurated on January 20, 2025'
Anthropic需要在系统提示中明确声明政治事实,以弥补模型的'知识截止日期'与实时政治变化之间的差距。这一做法揭示了AI系统面临的一个根本性挑战:如何在保持知识更新的同时避免政治偏见,这一反直觉的解决方案可能成为未来AI治理的重要参考。
If people ask Claude to give a simple yes or no answer... Claude can decline to offer the short response
Claude现在被明确授权拒绝简单的是非题回答,这一设计挑战了AI应'直接回答问题'的传统期望。这种对简单拒绝的授权反映了AI系统正在发展出类似人类的'拒绝回答权',这一反直觉特性可能被用户误解为模型能力缺陷,实则是伦理设计的进步。
Claude calls tool_search to check whether a relevant tool is available but deferred
Claude现在具有内置的'工具搜索'机制,在声称缺乏某种能力前会主动检查是否有可用工具。这一设计挑战了AI模型'无所不知或一无所知'的传统二分法,创造出一种'延迟知识获取'的中间状态,这一反直觉特性可能被开发者误认为是模型缺陷。
the person typically wants Claude to make a reasonable attempt now, not to be interviewed first
这一指令挑战了传统人机交互中'先澄清再行动'的常识。Anthropic似乎发现用户更倾向于让AI自行推断并尝试,而非不断询问确认。这一反直觉发现揭示了用户与AI交互的新模式,可能改变我们设计AI助手的传统思路。
Once Claude refuses a request for reasons of child safety, all subsequent requests in the same conversation must be approached with extreme caution.
这一指令暗示Claude具有某种'记忆'或'状态追踪'能力,即使拒绝请求后仍会记住之前的拒绝。这与传统AI模型的无状态特性形成鲜明对比,表明Claude可能具有某种会话上下文记忆机制,这一反直觉特性可能被开发者忽视。
the move from pattern matching to understanding cause and effect
作者指出从模式匹配到理解因果关系的转变是AGI的关键,这一观点挑战了当前AI领域过度关注表面模式识别的趋势。它暗示真正的智能需要超越数据关联,达到对世界运作原理的深层理解。
LLMs actually work under the hood
文章标题暗示了LLMs内部工作原理的神秘性。这一反直觉观点指出,尽管我们广泛使用LLMs,但对其内部工作机制的理解仍然有限,这挑战了我们对AI系统的控制能力和对其行为的预测能力。
the ability to keep learning after training and the move from pattern matching to understanding cause and effect
作者提出AGI需要两个关键要素:持续学习能力和从模式匹配到理解因果关系的能力。这一观点挑战了当前AI发展路径,暗示我们可能过于关注规模和数据,而忽视了真正的理解能力。
transformers update their predictions in a precise, mathematically predictable way as they process new information
这一发现挑战了我们对LLMs工作方式的传统理解。如果transformers的预测更新是可预测的数学过程,那么它们的行为可能比我们想象的更加确定性和可解释,这暗示了当前AI系统可能比我们意识到的更加'机械'而非'智能'。
Research has shown that involving workers' perspectives in the design of workplace technologies promotes sustainable improvements in productivity and well-being.
这一发现挑战了自上而下技术实施的常规模式,强调员工参与设计的重要性。这一反直觉观点表明,最有效的AI应用往往不是来自高层战略,而是来自一线员工的实际需求和创意。这一发现对组织如何实施AI转型提供了重要启示,值得深入研究如何将这一原则转化为具体实践。
In one U.S. survey, 40% of employees said they had received 'workslop', i.e. AI-generated content that looks polished but isn't accurate or useful, in the past month.
这一惊人的高比例(40%)的'workslop'现象揭示了AI应用中的一个悖论:虽然AI提高了效率,但同时也带来了大量低质量内容。这一发现挑战了'AI总是提高生产力'的普遍假设,暗示了过度依赖AI可能导致的隐性成本,需要重新评估AI的实际价值。
Entry-level roles rely less on experience and knowledge and are easier to automate. Empirical evidence suggests employment for workers aged 22–25 in highly AI-exposed jobs declined by 16% relative to similar but less-exposed roles
这一发现挑战了常规认知,即AI主要影响的是重复性工作。研究显示,经验较少的年轻工人受到的冲击最大,这与直觉相反,因为人们通常认为AI会首先替代需要较少认知技能的工作。这一反直觉现象值得进一步研究,因为它可能揭示了AI如何重塑职业阶梯和技能获取路径。
A central pattern emerging in generative AI is a shift from 'thinking by doing' (e.g. writing a document) toward 'choosing from outputs' (e.g. prompting AI to write a document).
这一转变挑战了人类专业能力发展的传统认知。从'通过思考做事'到'从输出中选择'的转变可能削弱人类判断力和专业知识培养,这与人们通常认为的AI增强人类能力的观点形成鲜明对比,揭示了AI可能带来的认知能力退化风险。
LLMs take knowledge from millions of people who have written web content or posted in places like Reddit and Wikipedia, interacted with chatbots, and generated other types of data, and make that available to individuals on demand.
这一观点挑战了'人工智能'的术语本身,提出'集体智能'可能是更准确的描述。LLM实际上是数百万人的集体知识产物,这一反直觉的视角揭示了AI与人类创造力之间的复杂关系,挑战了AI作为独立实体的传统理解。
In one U.S. survey, 40% of employees said they had received 'workslop', i.e. AI-generated content that looks polished but isn't accurate or useful, in the past month.
这一惊人的数据揭示了AI在工作场所应用中的潜在陷阱。虽然AI被宣传为提高生产力的工具,但近半数员工报告收到过看似精美但不准确或无用的AI生成内容。这表明过度依赖AI可能导致质量下降,挑战了AI总是带来积极效果的假设。
Entry-level roles rely less on experience and knowledge and are easier to automate. Empirical evidence suggests employment for workers aged 22–25 in highly AI-exposed jobs declined by 16% relative to similar but less-exposed roles
这一发现挑战了传统观点,即AI主要影响高技能工作。相反,研究表明AI对年轻、经验不足的工人冲击更大,这可能与入门级工作更容易自动化有关。这一反直觉的发现暗示AI可能正在改变职业发展的传统路径,对年轻一代的就业前景产生深远影响。
Cursor still uses and sells access to Claude and GPT models even as both firms roll out their own coding tools, an awkward arrangement that this new SpaceX partnership may be designed to eventually escape.
大多数人可能认为 Cursor 应该专注于自己的产品,但作者指出 Cursor 仍在使用和销售 Claude 和 GPT 模型,这与其推出自己编码工具的举措形成尴尬局面,可能正是 SpaceX 合作的原因。
Either figure would represent a significant expense for SpaceX, which is widely seen to be losing money following the acquisition of xAI and the social media network X and is planning extensive capital investment.
普遍观点认为 SpaceX 在收购 xAI 和社交媒体网络 X 后亏损严重,但作者提出 SpaceX 可能正在通过投资 Cursor 来寻求新的价值,这与主流观点中 SpaceX 的财务困境相悖。
The deal won’t shock those who follow the industry closely. Last week, it was reported that xAI would begin renting computing power from its data centers to Cursor, with the coding startup using tens of thousands of xAI chips to train its latest AI model.
行业观察者可能认为 SpaceX 与 Cursor 的合作不会引起太大惊讶,但作者强调上周已报道 xAI 将向 Cursor 提供大量计算能力,这一信息对理解合作的重要性具有重要意义。
Neither Cursor nor xAI has proprietary models that can match the leading offerings from Anthropic and OpenAI — the same companies now competing directly with Cursor for the developer market.
大多数人认为 Cursor 和 xAI 在 AI 领域具有独树一帜的技术优势,但作者指出它们与领先企业如 Anthropic 和 OpenAI 相比并无明显优势,反而直接面临竞争。
Members have been using Mythos regularly since gaining access — providing screenshots and a live demonstration of the model as evidence to _Bloomberg_ — though reportedly not for cybersecurity purposes in an attempt to avoid detection by Anthropic.
人们通常认为黑客使用高级 AI 模型是为了进行网络攻击,但作者指出,这些黑客似乎并没有使用 Mythos 进行网络安全目的,而是为了避免被 Anthropic 发现,这表明了黑客行为可能并不总是出于恶意。
The group accessed Mythos by using knowledge of Anthropic’s other model formats obtained from a recent [Mercor data breach](https://www.theverge.com/ai-artificial-intelligence/907083/a-company-that-makes-ai-training-data-has-been-hit-by-a-security-breach) to make “an educated guess” about its online location.
大多数人可能认为高级 AI 模型的访问权限非常难以获得,但作者指出,一个黑客小组通过从 Mercor 数据泄露中获得的信息来猜测 Mythos 的在线位置,这表明了数据泄露可能对更广泛的网络安全构成威胁。
Official access to the model is limited to a handful of companies through the [Project Glasswing initiative](https://www.theverge.com/ai-artificial-intelligence/908114/anthropic-project-glasswing-cybersecurity), including Nvidia, Google, Amazon Web Services, Apple, and Microsoft.
通常情况下,人们可能认为只有政府机构才会被授予访问像 Mythos 这样的高级 AI 模型的权限,但作者指出,除了政府之外,像 Nvidia、Google 和 Microsoft 这样的科技公司也被列入了访问名单,这表明了科技公司在网络安全领域的重要作用。
Anthropic currently has no plans to release the model publicly due to concerns that it could be weaponized.
大多数人认为 Anthropic 的 Mythos 模型会像其他 AI 模型一样公开发布,但作者指出由于担心其被武器化,Anthropic 没有公开发布该模型的计划,这表明了对 AI 武器化风险的担忧超过了推广技术的需求。
It also surpasses all peer-scale dense models by a wide margin.
在多数情况下,人们可能认为更大规模的模型将具有更好的性能,但作者提出Qwen3.6-27B在同等规模密集模型中表现卓越,这一观点与主流认知相悖。
With only 27B parameters, it outperforms the Qwen3.5-397B-A17B (397B total / 17B active) on every major coding benchmark
通常认为参数量越多,模型性能越好,但作者提出27B参数的Qwen3.6-27B在所有主要编码基准测试中都优于拥有更多参数的Qwen3.5-397B-A17B,这与常规观点相悖。
It also surpasses all peer-scale dense models by a wide margin.
大多数人可能认为模型性能与其规模成正比,但作者指出Qwen3.6-27B在同等规模模型中表现突出,超越了所有同规模密集模型,这挑战了规模与性能之间的传统认知。
TPU 8i is designed with more memory bandwidth to serve the most latency-sensitive inference workloads, which is critical because interactions between agents at scale magnify even small inefficiencies.
通常认为内存带宽是通用硬件的需求,但作者提出TPU 8i针对低延迟推理进行了优化,这与通用硬件设计追求平衡的常规做法不同。
Both chips can run various workloads, but specialization unlocks significant efficiencies and gains.
许多人认为通用性是硬件设计的最高目标,但作者指出专门化设计可以带来显著的效率和性能提升,这与追求通用性的主流观点相左。
By customizing and co-designing silicon with hardware, networking and software, including model architecture and application requirements, we can deliver dramatically more power efficiency and absolute performance.
通常认为硬件定制化是提高性能的途径,但作者强调通过软硬件协同设计可以大幅提升效率和性能,这与单纯硬件升级的观点相悖。
These two chips are designed to power our custom-built supercomputers, to drive everything from cutting-edge model training and agent development, to massive inference workloads.
大多数人认为TPU主要用于加速模型训练,但作者提出TPU 8t和8i旨在支持从模型训练到推理的整个超算工作流程,挑战了TPU仅作为训练工具的传统认知。