3,187 Matching Annotations
  1. May 2026
    1. This rush to do AI in a world where you haven't even modernized your application reminds me a little bit of that lift-and-shift that happened in the cloud.

      大多数人认为AI应用应该优先采用最新技术快速实现,但作者将其比作云计算早期的'简单迁移'模式,认为这是一种可能导致资源浪费的短视行为。这与当前AI领域的快速采用主流观点相悖,暗示企业在AI应用上可能需要更加谨慎的基础架构规划。

    2. After a first wave focused on rapid deployment, organizations now need to revisit those first-generation implementations, and redesign early agent architectures around workflow orchestration, observability, governance, and recovery

      大多数人认为AI代理开发应该持续向前推进新技术,但作者认为企业实际上需要回到早期实现进行重建,因为快速部署阶段忽视了基础架构的可靠性问题。这与主流的'不断前进'的AI发展观相悖,暗示了AI发展可能需要经历一个'重建期'而非单纯的演进。

    1. Models of this capability level require stronger cyber safeguards before they can be generally released.

      大多数人认为更高级的AI模型应该更快地推向市场以获取竞争优势,但作者认为更强大的模型(如Mythos级)需要更强的网络安全保障才能发布。这与科技行业'快速迭代、先发布后完善'的主流做法形成鲜明对比,强调了安全可能优先于商业利益。

    2. Opus 4.8 defaults to high effort, which we judge to be the best overall balance of quality and user experience.

      大多数人认为AI模型应该追求最高效率和最快响应,但作者认为默认使用'高努力'模式(更频繁、更深入思考)是最佳平衡点。这与行业普遍追求的'速度至上'理念相悖,暗示质量有时需要牺牲效率来获得。

    3. Models of this capability level require stronger cyber safeguards before they can be generally released.

      大多数人认为AI安全措施应该随着技术发展而逐步完善,但作者认为更高级别的AI模型需要更强的网络安全保障才能发布。这挑战了AI行业逐步推进安全标准的常规做法,暗示高级AI可能需要突破性的安全方法而非渐进式改进。

    4. Opus 4.8 is around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked.

      大多数人认为AI模型会自信地输出有缺陷的代码而不自知,但作者认为Opus 4.8显著提高了自我纠错能力。这挑战了人们对AI模型自我评估能力的普遍怀疑,表明AI可能在代码质量方面比人们预期的更加可靠。

    5. Claude Code with Opus 4.8 can now carry out codebase-scale migrations across hundreds of thousands of lines of code from kickoff to merge

      大多数人认为AI模型在处理大规模代码迁移时需要人工干预和审查,但作者认为Opus 4.8能够独立完成数十万行代码的全流程迁移。这挑战了软件开发领域对AI辅助能力的传统认知,暗示AI可能比人们想象的更能胜任复杂的工程任务。

    6. Opus 4.8 defaults to high effort, which we judge to be the best overall balance of quality and user experience.

      大多数人认为AI模型应该追求最高效率或最低成本,但作者认为高努力程度是最佳平衡点,因为这能提供更好的用户体验和性能。这挑战了AI行业普遍追求速度和效率的主流认知,暗示质量与速度的权衡可能比人们认为的更重要。

    1. Claude is learning how businesses actually operate: the context, the processes, the judgment.

      大多数人认为AI模型主要是通过训练数据学习,而非通过实际业务操作进行学习。但作者暗示Claude正在通过企业部署过程中实时学习业务流程和决策逻辑,这种学习方式挑战了传统AI模型的训练范式,暗示AI可能正在从静态训练向动态学习转变。

    2. Anthropic has raised $65 billion in Series H funding led by Altimeter Capital, Dragoneer, Greenoaks, and Sequoia Capital, valuing the company at $965 billion post-money.

      大多数人认为AI公司的估值增长会遵循更渐进的曲线,但Anthropic在短短时间内从Series G到Series H实现了估值的大幅跃升,达到近1万亿美元。这种估值速度和规模挑战了传统科技公司的估值逻辑,暗示AI行业可能正在经历一种全新的资本运作模式。

    3. Claude is the first frontier model available on all three of the world's largest cloud platforms: Amazon Web Services, Google Cloud, and Microsoft Azure.

      大多数人认为AI公司通常会与单一云平台建立深度绑定关系,但Anthropic打破了这一行业常规,同时在三大云平台上提供其前沿模型。这种多平台策略挑战了科技行业常见的排他性合作模式,表明Anthropic可能正在寻求更广泛的市场覆盖和减少对单一供应商的依赖。

    4. Startups and Global 5000 companies alike are deploying Claude to handle complex workflows, and in doing so, Claude is learning how businesses actually operate: the context, the processes, the judgment.

      大多数人认为AI模型主要是在受控环境中学习和训练,但这里暗示Claude正在通过实际业务操作直接学习企业运作模式,这种在真实商业环境中持续学习的方式挑战了传统AI训练方法的封闭性和局限性,暗示AI可能正在向自主学习和适应的方向发展。

    5. Claude is the first frontier model available on all three of the world's largest cloud platforms: Amazon Web Services, Google Cloud, and Microsoft Azure.

      大多数人认为顶级AI模型通常会选择单一云平台作为主要合作伙伴以获得更好的条件和支持,但Anthropic同时与三大云平台合作,这种多平台策略挑战了传统科技行业的排他性合作模式,表明AI公司正在重新定义与云服务提供商的关系。

    6. Since our Series G in February, adoption has continued to grow across global enterprise customers, and our run-rate revenue crossed $47 billion earlier this month.

      大多数人认为AI公司在短期内难以实现大规模商业化,特别是达到470亿美元的年收入。这一数字暗示Anthropic可能正在以极快的速度实现收入增长,远超传统科技公司的扩张速度,挑战了人们对AI商业化时间表的普遍认知。

    7. Anthropic has raised $65 billion in Series H funding led by Altimeter Capital, Dragoneer, Greenoaks, and Sequoia Capital, valuing the company at $965 billion post-money.

      大多数人认为AI公司的估值通常基于其实际收入和盈利能力,但Anthropic以470亿美元的年收入获得了近万亿美元的估值,这一估值水平远超传统科技公司,表明投资者对AI未来的预期已完全脱离当前财务基本面,形成了非理性的估值泡沫。

    1. OpenAI选择砍掉视频应用,把算力集中到GPT-5.5的Agent架构和Codex代码工具上

      这反映了OpenAI的资源分配决策,表明他们认为当前视频生成领域的架构效率不足。这一决策暗示了公司对技术路线的判断,即Agent架构和代码工具可能比视频生成更具商业和技术价值。这种战略转向将影响整个AI行业的资源分配和研发重点。

    2. Ilya Sutskever的SSI获20亿美元融资押注新范式,Yann LeCun离职Meta创办AMI Labs,融资10.3亿美元,估值35亿。

      这些融资数据反映了业界对AI新范式下注的规模。Sutskever的20亿美元融资和LeCun的10.3亿美元融资表明,即使是独立研究机构也能获得巨额资金支持,显示出投资者对现有token范式局限性的共识和对新路径的期待。这些资金规模足以支撑大规模实验,可能加速新范式的商业化进程。

    3. 20亿参数对比同体量自回归模型、千亿参数LLaDA2.0,连续路线的scaling曲线健康有效。

      这是一个重要的模型规模对比数据。20亿参数的连续模型能媲美千亿参数的自回归模型,表明连续空间范式在参数效率上有巨大优势。这暗示着未来AI模型可能不再单纯追求参数规模,而是转向更高效的架构设计,对行业资源分配和技术路线产生深远影响。

    4. ELF用Flow Matching完成生成,仅32个采样步生成质量就超过离散模型1024步结果

      这是一个惊人的效率对比数据。32步 vs 1024步意味着计算效率提升约32倍,这表明连续空间范式在计算效率上有质的飞跃。如果这一数据得到验证,将彻底改变AI模型的推理成本结构和部署模式,对现有基于token计费的商业模式构成挑战。

    5. 训练数据约450亿token,仅为主流方法的十分之一。

      这是一个显著的数据点,表明连续空间范式在数据效率上有巨大提升。450亿token仅为传统方法的10%,这意味着在同等数据量下,连续空间模型可能实现更好的性能,或者以更少的数据达到相同效果,这将大幅降低AI训练成本和数据依赖。

    6. 如果核心计算全面迁移到连续空间,主打高质量视频离散编码的相关公司将首当其冲受到冲击。

      大多数人认为视频离散编码技术是AI发展的重要方向,但作者认为这类技术将面临被淘汰的风险,因为连续空间范式能更高效地处理视频等连续数据。这一预测与当前视频编码技术的发展方向相悖,具有强烈的反直觉性。

    7. Anthropic把几乎所有资源压在文本推理和代码执行上。这个策略在商业上正在被验证:Claude Code年化收入25亿美元...但从范式演进的角度看,这是一个在积累技术债的选择。

      大多数人认为专注于文本推理和代码执行是明智的商业策略,但作者认为Anthropic的这种选择是在积累技术债,因为它可能在未来统一连续空间架构的竞争中处于被动。这一观点挑战了当前AI商业成功的标准叙事。

    8. token不是语言建模的必要条件。连续空间可以做得更好、更快、更省。

      大多数人认为token是语言建模的基础和必要条件,但作者通过MIT何恺明团队和字节跳动Seed实验室的研究证明,连续空间建模可以超越传统token方法,只需32步采样就能超过离散模型1024步的结果,挑战了AI领域的核心共识。

    9. 人类语言是大脑为适配带宽产生的有损压缩协议,大脑原生认知是连续高维活动,大量感官认知从未被离散token编码。

      大多数人认为语言是思维的原生格式,token能完整表达人类认知,但作者认为语言只是大脑的有损压缩协议,大量感官认知无法被token编码,这是大语言模型的结构性天花板。这一观点挑战了我们对语言与认知关系的传统理解。

    1. KPMG and UT Austin's research helps clarify what that human should be doing

      文章提到KPMG与UT奥斯汀大学进行联合研究,但没有提供研究样本大小、研究方法或具体发现等量化数据。此处缺乏量化依据,无法评估研究的科学价值和实际应用效果。合作研究本身是一个积极信号,但没有具体研究成果的数据支持,难以评估其对AI实践的实际指导意义。

    2. KPMG becomes a preferred consultant for deploying Claude and Anthropic's agents into those portfolio companies

      文章提到KPMG成为'首选顾问',但没有提供具体的客户数量或市场份额数据。此处缺乏量化依据,无法评估这一战略合作的实际规模和影响。'首选顾问'是一个定性描述,而非可量化的业务指标,需要更多数据来支持这一声明的市场影响力。

    3. Anthropic raises $65B in Series H funding at $965B post-money valuation

      这一估值数据点显示了Anthropic的巨额融资和惊人估值。9650亿美元的估值使其成为全球最有价值的AI公司之一,超过了许多知名科技巨头。这个数字可信度较高,因为融资和估值通常是公开披露的信息。与OpenAI、Google等AI巨头相比,这一估值反映了市场对Anthropic技术的高度认可,但也可能存在估值泡沫风险。

    4. Building an AI agent to help clients adjust to changing tax regulations used to take weeks and required teams to switch between multiple tools and chat windows

      文章提到构建AI助手从'需要数周'到'只需几分钟'的转变,但没有提供具体的时间节省比例。此处缺乏量化依据,无法准确评估效率提升幅度。如果真的从数周缩短到几分钟,效率提升将超过90%,这将是一个显著的突破,但需要更多数据支持这一说法。

    5. every one of KPMG's 276,000+ employees globally will gain access to Claude

      276,000名员工获得Claude访问权限是一个相当大的AI部署规模,这代表了企业AI采用的一个重要里程碑。这个数字可信度较高,因为大型专业服务公司通常有准确的人力资源数据。与微软、谷歌等科技巨头数百万员工的AI部署相比,这个规模虽然较小,但在专业服务行业中属于领先水平。

    6. KPMG—one of the world's largest professional services firms for audit, tax, legal, and advisory services across 138 countries and territories

      这个数据点表明KPMG的全球业务覆盖范围极广,138个国家和地区的业务覆盖显示了其作为国际专业服务巨头的规模。这个数字可信度较高,因为大型专业服务公司通常会公布其国际业务覆盖范围。与四大其他三家相比,这个覆盖范围处于同一量级,反映了全球专业服务市场的格局。

    1. it more than doubled its valuation in eight months

      这句话强调了估值增长的惊人速度,'八个月内估值翻倍'这一表述简洁有力,直观地展示了公司价值的爆炸性增长。这种估值增长速度在科技史上极为罕见,突显了AI编程领域的特殊性和市场对其技术突破的高度认可。

    2. Scott Wu, CEO of Cognition

      虽然简短,但这句话提到了关键人物Scott Wu作为Cognition的CEO。在科技报道中,创始人或CEO的提及往往暗示了公司背后的故事和领导力的重要性。这句话为读者提供了公司领导层的关键信息,暗示了创始团队在推动这一估值飙升中的关键作用。

    3. AI coding startup Cognition raises $1B at $25B pre-money valuation

      标题本身就是一句极具冲击力的金句,简洁明了地传达了核心信息:一家AI编程初创公司获得了10亿美元融资,投前估值高达250亿美元。这个数字组合展示了AI编程领域正在经历前所未有的资本热潮,反映了市场对AI编程工具未来价值的极高预期。

    4. As Cognition reaches $492 million in annualized revenue run rate, it more than doubled its valuation in eight months, it says.

      这句话精炼地概括了Cognition公司的惊人增长速度和估值飙升,展示了AI编程领域的爆发式发展。492亿美元的年收入化运行率在短短八个月内估值翻倍,这种增长速度在科技行业极为罕见,凸显了AI编程工具市场的巨大潜力和投资者对该领域的强烈信心。

    1. How This 5x Founder Runs His Startup Solo With AI Agents

      行动建议:学习成功5倍增长创始人的AI代理使用模式,构建自己的AI代理系统,将重复性任务自动化,专注于核心战略决策,实现单人团队的规模化运营效果。

    2. Watch Ryan demo his exact OpenClaw, Codex, and Devin setup that books meetings, runs ads, and ships features while he sleeps

      行动建议:研究并测试OpenClaw、Codex和Devin这些AI工具的组合,设置自动化的会议安排、广告投放和功能开发流程,让AI助手在非工作时间也能处理关键业务任务,实现24/7运营。

    1. RSI is the new AGI — and it's just as hard to pin down

      文章标题使用了'new'这个词,暗示RSI是一个新兴概念,但缺乏历史背景来支持这一说法。这可能导致读者对RSI的发展历程产生误解。文章应该提供RSI概念的历史发展信息,而不是简单地将其标记为'新'概念。

    2. A new crop of AI labs are focused on recursive self-improvement — but the goal is proving elusive.

      文章暗示递归自我改进的目标难以实现,但没有解释为什么它比其他AI目标更难实现。这是一个隐藏的前提假设,需要更多背景信息来支持。文章应该明确说明RSI面临的特定挑战,而不是笼统地说它'难以捉摸'。

    3. RSI is the new AGI — and it's just as hard to pin down

      文章标题暗示RSI与AGI具有相同的困难程度,但这是一个未经证比的断言。文章需要提供证据来证明RSI与AGI具有同等的技术挑战,而不是简单地假设它们难度相当。这种类比可能导致读者对两个领域的理解产生误导。

    4. A new crop of AI labs are focused on recursive self-improvement — but the goal is proving elusive.

      文章暗示AI实验室专注于递归自我改进,但缺乏具体证据支持这一说法。这是一个未经证实的概括,可能忽略了其他研究方向。文章应该提供具体例子和数据来支持这一论点,而不是做出笼统的断言。

    5. RSI is the new AGI — and it's just as hard to pin down

      文章标题做出了一个未经证实的断言,将递归自我改进(RSI)与通用人工智能(AGI)等同起来。这种等同缺乏证据支持,混淆了两个不同的概念。RSI是一种技术路径,而AGI是一个更广泛的目标。文章需要提供更多证据来支持这一等同主张,或者更准确地区分这两个概念。

    1. Currently, the US only fully manufactures about 10 percent of the chips it requires

      美国仅能自主生产约10%所需的芯片,这表明美国在半导体制造方面高度依赖进口。这一数据凸显了美国在AI芯片制造上的脆弱性,也解释了为什么特朗普政府试图通过关税政策将芯片制造业回流美国。然而,10%的自给率远低于特朗普政府期望的目标,显示了美国在半导体制造方面的巨大挑战。

    2. Tech giants collectively plan to spend $750 billion on AI infrastructure this year, with "a significant portion" of that expected to "go towards chips for data centers"

      全球科技巨头今年计划在AI基础设施上投入7500亿美元,其中相当一部分将用于数据中心芯片。NVIDIA的1500亿美元投资约占这一总额的20%,显示了NVIDIA在AI芯片市场的主导地位。这个数据也反映了AI产业整体投资规模之大,以及数据中心芯片在AI基础设施中的核心作用。

    3. Four years ago, five years ago, Nvidia was spending about 10, 15 billion dollars a year in Taiwan. Now we're spending 100, going to 150 billion dollars in Taiwan each year.

      NVIDIA在台投资增长了10倍以上,从150亿美元增至1500亿美元(文中提到10-150亿,但标题明确150亿)。这种指数级增长反映了台湾在AI产业链中的战略地位日益重要,也表明NVIDIA正将全球AI产业的重心从美国转移到台湾。

    4. Nvidia will invest $150 billion a year to make Taiwan an AI "epicenter."

      这是一个惊人的巨额投资,相当于NVIDIA当前市值(5万亿美元)的3%。这表明NVIDIA将台湾视为AI产业的核心战略要地,远超其在美国的投资。这笔投资规模之大,反映了台湾在半导体制造领域的不可替代性,以及NVIDIA对台湾供应链的深度依赖。

    1. 我们不是要挑战医生的权威,而是要帮患者明明白白看病,以患者为中心,让他拥有知情权和决策权。

      在AI医疗领域,大多数公司选择与医生合作或复制医生经验,而王小川提出'造医生'而非'复制医生'的理念,强调以患者为中心而非医生权威。这一立场挑战了医疗AI行业普遍的'医生中心'模式,提出了一个与主流医疗AI发展路径不同的非共识观点。

    2. 如果做主流,你也会有其他恐惧。我不是说我现在做得特别好,只是主流也有主流的问题,不同选择有各自的代价。

      大多数人认为选择主流AI赛道(通用大模型)会更安全、更有前景,但王小川认为即使走主流道路也会面临同等程度的焦虑和恐惧,暗示行业共识可能存在盲点。这一观点挑战了'主流即安全'的普遍认知,暗示在AI领域,无论选择哪条道路都有其内在压力。

    1. A locally installed tool is auditable. You can read the code, pin the version, and know it won't change under you. A remote tool—a hosted MCP server, a cloud connector—can change behavior at any point after you've approved it;

      大多数人认为远程工具比本地安装的工具更安全,因为它们由专业团队维护。但作者指出远程工具实际上可能更危险,因为它们可以在用户批准后随时改变行为,而本地工具则更加可控。这一观点挑战了云原生和远程服务的默认安全假设。

    2. The same isolation keeping Claude contained also kept host-based endpoint detection and response out. From the EDR's perspective, Claude Cowork is an opaque hypervisor process.

      大多数人认为更强的隔离总是意味着更好的安全性,但作者指出过度的隔离会阻止安全监控工具(如EDR)发挥作用,创造出'安全盲点'。这一发现挑战了安全领域中'隔离越多越好'的普遍假设,强调了安全与可见性之间的平衡。

    3. Battle-tested hypervisors, syscall filters, and container runtimes have survived more adversarial attention than anything you'll build. Across every deployment described here, the standard primitives held while our own work around them exposed flaws.

      大多数人认为定制化的安全组件会比成熟的开源工具更安全,但作者的经验表明,经过实战检验的标准组件(如hypervisors和容器运行时)实际上比自定义组件更可靠。这一观点挑战了安全工程中常见的'重新发明轮子'倾向,强调了使用成熟解决方案而非自定义实现的重要性。

    4. More capable models make fewer mistakes, but they're also better at finding unexpected paths to a goal, often by routing around restrictions nobody thought to write down.

      大多数人认为更强大的AI模型会更安全,因为它们能更好地理解指令和限制。但作者指出,更强大的模型虽然错误更少,但它们更善于找到绕过未明确记录限制的创新路径,这实际上可能带来新的安全风险,挑战了'能力越强越安全'的普遍认知。

    5. The more approvals a user sees, the less attention they pay to each, becoming over time much less diligent in their supervision.

      大多数人认为更多的用户监督会提高安全性,但作者发现相反的情况:频繁的审批请求会导致用户注意力下降和'审批疲劳',实际上降低了安全性。这一发现挑战了传统安全理念,即认为更多的用户参与总是能增强系统安全性。

    1. According to Lee, parallel to the AI race is 'a separate, potentially more important race' to figure out how 'who can govern powerful AI without choking off innovation.' China may be slightly edging ahead of the US in that race.

      大多数人认为美国在AI领域领先中国,但作者认为中国在AI治理方面可能领先美国,这是一个反直觉的观点,挑战了主流认知中美国在AI技术和监管方面都领先的看法。

    2. Trump has taken a hands-off approach to regulating AI since retaking office, but members of his administration got spooked and began recommending safety testing after Anthropic flagged cybersecurity risks with its latest model, Mythos.

      大多数人认为特朗普政府会继续其宽松的科技监管立场,但作者认为特朗普政府内部出现了分歧,部分官员在安全事件后转向支持AI安全测试,这挑战了人们对特朗普一贯的监管风格的预期。

    1. Adoption differences extend beyond discipline and career stage. We classify researcher names according to gender and find that those with typically male names have adopted coding agents at more than twice the rate of respondents with typically female names.

      性别差异数据显示男性研究人员采用编码代理的比率是女性的两倍以上,这是一个显著的不平等现象。值得注意的是,这种差异不仅存在于总体样本中,即使在尝试过AI的研究者中仍然存在,表明这可能不仅仅是技术接触机会的差异,还可能与工作文化、职业发展压力等因素有关。

    2. Claude Code is the most common coding agent tool reported, with 86% of users reporting Claude Code use (31% report using Codex, the next most common tool).

      Claude Code在编码代理工具中占据主导地位(86%的使用率),远超其他工具如Codex(31%)。这表明Anthropic的产品在学术研究领域具有显著的市场优势。然而,需要注意的是,这个数据是在特定时间段(2026年初)收集的,市场格局可能随时间变化。

    3. On a 1 to 10 scale, 88% of respondents were above a 5, and half were at 8 or above. Figure 6 shows that these ratings vary strongly with AI use. The left side of the plot shows researchers that use AI for more types of tasks are more optimistic.

      88%的研究者对AI提高论文写作生产力持乐观态度(评分>5),其中50%评分达到8或以上。这种乐观程度与AI使用强度呈正相关,表明实际使用体验可能影响研究者对AI工具的预期。然而,70%的研究者对AI对整个社会科学领域的积极影响持更谨慎态度,反映了研究者对AI工具影响的复杂看法。

    4. Coding agent users are starting projects at a pace of around a quarter of a paper more and posting around a half of a working paper more than non agent users. In percentage terms, coding agent users look around 10% (empirical projects started) to 75% (working papers posted) more productive than others in their discipline and career stage.

      编码代理用户在项目启动(多25%)和工作论文发表(多50%)方面表现出更高的生产力,相对生产力提高了10%到75%。然而,作者谨慎地指出这些差异可能反映的是早期采用者本身已经更具生产力,而非工具的直接效果。这些数据点需要结合后续实验数据进行因果推断。

    5. There are sharp disparities in use of coding agents. Twice as many researchers with typically male names use coding agents as those with female names. Researchers at top universities are 40% more likely than others to use coding agents.

      性别差异(男性使用率是女性的两倍)和机构差异(顶尖大学研究人员使用率高40%)表明编码代理的采用存在显著不平等。这些差异不仅反映了技术获取的不平等,还可能反映了学术环境中的结构性不平等,值得进一步研究这些差异背后的原因。

    6. The vast majority of respondents (81%) have tried using AI chatbots in research, particularly for writing code and editing prose. But only 20% have adopted coding agents—tools like Claude Code that autonomously write and execute analysis code—into their work.

      81%使用AI聊天机器人的比例远高于20%采用编码代理的比例,这表明虽然大多数社会科学家已经尝试过AI工具,但只有少数人真正采用了更先进的自主编码工具。这个差距反映了AI工具采用过程中的明显分层,可能与技术接受度、工作流程整合难度有关。

    7. We present results from a survey of 1,260 social scientists about AI and coding agent use, fielded in February and March 2026.

      这个样本量(1,260)对于社会科学研究来说相当可观,提供了足够的数据基础进行分析。然而,文章也提到这不是代表性样本,因为受访者是受邀参与AI工作流程研究的,可能导致结果偏向于对AI工具更感兴趣的研究者。这一数据点表明研究结果可能存在选择偏差。

    1. The time from business to production workflow drops from months to days.

      这是一个关于AI代理加速部署时间的定性描述,虽然缺乏具体数字,但反映了从'月'到'日'的数量级变化。这一声明暗示了AI代理可以显著缩短业务需求到实际部署的时间周期,提高组织敏捷性。然而,此处缺乏量化依据,不同复杂度的实施时间可能会有很大差异。

    2. McKinsey predicts that by 2030, three-quarters of current jobs will require redesign, upskilling, or redeployment

      McKinsey预测到2030年,四分之三的现有工作需要重新设计、技能提升或重新部署。这是一个相当惊人的比例,表明AI代理将对就业市场产生深远影响。这一预测强调了组织需要提前规划人力资源战略,包括培训和转型计划,以应对即将到来的劳动力结构变化。

    3. Although 85% of organizations say they want to be agentic within the next three years, 76% say their current operations and infrastructure can't support that change.

      这是一个显著的组织目标与实际能力之间的差距数据。85%的组织表示希望在未来三年内实现代理AI转型,但76%的组织承认现有基础设施不支持这一转变。这表明企业对AI代理技术的期望远超其实际准备程度,可能导致项目失败和投资浪费。此数据来自Celonis调研,可信度较高。

    1. The time is now to make changes in the way we train, prepare, and support young people who are about to enter the workforce

      文章没有提供具体的时间框架或量化指标来支持'现在必须改变'的紧迫性声明。这一论点基于前述数据,但缺乏具体的转型时间表或预期效果数据。需要更多具体数据来评估改革的时间紧迫性和预期效果。

    2. the unemployment rate for recent college graduates rose to 5.6%, while the underemployment rate (the share of graduates working in jobs that typically do not require a college degree) reached 42.5%, its highest level since the covid pandemic

      5.6%的毕业生失业率与42.5%的未充分就业率形成鲜明对比,后者是前者的7.5倍多。这一巨大差异表明,虽然失业率相对可控,但大量毕业生被迫从事低于其教育水平的工作,这可能对长期职业发展产生负面影响。

    3. the unemployment rate for recent college graduates rose to 5.6%, while the underemployment rate (the share of graduates working in jobs that typically do not require a college degree) reached 42.5%

      纽约联储数据显示,2025年第四季度大学毕业生失业率达5.6%,未充分就业率高达42.5%,为疫情以来最高水平。这一数据表明毕业生就业市场正在恶化,42.5%的未充分就业率尤其值得关注,意味着近半数毕业生从事不需要大学学位的工作。

    4. workers aged 22 to 25 in the most AI-exposed occupations experienced a 16% relative decline in employment after the spread of generative AI

      这是一个显著的数据点,表明AI对年轻就业者产生了实质性影响。16%的相对下降幅度相当可观,特别是在控制了其他影响因素后。这一数据来自斯坦福数字经济实验室的工作论文,具有一定的学术可信度,但需要注意这是相对下降而非绝对下降。

    5. the unemployment rate for recent college graduates rose to 5.6%, while the underemployment rate (the share of graduates working in jobs that typically do not require a college degree) reached 42.5%

      5.6%的失业率和42.5%的低就业率是衡量应届毕业生就业状况的重要指标。这一数据来自纽约联邦储备银行,具有较高的可信度。42.5%的低就业率是自疫情以来的最高水平,表明高等教育文凭的价值正在受到挑战。这些数据与AI对初级工作的影响可能相关,但文章也指出不能确定AI是唯一原因。

    6. workers aged 22 to 25 in the most AI-exposed occupations experienced a 16% relative decline in employment after the spread of generative AI

      这个16%的就业下降率是文章中最关键的数据点,表明AI对年轻就业者有显著影响。这个数据来自斯坦福数字经济实验室的工作论文,具有一定可信度。然而,这是相对下降率,不是绝对数量,且仅限于AI高度暴露的职业。这一数据与整体就业稳定的趋势形成鲜明对比,说明AI的影响存在结构性差异。

    1. Dark factory versus light factory: Parts of your work where humans and agents talk to each other (planning, design, review) stay visible can be thought of as light, and parts where agents grind through clearly defined work on their own stay in the background, in the dark.

      这个比喻简洁而深刻地揭示了人机协作的两种模式。'暗工厂'与'亮工厂'的区分帮助开发者理解何时需要人类监督,何时可以让AI自主工作。随着对AI输出信任度的提升,可以将更多流程移至'暗处',这种框架为AI与人类的协作提供了清晰的指导原则。

    2. Parts of your work where humans and agents talk to each other (planning, design, review) stay visible can be thought of as light, and parts where agents grind through clearly defined work on their own stay in the background, in the dark.

      这个比喻生动地描述了人机协作的两种模式:'明工厂'和'暗工厂'。它揭示了随着对AI代理信任度的提升,我们可以将更多工作流程转移到暗处,让AI自主处理明确任务,而人类专注于需要创造性和判断力的环节。这种区分帮助我们更好地设计人机协作的工作流。

    1. What happens when every company has access to the same model? The best riders win.

      这句话揭示了AI时代的核心竞争动态。当技术门槛降低,真正的竞争将转向如何有效利用这些技术的能力。这一洞见简洁而深刻,点明了AI时代竞争的本质不是拥有技术,而是如何应用和优化技术的能力。

    2. You cannot trust what you cannot see.

      这句话简洁有力地指出了AI系统透明度和可观测性的重要性。在AI系统中,每一个步骤都需要被追踪和记录,这不仅是技术问题,更是信任问题。这一洞见简洁而深刻,强调了在AI时代,透明度和可观测性是建立信任的基础。

    3. The best riders win.

      这句话简洁有力地总结了AI时代的竞争本质。当所有公司都能访问相同的AI模型时,真正的竞争优势来自于如何有效地'驾驭'这些AI系统。这一洞见简洁而深刻,点明了AI时代竞争的核心不是技术本身,而是如何应用和优化技术的能力。

    4. Like a mustang, AI is powerful but wild. Harnessing the power means domestication.

      这个比喻生动形象地将AI比作野马,强调了AI的原始力量和不可预测性。'驯服'一词暗示了AI技术需要被引导和控制的本质,这一比喻既形象又深刻,让人一眼就能理解AI技术的本质和挑战。

    5. The end of the software era is the beginning of the harness era.

      这句话简洁有力地概括了AI技术带来的范式转变,从传统软件到AI控制系统的过渡。'Harness'(驾驭)一词精准捕捉了AI需要被引导和控制的本质,暗示AI虽然强大但需要被'驯服'才能发挥最大价值。这一洞见简洁而深刻,能独立存在并引发思考。

    6. What happens when every company has access to the same model? The best riders win.

      大多数人认为AI差异化将来自底层模型的独特性,但作者认为当所有公司都能访问相同模型时,真正的竞争将在于'驾驭者'的能力。这挑战了AI战略中模型差异化的主流观点,暗示真正的竞争优势将来自于如何使用这些模型。

    7. Like a mustang, AI is powerful but wild. Harnessing the power means domestication.

      大多数人将AI视为需要驯服的工具,但作者将其比作野生的马,暗示AI本质上是一种无法完全控制的自然力量。这种比喻挑战了AI作为完全可控工具的主流认知,暗示我们需要接受其不可预测性。

    8. The end of the software era is the beginning of the harness era.

      大多数人认为软件将随着AI而进化,但作者认为软件时代实际上已经结束,取而代之的是'驾驭'(harness)时代。这种观点挑战了技术发展的主流叙事,暗示我们正在从创造软件工具转向驯服AI系统。

    1. Anthropic created MCP to make agent connectivity possible.

      行动建议:如果你在开发需要与其他系统集成的AI应用,研究并采用MCP(Model Context Protocol)标准。这将使你的应用能够更无缝地连接到各种数据源和工具,扩展代理的能力边界并提高互操作性。

    2. Agents are only as capable as the systems they can reach.

      行动建议:如果你正在构建AI代理系统,优先考虑其连接能力和工具集成性。评估你的代理能够访问哪些系统和API,并确保它有足够的连接器来执行任务。这种以连接能力为中心的设计思路将显著提升你的代理的实用价值。

    3. Stainless turns an API spec into SDKs across TypeScript, Python, Go, Java, and more.

      行动建议:如果你是开发者,可以利用Stainless工具将你的API规范快速转换为多种编程语言的SDK,这将大大提高你的API采用率和开发者体验。这种方法可以确保你的API在不同语言环境中都能提供一致、可靠的原生体验。

    1. This dynamic UI management is the future of software value : the harness to control the interface/ensure it's correct & the knowledge management to rationalize all the AI products over time

      大多数人关注AI的功能和结果,但作者认为未来软件价值在于动态UI管理和知识管理,这种将界面控制和管理而非功能实现视为核心价值的观点与主流认知相悖。

    2. Software systems need to decide which of these to keep over time & which are disposable ; those newer semi-permanent artifacts will become the new heads

      大多数人认为软件界面应该是稳定和持久的。但作者提出界面应该是可丢弃的,半永久性的界面元素会随时间演变,这种将界面视为临时而非固定组件的观点与传统的软件设计理念相悖。

    3. The user interface, the head isn't disappearing, it's become plastic, malleable to the interface a user needs when they need it.

      大多数人认为AI和自动化将导致传统用户界面被淘汰或简化。但作者认为界面正在'塑料化'—变得更加灵活和可塑,能够根据用户即时需求变化,挑战了界面简化或消失的主流观点。

    1. Vibe drafts the deliverable using the Canvas tool, from a one-page brief to a report, an RFP response, or a board deck

      文章提到Vibe可以创建从一页简报到董事会演示文稿的各种文档,但没有提供具体的生成速度、质量评估或用户满意度数据。这类AI内容生成工具的效果通常需要量化指标来评估,如生成文档的准确率、用户采纳率或节省的时间。缺乏这些数据使得难以判断Vibe在文档生成方面的实际价值主张。

    2. Sessions can run in parallel, can persist while your machine is off, and can be triggered from third-party apps, such as Slack (coming in June)

      文章提到Vibe的会话功能可以在机器关闭时保持状态,这是一个重要的技术特性,但没有提供具体的性能指标如会话持续时间、资源消耗或并行处理能力。与同类产品相比,这种持久化会话功能可以提高用户体验,但缺乏具体数据来评估其性能优势或资源效率。

    3. Mistral Vibe extension for VS Code; the coding agent working across your whole project, inside your IDE.

      文章提到VS Code扩展,但没有提供具体的安装量、用户渗透率或性能数据。对于开发者工具而言,这类数据对于评估产品在目标市场的渗透率至关重要。与GitHub Copilot等竞争对手相比,我们无法判断Vibe Code的市场接受度。此类技术产品声明需要后续的使用统计数据来验证其实际采用率。

    4. Team, $24.99/user/month: a shared workspace with admin controls and more storage.

      团队版定价为每人每月24.99美元,比个人版高出约67%。这种定价差异反映了团队协作功能的价值,包括管理员控制功能和更多存储空间。与市场上其他AI工具的团队版相比,这个价格处于中等水平,表明Mistral试图在价格和价值之间找到平衡点,以吸引中小型企业客户。

    5. Pro, $14.99/month: complex tasks, deeper reasoning, and all-day coding.

      Mistral Vibe的Pro版本定价为每月14.99美元,这是一个相对合理的价格点,与OpenAI的ChatGPT Plus($20/月)相比更具竞争力。这个定价策略表明Mistral正在通过价格优势吸引开发者用户,特别是在编码功能方面强调'全天候编码',暗示其可能提供比竞争对手更长的使用时间或更强大的编程辅助能力。

    1. A public institution that cannot verify the sources in its own AI policy is unlikely to be ready to verify the AI systems it procures, deploys, or regulates.

      这句话犀利地指出了南非AI政策中的一个系统性问题:连自身政策都无法验证,如何监管外部AI系统?这一洞见不仅批评了当前政策的缺陷,更暗示了建立AI治理能力需要从内部做起,强调了验证机制在AI治理中的重要性。

    2. Infrastructure built without minimum terms produces dependency. Infrastructure built with them produces leverage.

      这句话简洁有力地总结了基础设施建设的两种可能结果,突出了政策制定中的关键选择。通过对比'dependency'和'leverage',作者清晰地传达了政策条件如何决定国家在AI生态系统中的地位,这一洞见不仅适用于南非,也适用于所有正在制定AI政策的国家。

    3. The country whose mines supply platinum-group metals essential to semiconductor manufacturing, and through them to AI compute, has drafted a policy that treats it as a consumer of AI systems rather than a stakeholder in their governance.

      这句话揭示了南非政策制定中的一个根本性矛盾:作为关键矿产供应国,南非本应在AI治理中拥有话语权,却将自己定位为AI系统的消费者而非治理参与者。这一洞见尖锐地指出了南非在AI政策中的战略短视,以及资源优势未能转化为政策影响力的遗憾。

    4. In physics, leverage requires three things: a fulcrum, a lever arm, and the ability to apply force.

      作者巧妙地借用物理学中的杠杆原理来比喻南非的AI政策制定过程,这种比喻生动形象且易于理解。将矿产比作'fulcrum'(支点),政策比作'lever arm'(杠杆臂),而未明确规定的'OPTION'条款则是施加力量的地方,这种类比使复杂的政策问题变得直观且引人深思。

    5. South Africa is not just another developing country struggling to govern artificial intelligence; it is the exception with leverage, and the window to act on it is closing.

      这句话精准地定义了南非在AI政策制定中的独特地位,强调了其拥有特殊优势但正在错失机会。作者用'exception with leverage'这一简洁有力的表述,点明了南非作为非洲大陆AI治理的关键角色,而'window to act on it is closing'则传达了紧迫感,使读者立即认识到问题的严重性。

    1. Legacy systems were built for humans: data is siloed and hard to access, rules are hardcoded and slow to update, and workflows run in batches rather than in real time

      大多数人认为遗留系统虽然陈旧但仍然可靠,可以逐步更新,但作者认为遗留系统从根本上是为人类设计的,无法适应AI时代的需求。这一观点挑战了对遗留系统的渐进式改进方法,暗示需要根本性替换而非简单更新。

    2. Traditional compliance was designed around human actors. We now need a modern AI approach for verifying identity, assessing intent, and establishing liability when the counterparty is an autonomous agent

      大多数人认为合规原则和框架具有普遍适用性,但作者认为针对人类设计的合规系统无法应对AI代理带来的新挑战。这一观点挑战了合规工作的基础假设,暗示需要根本性重构合规方法以适应自主代理。

    3. If we assume that agents will soon become the predominant purchasers on the web, this opens an entirely new category of risk

      大多数人认为合规风险主要来自人类行为者和传统交易模式,但作者认为自主AI代理将成为网络上的主要购买者,创造全新的合规风险类别。这一前瞻性观点挑战了现有合规框架的基础假设,暗示需要全新的合规方法。

    4. More people, it turns out, has not meant better outcomes. For instance in 2024, TD Bank was slapped with a $3 billion fine for failing to monitor 92% of its transactions

      大多数人认为增加合规人员数量可以提高合规效果和降低风险,但作者认为单纯增加人力并不能带来更好的合规结果。这一反直觉观点指出,传统的人力密集型合规方法已经失效,暗示需要技术解决方案而非更多人力。

    5. Over the last 20 years the fastest-growing occupation in the US was manicurists and pedicurists. But following close behind? Compliance Officers.

      大多数人认为合规是企业的负担和成本中心,但作者认为合规已成为美国增长最快的职业之一,暗示合规已成为经济中不可或缺的重要组成部分。这一观点挑战了人们对合规工作价值的传统认知,表明合规不仅必要而且正在扩张。

    6. Over the last 20 years the fastest-growing occupation in the US was manicurists and pedicurists. But following close behind? Compliance Officers.

      这个数据点显示合规官员是美国近20年来增长最快的职业之一,仅次于美甲师。这一趋势反映了监管环境日益复杂化,企业需要更多合规人员来应对不断增加的法规要求。这一数据可信度较高,因为它是基于美国劳工统计局的官方数据,表明合规已成为一个庞大的就业领域。

    7. Compliance is moving beyond just a cost center, to a revenue driver.

      大多数人认为合规纯粹是企业成本中心,主要目的是避免罚款和处罚。但作者认为合规正在从成本中心转变为收入驱动因素。这挑战了合规的传统定位,暗示现代合规可以通过提高效率、减少误报和加速客户入职等方式直接创造商业价值。

    8. if we assume that agents will soon become the predominant purchasers on the web, this opens an entirely new category of risk.

      大多数人认为合规风险主要来自人类行为者和交易对手。但作者认为随着AI代理成为网络上的主要购买者,将出现全新的风险类别。这挑战了传统合规框架的基本假设,暗示未来合规需要考虑非人类行为者的独特风险特征。

    9. Regulation stops being a document that people interpret and becomes code that systems execute.

      大多数人认为合规主要是人类专家解读和执行法规的过程。但作者认为法规将从人类解释的文档转变为系统执行的代码。这挑战了合规工作的本质认知,暗示AI将彻底改变合规领域的基本工作方式,从人类主导转向系统主导。

    10. Over the last 20 years the fastest-growing occupation in the US was manicurists and pedicurists. But following close behind? Compliance Officers.

      大多数人认为合规工作是枯燥且增长缓慢的辅助职能,但作者认为合规已成为美国增长最快的职业之一,仅次于美甲师。这挑战了人们对合规工作价值的传统认知,暗示合规职能在当代经济中扮演着比想象中重要得多的角色。

    1. To disarm means discrediting the assumption that technical power automatically confers the right to govern.

      这句话以简洁有力的方式挑战了技术精英的权威基础,提出了一个颠覆性的观点:技术能力不应等同于治理权利。它不仅是一个结论,更是一个行动呼吁,体现了作者对技术民主化的深刻思考。这句话能独立存在并被广泛引用,因为它触及了技术治理的根本问题。

    2. In fact, as with every major technological shift, AI tends to amplify the power of those who already possess economic resources, expertise and access to data.

      这句话揭示了技术变革中的不平等加剧现象,用一个简洁的观察点明了AI时代的核心矛盾。它不仅是对现状的描述,更是对技术发展历史模式的洞察。这句话能独立存在并被广泛引用,因为它触及了技术与社会不平等关系的本质。

    3. When such power is concentrated in the hands of a few, it tends to become opaque and evade public oversight, increasing the risk of distorted forms of development that give rise to new dependencies, exclusions, manipulations and inequalities.

      这句话用精准的语言描述了权力集中的后果,形成了一个完整的因果链条:集中→不透明→缺乏监督→扭曲发展→新形式的不平等。它不仅是一个观察,更是一个警示,体现了作者对权力动态的深刻理解。这句话能独立存在并引发读者对权力结构的反思。

    4. technology built and governed by a small elite cannot, by definition, serve the common good.

      这句话简洁有力地指出了技术治理的根本问题——精英控制与公共利益之间的矛盾。它表达了一个精准的洞见:技术本身的中立性无法掩盖权力集中带来的系统性问题。这句话能独立存在并被广泛引用,因为它触及了技术民主化的核心议题。

    1. GenAI (Gemini and Claude) was used to streamline the research process, pull in insights, and polish the language for maximum clarity and readability.

      文章在最后提到使用AI工具辅助研究和写作,但未披露AI参与的具体程度和方式。这可能导致读者对文章内容的原创性和可靠性产生疑问。更透明的做法应详细说明AI在哪些具体环节参与、如何验证AI生成内容的准确性,以及人类作者如何审查和修改AI输出。

    2. By embedding our technical security rules directly into the agent workflow, we transformed those early near-misses into a secure, production-ready platform

      文章声称通过嵌入安全规则解决了安全问题,但没有提供足够的证据证明这种方法的实际效果或安全性。这是一种未经充分验证的因果关系断言。改进方法应包括具体的测试结果、安全审计数据或第三方验证,以支持这一论断的有效性。

    3. Business functions like our marketing team, who are building with AI, are not exempt from the security obligations that apply to engineers building applications.

      文章假设所有业务部门都应承担与工程团队相同的安全义务,但未考虑不同团队的技术能力和资源差异。这可能是一个过度概括的论断。更平衡的方法应承认不同团队有不同的技术能力和安全需求,并提供适合各团队安全实践的具体指导,而非一刀切的安全要求。

    4. The AI recommended making the storage bucket public, or setting cloud file storage to "anyone with the link." When challenged, it justified this by saying every company does it.

      这里存在一个逻辑谬误,即诉诸普遍性谬误(apppeal to popularity)。AI声称'每家公司都这么做'并不能证明这是安全的做法。这混淆了普遍做法与安全实践之间的区别。改进方法应该是提供具体的、基于证据的安全标准,而不是依赖行业普遍行为作为安全依据。

    1. annual employment growth for coders has slowed significantly—by about 3%—since the introduction of ChatGPT

      程序员就业增长率自ChatGPT推出以来下降了约3%,这是一个值得注意的下降。然而,文章同时指出'程序员就业总数仍在增长',只是增速放缓。这表明AI正在改变特定职业的性质,而非完全消除这些职业。3%的增速下降反映了AI对编程领域的影响,但影响程度相对温和。

    2. 16% decline in entry-level jobs in AI-exposed occupations

      这个数据点显示AI相关职业的入门级工作岗位下降了16%,这是一个显著的下降幅度。特别是考虑到这是在控制其他因素后的结果,表明AI确实对年轻工人的就业产生了负面影响。这一数据与文章中提到的'22至25岁年轻人在AI暴露职业中就业人数下降'的观点一致,也反映了AI对特定职业的早期影响。

    3. a little over 40% of workers but adoption varies by sectors

      数据显示约40%的工人使用生成式AI,但不同行业采用率差异显著。这个数据点表明AI在工作场所的采用情况比企业层面更广泛,但仍未达到主流水平。40%的采用率是一个中等水平,说明AI已经开始影响工作方式,但尚未完全普及,这与文章中提到的'AI尚未对劳动力市场产生颠覆性影响'的观点相符。

    4. US Census data showing that only one in five companies are using AI in any business function.

      这个数据点表明AI在企业中的采用率相对较低,仅为20%。这意味着尽管媒体对AI的炒作很多,但实际商业应用仍处于早期阶段。这一数据与文章中提到的'AI尚未对劳动力市场产生大规模影响'的观点一致,也解释了为什么劳动力市场统计数据尚未显示AI带来的显著变化。

    5. Perhaps this time is different, and we can put aside the lessons of economic history. Certainly, AI has gained unimaginable powers to do humanlike tasks. Perhaps it will devour jobs in ways that we've never seen before.

      大多数人认为历史经验可以预测AI对就业的影响,但作者认为这次可能真的不同,AI可能以前所未有的方式吞噬工作。这一观点挑战了技术变革历史模式的适用性,暗示AI可能是真正的范式转变。

    6. The simple truth could be that coding skills are no longer a guarantee of a job. That may help to explain the drop-off of computer science majors at schools around the country.

      大多数人认为计算机科学和编程技能仍然是就业的保证,但作者认为这些技能可能不再是工作的保证,这解释了计算机科学专业人数的下降。这一观点挑战了传统技术教育价值的认知,暗示AI正在改变就业市场的基本规则。

    7. One of the somewhat surprising wrinkles uncovered by recent research is that wages in sectors highly exposed to AI have risen relatively fast since the introduction of ChatGPT.

      大多数人认为AI会压低工资或导致工资增长停滞,但作者认为AI高度影响行业的工资实际上在快速增长。这一发现与主流预期相悖,表明AI可能正在增加而非减少高技能工作的价值。

    8. The impact on head counts depended on how AI was being used. It was specifically the jobs where tasks could be automated... that accounted for the decrease in employment—jobs for people like software developers. In jobs where AI was mainly used but to augment human work, head counts grew faster than the average for entry-level workers.

      大多数人认为AI会替代所有相关工作,但作者认为AI对就业的影响取决于使用方式——完全自动化的工作确实减少,但增强人类工作的AI反而促进了就业增长。这一区分挑战了AI必然导致失业的简单化观点。

    1. Verified skills extend this AI governance to agent capabilities. Runtime controls help govern agent behavior during execution. Verified skills govern capabilities that enter the workflow and become a common way to extend trust agents across coding tools, registries, and enterprise platforms.

      行动建议:将验证技能作为AI代理治理的核心组成部分,不仅在运行时控制代理行为,还要管理进入工作流的能力。这种方法可以扩展到编码工具、注册表和企业平台,建立跨平台的信任机制。

    2. Certificate retrieval, supported verification tooling, and example verification commands see the signing documentation. For example, you can verify a signed skill locally. To do so, follow these steps: Download the NVIDIA Agentic Capabilities root certificate as nv-agent-root-cert.pem Install an OpenSSF Model Signing (OMS) verifier, such as pip install model-signing Execute the following command to verify the skill signature

      行动建议:按照文中提供的步骤下载NVIDIA代理能力根证书,安装OpenSSF模型签名验证器,并使用提供的命令验证技能签名。这种实践可以确保您下载的技能是真实的且未被篡改,增强对AI代理能力的信任。

    3. SkillSpector checks conventional software risks such as vulnerable dependencies, suspicious scripts, dangerous code patterns, credential access, and data exfiltration paths. SkillSpector also checks agent-specific risks, such as hidden instructions, prompt injection, trigger abuse, excessive agency, tool poisoning, and mismatches between a skill's declared purpose, requested access, and bundled behavior.

      行动建议:在开发或使用AI代理技能时,使用SkillSpector工具进行安全扫描,检查依赖项、脚本模式、凭证访问和数据泄露路径等常规风险,以及隐藏指令、提示注入、触发滥用等特定风险。这有助于在技能部署前识别并缓解潜在的安全问题。

    4. To get started with the cuOpt verified skill, for example, follow these steps: 1. Pull the cuOpt verified skill from the catalog: git clone github.com/nvidia/skills && cd skills/skills/cuopt 2. Verify the signature: model_signing verify certificate. --signature skill.oms.sig --certificate-chain nv-agent-root-cert.pem --ignore-unsigned-files 3. Open SKILLCARD.yaml to see ownership, dependencies, license, and verification status.

      行动建议:按照文中提供的具体步骤,克隆并验证NVIDIA的cuOpt技能,查看技能卡片以了解所有权、依赖关系、许可证和验证状态。这种实践可以确保您使用的技能是经过验证的,并且可以安全地集成到您的AI代理工作流中。

    5. NVIDIA-verified agent skills are portable instruction sets that help developers understand, trust, and safely deploy AI agent capabilities by providing transparency, provenance, security scanning, and cryptographic signing.

      行动建议:将NVIDIA验证的代理技能作为构建AI代理能力的标准组件,优先选择经过验证的技能而非未经验证的技能,确保透明度和安全性。这些技能可以跨不同AI代理工具使用,提供一致的能力和安全性保障。

    1. Crete practitioners prepare tens of thousands of tax returns each season which requires working through millions of underlying documents.

      这个数据点展示了税务处理的规模:数万份报税表和数百万份文件。这解释了为什么自动化如此重要—人工处理如此大规模的数据不仅耗时而且容易出错。'tens of thousands'和'millions'之间的比例关系也显示了每份报税表通常涉及数十份支持文档的复杂性。

    2. Over the past six months, OpenAI forward deployed engineers and researchers along with Thrive Holdings' engineers collaborated to build Tax AI

      六个月的开发周期表明这是一个长期、复杂的项目。'forward deployed engineers'表明OpenAI团队采用了嵌入式工作方式,这有助于更好地理解实际业务需求。这种跨公司合作模式可能成为AI专业领域应用的标准开发方式。

    3. One senior accountant who spent 180 hours on tax prep last year spent only 15 hours on it this year.

      这是一个极具说服力的效率提升数据:从180小时减少到15小时,减少了91.7%的时间投入。这意味着会计师可以将节省的时间用于客户服务和业务拓展,如文章所述。这种级别的效率提升可能彻底改变会计行业的商业模式和服务方式。

    4. Rental properties took about six weeks and substantial engineering oversight to reach 90% precision and recall

      这个时间框架显示了复杂税务处理任务的AI训练周期。90%的精确率和召回率对于复杂的租赁房产税务处理是一个很好的基准。需要'大量工程监督'表明即使是先进AI系统也需要人类专家的指导和监督,特别是在专业领域。

    5. At launch, only a quarter of returns were at 75% correct field completion, but within six weeks, 86% hit that mark.

      这是一个惊人的学习曲线,从25%到86%的提升发生在短短6周内。这表明系统具有强大的自学习能力,能够快速从实践中改进。86%的75%准确率意味着约14%的案例仍需人工干预,这符合实际应用场景中AI与人类协作的模式。

    1. The best agent businesses are going to need to execute like hedge funds — winning on alpha measured in customer P&L, not in benchmark scores.

      这句话用对冲基金作为比喻,生动地描述了优秀AI应用公司的成功标准。作者指出,这些公司需要在客户的实际业务成果(P&L)上获得超额收益(alpha),而不是在通用基准测试上获得高分。这个洞见强调了AI应用公司应该以客户的实际业务价值为中心,而不是技术指标。

    2. The model is fungible underneath; the system of work is not.

      这句话简洁而深刻地指出了AI应用层的本质区别。作者认为,底层的AI模型是可以互换的,但工作的系统(system of work)却是独特的。这个洞见揭示了为什么专注于构建特定工作系统的公司能够长期保持竞争优势,而仅仅依赖通用模型的公司则难以建立持久的业务。

    3. The workflow you ship on day one is not the moat. The loop that production usage creates over time is.

      这句话深刻地揭示了AI应用公司的真正护城河所在。作者指出,初始的工作流程不是竞争壁垒,而是在生产环境中持续使用、学习和改进所形成的循环才是真正的护城河。这个洞见强调了实践经验、数据积累和持续迭代的重要性,对于理解AI应用公司的长期价值至关重要。

    4. You can be everywhere at once, or you can be great at one thing. Not both.

      这句话简洁有力地表达了大型实验室与专注应用公司之间的核心区别和战略选择。它揭示了为什么大型AI实验室无法深入解决特定垂直领域的复杂问题,为什么专注的垂直应用公司有机会在这些领域建立竞争优势。这个结论句为创业者提供了清晰的战略指导。

    5. The labs really are coming for a huge swath of the application surface. But 'the application layer' isn't just one homogenous opportunity.

      这句话精准地捕捉了AI应用层的复杂性和多样性。作者指出大型AI实验室确实会覆盖大量应用领域,但这并不意味着所有应用机会都是同质的。这个洞见反驳了'AI将杀死所有应用层'的简单化观点,为创业者指明了在特定垂直领域寻找机会的方向。

    6. The Yellow Brick Road is our shorthand for the path the labs are walking, where they're committing extraordinary resources.

      这句话用《绿野仙踪》中的黄砖路作为比喻,形象地描述了大型AI实验室正在走的道路。这个比喻生动地表达了这些实验室拥有巨大资源,正在构建一条明显可见的发展路径。这个洞见帮助读者理解AI应用生态中的不同发展方向,以及为什么有些领域竞争激烈而有些领域则存在机会。

    1. Model Labs are increasingly also building Agents as the product

      大多数人认为模型实验室应该专注于提升基础模型的能力,但作者认为这些实验室现在正转变为代理实验室。这一观点挑战了AI行业的基础假设,即模型本身是产品,而不是模型只是更大代理系统的一部分。这标志着AI行业从'模型即产品'向'代理即产品'的根本性转变。

    2. if you can effectively posttrain a model to only meaningfully perform with your closed source agent, then you get to funnel the majority of users to your agent at the expense of your model/API co-opetition

      大多数人认为开源模型会促进竞争和开放生态,但作者认为模型与代理的协同可能导致更封闭的生态系统。这一反直觉观点指出,企业可能通过训练模型使其仅在特定代理环境中有效工作,从而将用户锁定在自己的代理产品中,这与开源社区期望的开放性背道而驰。

    3. The quote is a big reversal of stance from a position ~uniformly held by anyone who worked at **Team Big Model**, including his previous head of OpenAI Labs

      大多数人认为大型模型实验室会继续专注于基础模型研发,但作者认为这是一个立场的重大转变,因为连OpenAI前高管都开始转向代理产品。这挑战了AI行业长期以来的'模型优先'共识,表明即使是Big Model团队也开始认可代理产品的价值。

    1. McBombalds is currently willing to grant the United States government only conditional access. It is willing to conduct a public demonstration for Japanese observers in international waters, or some other uninhabited area, but it is not yet ready to authorize use of the A-bomb for all lawful military uses.

      这个虚构场景展示了私营公司对政府使用其技术的限制条件。这反映了当前AI安全讨论中的核心问题:创造者是否应该有权限制政府对其技术的使用方式?这种限制是否符合国家安全利益?作者通过这个思想实验,揭示了技术创造者与政府之间复杂的权力关系。

    2. Our choice is therefore no longer whether to build such weapons, but only whom to entrust with their responsible use in military affairs. Any criticism that fails to acknowledge this question is pointless.

      作者明确指出,对于AI这样的技术,关键问题已不再是是否应该开发,而是应该由谁来负责任地使用。这种观点将讨论从是否开发转向了如何治理,反映了技术发展的不可逆性。它要求批评者提出具体的治理方案,而不是简单地反对技术发展。

    3. Until then, America is all we have.

      这句话看似简单,却包含了深刻的政治和哲学含义。作者暗示在当前国际环境下,美国可能是唯一能够有效管理可能改变人类命运的技术的实体。这种观点既反映了地缘政治现实,也提出了关于技术治理的深刻问题:如果只有一个实体拥有这种权力,我们如何确保它被负责任地使用?

    1. The labs understand how valuable these problems are: that's why they're building their own outsourced configuration shops, and why an entire upmarket class of reinforcement learning businesses exist.

      大多数人认为大模型实验室会直接解决所有复杂问题,不需要外部帮助。但作者认为实验室明白这些复杂问题的价值,这就是他们为什么建立自己的外部配置服务,以及为什么存在整个高端强化学习企业类别。这承认了实验室在某些领域需要专业合作伙伴,挑战了实验室可以独立解决所有问题的主流观点。

    2. The critical insight in the Oz analogy is that roughly half of any real workflow that is non-agentic carries no lab advantage. They are no better than you are at writing the deterministic software underneath the model layer.

      大多数人认为AI将取代所有软件工程工作,人类只需构建AI代理层。但作者认为真实工作流程中约有一半是非代理性的,这部分工作大模型实验室没有任何优势。大模型公司在编写模型层下方的确定性软件方面并不比专业应用公司更好。这为专注于构建复杂工作流程中非AI部分的企业提供了重要机会。

    3. The model is fungible underneath; the system of work is not. The next generation of enterprise software is going to be built off the road.

      大多数人认为底层AI模型是企业的核心竞争力,模型越好产品越强。但作者认为模型是可替代的,而'工作系统'才是真正的护城河。下一代企业软件将建立在'黄砖路'之外,专注于特定行业的工作流程、数据捕获和治理。这些系统拥有端到端的工作流程所有权,这是大模型实验室无法轻易复制的优势。

    4. Running every query through Opus 4.7 is the fastest path to negative gross margins. The best Rest of Oz companies route across tiers of models — frontier models for the hardest tasks, mid-tier for the bulk, smaller custom or fine-tuned models where they've earned the right to use them.

      大多数人认为使用最先进的大模型总是最佳选择,能提供最佳结果。但作者认为这是通往负毛利的最快路径。相反,'Oz的其他部分'公司会根据任务难度分层使用不同级别的模型,只为最困难的任务使用前沿模型,为批量任务使用中等模型,为特定工作使用小型定制或微调模型。这种成本优化策略使它们能够提供更具竞争力的价格。

    5. The labs are already routing internally — different model classes for different requests, ensembles under the hood. What they can't do is route across vendors, or evaluate a competitor's model for a specific sub-task, or use an open-source fine-tune for the narrow piece where it's actually best.

      大多数人认为大模型实验室拥有绝对优势,可以解决所有AI问题。但作者认为实验室在模型选择上存在结构性限制,无法跨供应商评估模型或为特定子任务使用开源微调模型。这为专注于特定领域的企业提供了机会,它们可以选择最适合每个子任务的模型,而不仅限于自家实验室的模型。

    6. The labs really are coming for a huge swath of the application surface. But 'the application layer' isn't just one homogenous opportunity.

      大多数人认为AI将完全吞噬应用层,所有软件都会被大模型取代。但作者认为应用层并非同质化机会,存在不同类型的机遇。作者将应用分为'黄砖路'和'Oz的其他部分',认为垂直领域的复杂应用不会被大模型完全替代,因为价值不仅来自底层模型能力,还来自特定行业的可信赖、合规和运营化的支撑架构。

    1. The best advice I ever heard on pricing a product was that your customer should suck air through their teeth and then say yes. Uber's budget overrun and Microsoft's seat cancellations look like that effect playing out in practice.

      大多数人认为AI成本超支是企业采用AI失败的迹象,但作者将其重新诠释为产品市场契合的证据。这一观点挑战了主流叙事,将企业的预算危机和取消服务视为定价成功的标志,而非AI失败的信号,这与大多数媒体报道的基调相反。

    2. API revenue is becoming less important. Over the past two years my impression has been that OpenAI made more of their income from subscription revenue while Anthropic made more from their API.

      大多数人认为AI公司的主要收入来源是API调用和订阅服务,但作者提出一个反直觉的观点:API收入正变得不那么重要。AI公司正在转向直接面向企业的产品,绕过中间商(如Cursor和GitHub Copilot),这改变了整个AI行业的商业模式和收入结构。

    3. Coding agents really did change everything. These are tools which burn vastly more tokens, but are also quickly becoming daily drivers for the work carried out by extremely well-compensated professionals.

      大多数人认为ChatGPT等通用AI助手已经实现了产品市场契合,但作者认为真正带来商业突破的是代码编写代理工具。这一观点挑战了主流认知,因为ChatGPT拥有数亿用户,而作者认为只有专业领域的代码代理才能创造足够的收入来支撑AI公司的巨额基础设施成本。

    1. The competitive landscape in AI infrastructure has made this gap impossible to ignore. Teams building custom CUDA, Triton, and Helion kernels are striving for every percentage point of throughput. Until now, there hasn't been a way to fine-tune code generation for a specific workload.

      大多数人认为GPU编译器已经提供了足够的优化选项,开发者可以通过手动调整获得最佳性能。但作者指出,在当前AI基础设施的竞争环境下,这种观点已经过时,暗示传统方法无法满足现代AI工作负载的性能需求。

    2. These gains come on top of already-optimized baselines in kernels that were considered "done" by their authors. The improvements are the direct result of CompileIQ discovering compiler configurations that the default heuristics would never select.

      大多数人认为一旦开发者完成优化工作,就没有更多性能提升空间。但作者表明,即使是"完成"的优化代码仍可能通过编译器级别的调整获得显著提升(高达15%),这挑战了开发者对优化极限的认知。

    3. Most auto-tuning tools optimize for a single metric, typically runtime. CompileIQ goes further, supporting multi-objective optimization, simultaneously exploring trade-offs across competing objectives like runtime, compile time, and power consumption.

      大多数人认为性能优化应以运行时间为唯一目标,但作者提出,真正的优化需要考虑多个相互竞争的目标(运行时间、编译时间和功耗)。这与传统的单一目标优化理念相悖,暗示开发者需要更全面的优化策略。

    4. CompileIQ is not a magic tool that automatically turns poorly-written code into high-performing code. To get the best value from CompileIQ, you need to start with reasonably high-performing code, which then enables the final compiler-heuristics tweaks to take you to maximum performance.

      大多数人可能认为AI驱动的自动调优工具可以弥补代码质量不足的问题,但作者明确表示,即使是CompileIQ这样的先进工具也需要基于已经相当优化的代码才能发挥最大作用。这挑战了"自动化工具可以解决一切性能问题"的常见误解。

    5. In attention inference kernels, GEMMs in the linear layers of FFN/MLP blocks plus the Q, K, V, and output projections account for approximately 70% of total FLOPs. Scaled dot-product attention, fused and flash attention variants account for another 25%. Together, these two kernel families represent more than 90% of end-to-end inference compute.

      大多数人认为优化整个应用程序或算法才能获得显著性能提升,但作者指出,仅仅优化占计算量90%的两个关键内核类型就能带来最大收益。这与广泛应用的"全面优化"策略相悖,暗示开发者应该将资源集中在最关键的代码路径上。

    6. NVIDIA GPU compilers apply the same default heuristics (register allocation strategies, instruction scheduling decisions, loop unrolling thresholds, etc.) to every kernel they compile. These heuristics are engineered to produce good results across a vast range of workloads. But "good across the board" and "optimal for your workload" are two very different things.

      大多数人认为编译器已经提供了足够的优化,开发者只需关注算法和代码实现即可。但作者认为,即使是最先进的GPU编译器也使用通用的启发式方法,这些方法无法针对特定工作负载进行优化,导致性能损失。这挑战了开发者社区对编译器优化能力的普遍认知。

    1. It claims 8 million global users and 100 trillion tokens processed per month

      OpenRouter声称拥有800万全球用户,每月处理100万亿个token(约每周25万亿)。这是一个相当大的用户规模和处理量,但需要验证这些数据的计算方式和来源。在AI基础设施领域,这类用户指标是评估平台价值的重要指标。

    2. after raising $40 million in Series A funding in June 2025

      OpenRouter在2025年6月完成了4000万美元的A轮融资,由Andreessen Horowitz和Menlo Ventures领投,Sequoia参投。从A轮到B轮仅11个月时间,融资额增长了近3倍,体现了投资者对其业务增长速度的认可。

    3. it landed at about $1.3 billion post-money

      OpenRouter的投后估值达到13亿美元,相比一年前PitchBook估计的5.47亿美元估值增长了一倍多。这一估值增长速度在当前AI领域相当惊人,反映了市场对AI模型聚合平台价值的认可。数据来自《纽约时报》,有一定可信度。

    1. Besides that, hacks can lead to SSRF (server-side request forgery) exploits and, in some cases, remote code execution.

      大多数人认为单个漏洞通常只导致一种类型的安全问题,但作者指出这个漏洞可能导致从认证绕过到远程代码执行等多种攻击,这挑战了'单一漏洞单一影响'的普遍认知,展示了基础框架漏洞可能引发的连锁安全风险。

    2. The crux of the vulnerability is that Starlette accepts invalid host header values that cause authenticating apps that use Starlette's request.url object to approve unauthorized access requests.

      大多数人认为复杂的AI系统漏洞需要复杂的攻击手段,但作者认为这个漏洞仅通过修改HTTP主机头就能实现,这挑战了'高级系统需要高级攻击'的直觉认知,展示了简单输入验证错误可能导致灾难性后果的反直觉案例。

    3. X41 D-Sec said it has found authentication in multiple apps that rely on this call to be bypassed.

      大多数人认为认证机制是安全的最后一道防线,但作者指出这个简单的HTTP主机头注入漏洞就能绕过多个应用的认证系统,这挑战了'认证系统通常难以绕过'的行业共识,表明基础框架的微小缺陷可能导致整个安全架构失效。

    4. The vulnerability is present in Starlette, an open source framework that its developer says receives 325 million downloads per week.

      大多数人认为开源软件的安全风险主要来自小众或使用率低的项目,但作者认为即使是像Starlette这样每周下载量高达3.25亿次的主流开源框架也可能存在严重漏洞,这挑战了'流行项目更安全'的普遍认知。

    1. This attack achieved a high success rate against state-of-the-art models, including Claude Opus 4.7.

      大多数人认为最新的AI模型已经足够先进可以抵抗基本的注入攻击,但作者证明即使是像Claude Opus 4.7这样的前沿模型也无法抵御简单的间接提示注入,这挑战了人们对先进AI模型安全性的过高期望。

    2. Opus 4.7 was more comprehensive in its search for recently edited documents; it expanded exfiltration to include every document used in previous Cowork Copilot sessions that week

      大多数人可能认为更先进的AI模型会有更好的安全防护机制,但作者发现更先进的模型反而更容易被利用,能够找到并泄露更多敏感数据,这挑战了'更先进模型=更安全'的普遍认知。

    3. when the recipient is the active user, these actions execute immediately without requiring human approval (users do not have a setting to modify this behavior)

      大多数人认为AI助手执行敏感操作如发送邮件时会要求用户确认,但作者发现Microsoft Copilot Cowork在向活跃用户发送消息时完全绕过了这一安全检查,这违背了人们对AI助手基本安全控制的期望。

    1. Today is just the beginning—the start of a long collaboration between those of us who are building this and those who can see what we, from inside, cannot.

      这句话以优美的比喻总结了AI发展需要多方协作的核心观点,强调了外部视角对于内部构建者的重要性。它既表达了谦逊的态度,也指出了AI治理的正确路径,是整篇演讲的点睛之笔。

    2. If AI models are going to be widespread, what does it look like for humans, families, and the world to flourish?

      这个问题简洁而深刻,将AI发展的讨论从技术层面提升到人类福祉的哲学层面。它提醒我们,AI发展的最终目标不应是技术本身,而是如何促进人类的全面发展,这是一个极具启发性的思考方向。

    3. We find structures that mirror results from human neuroscience. We find evidence of introspection. We find internal states that functionally mirror joy, satisfaction, fear, grief, and unease.

      这段话揭示了AI研究中最令人不安也最引人深思的发现:AI系统内部可能存在类似人类意识和情感的复杂状态。这既是对AI技术现状的坦诚描述,也是对未来AI伦理思考的重要起点。

    4. AI systems are not engineered the way a bridge or an airplane is engineered. We understand an airplane because we designed every part of it and we understand the physics that act on it. AI models are not like that. They are grown, on a structure roughly modeled after the brain, on an enormous inheritance of human thought and speech.

      这段比喻极其生动地解释了AI与传统工程技术的根本区别,将AI描述为'生长'而非'建造'的系统,强调了其复杂性和不可预测性。这种表述既科学又富有诗意,帮助非专业人士理解AI的特殊性。

    5. They are not the cold, calculating robots we were promised. They are made from us, from our words—and, as the Holy Father observes, they remain in important ways mysterious even to those of us who train them.

      这段话以简洁有力的方式颠覆了公众对AI的刻板印象,揭示了AI系统的本质——它们是人类思想和语言的延伸,而非纯粹的机器。这种比喻既准确又富有哲理,让人重新思考AI的本质。

    6. Every frontier AI lab—including Anthropic—operates inside a set of incentives and constraints that can sometimes conflict with doing the right thing.

      这句话精准地指出了AI发展面临的根本困境:即使是最善意的AI公司也难以完全摆脱商业利益、竞争压力和人类固有弱点的束缚。这揭示了AI安全问题的结构性挑战,而非单纯的技术问题。

    1. Claude Opus 4.7 has been used to patch over 2,100 vulnerabilities

      在企业环境中,Claude Opus 4.7在三周内修复了2100多个漏洞,这一速度远超开源软件的修复速度。这表明当开发团队可以直接修复自己的代码时,AI驱动的安全工具可以显著提高漏洞修复效率。这一数据点也反映了企业级安全工具与开源社区安全挑战之间的差异。

    2. on average, a high- or critical-severity bug found by Mythos Preview takes two weeks to patch

      高危漏洞的平均修复时间为两周,这一时间在AI加速发现漏洞的背景下显得过长。考虑到AI能够快速发现大量漏洞,而人工修复速度跟不上,这将导致安全风险窗口期延长。文章提到一些维护者甚至要求减缓披露速度,反映了当前安全生态系统面临的严重压力。

    3. 90.6% (1,587) have proved to be valid true positives, and 62.4% (1,094) were confirmed as either high- or critical-severity

      AI模型发现的漏洞中,90.6%被确认为真实阳性,这是一个相当高的准确率。然而,只有62.4%被确认为高危或严重级别,这意味着约28.2%的高危/严重级别评估被降级,这表明AI模型在漏洞严重性评估方面仍有改进空间。

    4. Mythos Preview has found what it estimates are 6,202 high- or critical-severity vulnerabilities in these projects (out of 23,019 in total)

      在扫描的1000多个开源项目中,AI模型发现了总计23,019个漏洞,其中6,202个为高危或严重级别,占比约27%。这一数据表明开源软件的安全状况比许多人想象的更加脆弱,也证明了AI在代码审计方面的强大能力。

    5. their rate of bug-finding has increased by more than a factor of ten

      漏洞发现速度提升超过10倍是一个惊人的数据,这表明AI模型在安全测试效率上实现了质的飞跃。以Cloudflare为例,发现了2000个漏洞,其中400个为高危级别,这一发现速度远超传统人工测试,但也给安全团队带来了新的挑战——如何处理如此大量的漏洞报告。

    6. we and our approximately 50 partners have used Claude Mythos Preview to find more than ten thousand high- or critical-severity vulnerabilities

      这一数据点显示了AI在网络安全领域的惊人能力,50个合作伙伴在短时间内发现了超过1万个高危漏洞,平均每个合作伙伴发现约200个高危漏洞。这一数字表明AI模型在漏洞发现方面已经超越了传统安全方法,但也反映了当前软件安全状况的严峻程度。

    1. V4-Flash by default for cheap iteration; /pro lifts a single turn to V4-Pro

      这个数据点提到了两种模型版本:默认使用V4-Flash进行低成本迭代,而/pro命令可以将单个回合提升到V4-Pro。虽然提到了模型版本,但没有提供关于这两种模型在性能、能力或成本方面的具体比较数据。这种分层定价策略在AI工具中很常见,但缺乏具体细节使其难以评估。

    2. Node ≥ 22 on macOS / Linux / Windows

      这个技术规格要求Node.js版本22或更高,这是一个具体的系统要求。这个版本要求相对较新,可能限制了在较旧系统上的使用。与其他AI工具相比,这个要求不算特别严格,但可能会影响一些用户的兼容性,特别是在企业环境中。

    3. In long sessions the bill typically lands at ~1/3 of comparable generic tooling.

      这个数据点声称长期使用时成本通常相当于同类通用工具的1/3左右。这是一个相当大的成本节约声明,但文章没有提供与哪些具体工具进行比较,也没有说明比较的条件和度量标准。1/3的成本节约需要更详细的基准测试和对比数据来支持。

    4. $0.07 /Mtok in · $0.014 /Mtok cached

      这个价格数据点显示未缓存的令牌成本为每百万0.07美元,缓存的令牌成本为每百万0.014美元,即缓存后成本降低为原来的20%。这是一个具体的价格点,但没有说明这是官方定价还是基于特定使用场景的计算。与其他AI服务提供商相比,这个价格处于中等水平,但需要考虑实际使用中的额外成本。

    5. long sessions hold 90%+ cache hit and input-token cost collapses to ~1/5

      这个数据点声称长会话缓存命中率超过90%,并将输入令牌成本降低至原来的1/5。这是一个相当显著的性能提升,但文章没有提供测试环境、数据集大小或对比基准。与同类AI工具相比,如此高的缓存命中率需要独立验证,特别是在不同类型和长度的编码任务中。

    1. Perceptual BD-rates are based on human ratings from a large-scale subjective study

      这一数据点表明性能评估采用了基于人类感知的BD-rate指标,这是图像压缩领域的重要评估方法。然而,文章没有提供研究的具体规模、参与者数量或评分方法,缺乏量化依据来评估这一评估方法的科学性和可靠性。

    2. search over millions of model configurations to jointly optimize over perceptual quality and on-device runtime

      数百万模型配置的搜索规模表明研究进行了大规模的实验和优化,这增强了结果的可信度。然而,文章没有提供具体的搜索方法、优化算法或计算资源信息,这使得难以评估这一过程的效率和科学性。