The depth of recursion becomes a tunable compute axis at inference time, requiring no retraining.
大多数人认为AI模型的计算能力主要受限于其架构和训练数据,一旦训练完成,其推理能力基本固定,但作者提出Fugu模型可以通过调整递归深度在推理时动态扩展计算能力,这挑战了传统AI模型的固定计算范式,暗示未来AI系统可能具有前所未有的灵活性。
The depth of recursion becomes a tunable compute axis at inference time, requiring no retraining.
大多数人认为AI模型的计算能力主要受限于其架构和训练数据,一旦训练完成,其推理能力基本固定,但作者提出Fugu模型可以通过调整递归深度在推理时动态扩展计算能力,这挑战了传统AI模型的固定计算范式,暗示未来AI系统可能具有前所未有的灵活性。
up to 5 gigawatts (GW) of capacity for training and deploying Claude
5GW的算力规模是惊人的,相当于一个小型国家的电力消耗。这个数字表明Anthropic正在为AI模型训练和部署进行大规模基础设施投资,反映了大型语言模型对计算资源的巨大需求。这一规模与OpenAI等竞争对手的算力投入相当,显示AI算力竞赛正在升级。
Amazon, Google, Meta, Microsoft, and Oracle collectively hold an estimated 71% of the world's cumulative AI compute as of Q4 2025, measured in H100-equivalents of computing power.
这个惊人的数据揭示了AI算力高度集中的现状,五大科技巨头控制了全球超过三分之二的AI算力,这种集中度在短短一年内从63%上升到71%,表明AI基础设施正在加速向超大规模云服务商集中,这可能重塑AI创新格局。
Five hyperscalers now own over two-thirds of global AI compute, rising from 60% in Q1 2024.
令人惊讶的是:这五大超大规模云服务提供商对全球AI计算资源的控制力在短短一年内从60%增长到67%,显示出AI计算资源正以前所未有的速度向少数科技巨头集中,这可能加剧AI发展的不平衡。
We see continued gains from inference scaling on larger projects, suggesting they may be solvable given enough tokens.
这一发现揭示了AI性能与推理计算资源之间的正相关关系,暗示了通过增加计算预算可能解决更复杂的编程任务。这为AI能力的边界提供了重要线索,也引发了关于计算资源投入与AI能力提升之间关系的深刻思考。
From the time I began work on AI in 2010 to now, the amount of training data that goes into frontier AI models has grown by a staggering 1 trillion times—from roughly 10¹⁴ flops for early systems to over 10²⁶ flops for today's largest models.
令人惊讶的是:AI训练数据量在短短16年间增长了1万亿倍,这是一个难以想象的指数级增长。这种计算能力的爆炸式发展远超人类直觉,解释了为什么AI进步如此迅速且难以预测。大多数人无法真正理解这种指数级增长意味着什么,这也是为什么许多专家对AI发展速度预测失败的原因。
we can reach the same capabilities with over an order of magnitude less compute than our previous model, Llama 4 Maverick.
令人惊讶的是:Meta声称他们的新模型Muse Spark在计算效率上取得了突破性进展,仅用前代模型Llama 4 Maverick十分之一的计算量就能达到相同能力。这种数量级的效率提升在AI领域极为罕见,可能代表着训练算法和架构设计的重大革新。
合計数百回、時には数千回に及ぶLLM呼び出しの中で、有望な仮説をさらに深掘りするのか、まったく新しい角度に広げるかを、Sakana Marlinはその都度判断しながら探索します。
数百到数千次 LLM 调用完成一次研究任务——这个规模令人震惊。一个用户提交一个研究主题,背后触发的是数千次 AI 推理调用,形成一棵庞大的假设探索树。从成本角度看,如果每次 LLM 调用均价 0.1 美元,1000 次调用就是 100 美元的计算成本。「数周人力工作」的价值与「100 美元计算成本」之间的鸿沟,正是 AI 替代知识工作的核心经济逻辑所在。
the robustness of these reasoning behaviors remains underexplored
「推理行为的鲁棒性尚未被充分探索」——这句话是整个推理模型研究领域的集体盲点声明。过去两年,测试时计算(test-time compute)、长思维链(CoT)、o1/R1 类推理模型吸引了巨大关注,但几乎所有评测都在「孤立问题」环境下进行。在真实 Agent 部署场景中,「能否保持推理深度」这个最基本的可靠性问题,直到这篇论文才开始被系统研究。
If the last decade of AI has taught us one lesson, it's that scaling compute builds better models.
【逻辑漏洞】文章开篇即确立了「算力决定论」的框架,但这是一个高度可争议的前提。DeepSeek-R1 用远低于对手的算力取得竞争性成果,恰恰说明算法效率可以部分替代算力——作者用这个反例贯穿全文,却又在框架层面偷偷把它收编为「几倍效率提升,不够弥补十倍差距」。这种循环论证让结论在逻辑上显得比实际上更无懈可击。
frontier AI companies can run more of the best AIs to speed up their own AI research, relative to their competitors. Right now these gains are maybe noticeable but not game-changing, but that'll probably change in the next few years.
这是整篇文章埋下的最深的炸弹:当顶尖 AI 公司开始用 AI 加速自身的 AI 研究,算力优势将产生复利效应——算力领先 → AI 研究更快 → 更好的模型 → 更快的研究 → 更大的算力领先。这个「飞轮」一旦转起来,计算差距将不再是线性的,而是指数级加速扩大。对所有「追赶者」而言,这是一个潜在的「逃逸临界点」。
Just last year, Anthropic spent over ten times more on compute than Minimax and Zhipu AI combined, and the gap is even wider for OpenAI:
这个数字对国内 AI 从业者而言极为刺耳:Anthropic 一家的算力投入就超过智谱 AI 和 MiniMax 合计的十倍以上,而与 OpenAI 相比差距更大。所谓「中美 AI 竞争激烈」的叙事背后,是一场体量悬殊的不对称战争——不是同一量级的竞争,而是大卫与歌利亚的对决。对智谱这样的公司,这既是警醒,也是生存战略的根本约束。
These figures include Nvidia and AMD datacenter GPUs, Google TPUs, Amazon Trainium and Inferentia chips, and Huawei's AI chips. We estimate that these five categories encompass the vast majority of the world's dedicated AI computing power.
这个清单里藏着一个地缘政治炸弹:华为 AI 芯片被并列纳入「全球主要算力」统计。这意味着即便在出口管制和制裁下,华为的算力存量仍然大到不可忽视。中国 AI 算力的真实规模因此比西方媒体描述的更接近全球主流水平——「算力脱钩」的叙事可能严重低估了中国的实际积累。
Global AI computing capacity is doubling every 7 months
Epoch AI 的相关研究显示全球 AI 算力每 7 个月翻倍——比摩尔定律(18-24 个月)快了 3 倍以上。在这个速度下,Google 今天 25% 的市场份额意味着:如果竞争对手没能跟上这个扩张节奏,算力差距不会缩小,只会以指数级扩大。算力竞赛正在进入「赢家通吃」的临界点。
We estimate Google is the largest single owner of AI compute, holding about one quarter of global cumulative capacity as of Q4 2025.
全球 AI 算力的 25% 被一家公司独占——这个数字令人震惊。更值得注意的是这个数字的性质:这是「累积持有量」而非「新增采购量」,意味着 Google 多年来的硬件积累已形成近乎垄断性的算力护城河。在 AI 竞赛被描述为「群雄逐鹿」的叙事下,这个数字揭示了真正的权力集中程度。
We estimate that as of the end of 2025, Chinese companies collectively own just over 5% of the cumulative computing power of the leading AI chips sold in recent years
考虑到中国AI产业的快速发展和政府对AI的大力投资,大多数人可能认为中国拥有更大比例的全球AI计算能力,但作者认为中国公司仅拥有约5%的全球AI计算能力。这一数字远低于人们的预期,挑战了关于中国AI技术实力的普遍认知。
We estimate that over 60% of global AI compute (in terms of total computing power) is owned by the five US hyperscalers, led by Google.
大多数人认为AI芯片的分布会更加分散,或者被专门的AI公司如OpenAI和Anthropic所主导,但作者认为全球AI计算能力的大部分被少数几家美国超大规模科技公司控制,这挑战了人们对AI产业结构的认知。这种集中化意味着少数几家公司对AI发展的方向有不成比例的影响力。
the compu-tation cost of KV caches is quadratic to the input sequence length
Such people can’t conceive of a world different from the one they occupy. A world where their “tech skills” are useless because humanity actually made progress.
oof. but beautiful encapsulation of incentives (or lack thereof) to promote actual change, vs just "working with what we have"
This it the workaround to get the NCS2 stick working within virtual-box by creating 2 USB filters for the stick
Page describes differences between NCSDK and OpenVINO. There is some example code of how to initialize things in Python and C++ that may be useful at the bottom of the page.
Multilevel correlations: A new method for common problems. (2020 April 13). R-bloggers. https://www.r-bloggers.com/multilevel-correlations-a-new-method-for-common-problems/
Network centralization
degree.cent <- centr_degree(g, mode = "all") degree.cent$res degree.cent$centralization degree.cent$theoretical_max
djacency matrix.
We talked about matrix in last chapter. I personally think table 5.2 will be more informative and will create a more complicated graph on Gephi.
network-level clustering coefficient of 0.24
Is the formula they used to calculate this coefficient the same as on the link below? If so, I'd be curious to see how matricies can help make this calculation easier.
Density is intricately linked to network size
...and then: here is the connection to the previous note.
the pattern of relations among the network's actors.
(Mental Note) The concept that I have to focus on...