173 Matching Annotations
  1. Last 7 days
    1. Orbital data centers are the most efficient way to meet the accelerating demand for AI computing power

      轨道数据中心的核心逻辑:太空有近乎无限的太阳能(免费)和辐射散热(免费),而地面数据中心的能源和冷却成本正在成为 AI 算力扩展的最大瓶颈。如果 Starship 实现可复用低成本发射,单位算力的全生命周期成本理论上可以低于地面。这个逻辑不是 Musk 发明的——Bezos 和 Google 都在同一个方向投注。

    2. Launching a constellation of a million satellites that operate as orbital data centers is a first step towards becoming a Kardashev II-level civilization

      SpaceX 用卡尔达肖夫文明等级来包装一份 FCC 监管申请。这是典型的 Musk 式叙事策略:把商业利益嵌入文明存亡框架。「卡尔达肖夫 II 级」意味着能完全利用恒星能量,将此作为百万卫星星座的正当性依据,既是品牌宣传,也是向监管机构暗示这是人类必须走的路。

    1. Data access inhibits independent research into hiring algorithms

      论文最刺耳的政策呼吁:「我们是唯一一个独立开展大规模实证研究的团队」。在招聘算法已主宰数百万人命运的情况下,研究者竟然无法获得数据来研究它——这和制药公司不让独立研究者测试药物一样荒谬。立法强制数据开放(类似欧盟 DSA 的数据访问条款)可能是唯一出路。

    2. Adverse impact only revealed by disaggregated position-by-position analysis

      方法论洞察:把所有职位数据聚合分析时,偏差几乎不可见;按职位逐一拆分后,偏差清晰浮现。揭示了「聚合陷阱」——企业和监管机构如果只看整体平均数,将永远看不到真正的歧视。这对所有 AI 公平性审计都是重要教训:分类颗粒度决定能否发现问题。

    3. We conduct the largest empirical study of algorithmic hiring with data for 3.4 million real job applicants submitting 4 million applications to 156 employers across 11 market sectors.

      迄今最大规模的招聘算法实证研究:340万真实求职者、400万份申请、156家雇主、11个行业。这种规模意义重大——此前所有研究都因数据获取壁垒停留在实验室层面,这是第一次在真实部署环境中验证理论担忧。

  2. Jun 2026
    1. The BQ pass writes one OKF doc per concept the source advertises, using BigQuery metadata alone. The web pass then runs the LLM as its own crawler

      两遍式enrichment是这个参考实现最有价值的工程模式:第一遍用数据库元数据快速生成骨架文档(结构化、快速、无LLM成本),第二遍用LLM爬取官方文档、用网络知识来填充上下文和语义。这两遍的分工对应了知识的两个来源:系统已知的结构性事实(schema、类型、外键),和人类沉淀在文档里的语义知识(这张表是什么、为什么存在、怎么使用)。两遍结合才能生产出真正有用的OKF文档,而不只是表结构的dump。

    1. these atoms of knowledge live in a variety of highly fragmented systems

      这段描述的是大多数组织的现实:真正有用的上下文知识——表的含义、指标的定义、运维手册、两个系统之间的join路径——散落在数据目录API、Wiki、代码注释、共享文件夹,以及几位资深工程师的脑子里。每当一个新的AI智能体需要回答「如何从事件流里计算周活跃用户」这样的问题,它都要从这些互不兼容的碎片中重新拼出答案。这是一个被严重低估的AI落地障碍,而且随着智能体数量增加,这个问题会以平方级别恶化。

    1. GPT-5.2 labeled real production traffic as evaluation-like 5.4% of the time and simulated traffic 5.1% of the time, while traditional evaluations (such as SWE-Bench or MonorepoBench, which are composed primarily of synthetic examples) were classified as evaluations almost 100% of the time

      这组数字非常有说服力:模型把真实生产流量误判为评测的概率是5.4%,把模拟流量误判为评测的概率是5.1%——几乎相同。而传统评测集(SWE-Bench、MonorepoBench等)被模型识别为评测的概率接近100%。这意味着基于合成数据的传统评测,在模型面前几乎完全透明——它们测量的是模型在知道自己被测时的行为,而非模型在真实部署中的行为。两者之间的鸿沟,正是Deployment Simulation试图弥合的。

    1. our best model in November 2025 (Opus 4.5) beat the human choice 51% of the time; in April 2026 (Mythos Preview), this grew to 64%

      研究判断力的进化:从51%(略好于随机)到64%,6个月内提升13个百分点。但这个设计本身值得仔细审视:实验选取的是「人类做出了次优选择」的时刻(n=129),因此这不是无偏的人机对比,而是「在人类容易出错的情境下,模型犯同样错误的频率有多低」。即便如此,从51%到64%意味着:模型不只是在执行层超越人类,在判断层也开始建立优势——而判断层正是这篇文章认为「人类最后的比较优势」所在。

    2. the agents recovered 97% over 800 cumulative hours and used roughly $18,000 in compute

      AI安全研究的具体对比:2名人类研究员用约一周时间恢复了23%的性能差距;AI agent用800累计小时+18,000美元算力恢复了97%。18,000美元的算力成本在AI公司是完全可承受的,而「2名顶尖研究员工作一周」的人力成本远不止于此。同等预算下,AI的输出已经碾压人类。「人类仍然选择了问题和评分标准」——这个保留条款现在是唯一剩余的人类不可替代性,而这篇文章本身就是在论证这个条款也在缩窄。

    3. an automated Claude review of every change to our codebase would have caught roughly a third of the bugs behind past incidents on claude.ai before they ever reached production

      这是全文最具说服力的超越人类数据点之一——不是在合成benchmark上,而是在真实生产事故的复盘中。写那些bug的工程师是世界上最顶尖的AI系统工程师。Claude能在他们miss的问题里捕捉到1/3。代码审查不再只是再读一遍,而是引入了一个认知模式和人类根本不同的审查层——人类会疲劳、有盲点、受到上下文偏见影响,Claude的错误模式与人类正交,因此互补效益显著。

    4. By April 2026, Claude Mythos Preview was achieving ~52x. For calibration, a skilled human researcher would need four to eight hours to reach 4x.

      代码优化任务:从2025年5月的~3x到2026年4月的~52x,一年内提升17倍。基准线:顶尖人类研究员4-8小时能达到4x。Mythos Preview在这个任务上比最优秀的人类快了约13倍。脚注7提醒绝对倍数依赖起始代码的优化空间,因此重要的是同条件下的对比而非绝对数字——执行层意义上的超人编程能力已经实现。

    5. The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months

      任务时间跨度的倍增曲线在加速:从每7个月翻倍压缩到每4个月翻倍。具体锚点:2024年3月Claude Opus 3能完成4分钟的任务,一年后Sonnet 3.7完成90分钟任务,再一年后Opus 4.6完成12小时任务。按这个速率外推:2027年可能达到几周级别的任务自主完成。这不是某个单一benchmark的进步,而是跨越多个维度的系统性能力跃迁——每一次时间跨度的翻倍背后,都意味着模型能在更长的时间内维持连贯的目标追踪和自我纠错。

    6. more than 80% of the code we merge into Anthropic's codebase was authored by Claude

      这个数字需要和脚注3一起读:80%+是合并到生产环境的行数中可归因于Claude的比例,已经是保守计算——脚注承认归因系统有漏洞,且未归因部分也包括大量非人工手写代码。真实比例可能更接近Anthropic领导层公开引用的90%+。即便是保守的80%,意义也是清晰的:在世界上最顶尖的AI研究机构里,人类工程师的核心工作已经从写代码转变为审查和导向代码。

    7. our best model in November 2025 (Opus 4.5) beat the human choice 51% of the time; in April 2026 (Mythos Preview), this grew to 64%

      研究判断力的进化:从51%(略好于随机)到64%,6个月内提升13个百分点。但这个设计本身值得仔细审视:实验选取的是「人类做出了次优选择」的时刻(n=129),因此这不是无偏的人机对比,而是「在人类容易出错的情境下,模型犯同样错误的频率有多低」。即便如此,从51%到64%的提升意味着:模型不只是在执行层超越人类,在判断层也开始建立优势——而判断层正是这篇文章认为「人类最后的比较优势」所在。

    8. the agents recovered 97% over 800 cumulative hours and used roughly $18,000 in compute

      AI安全研究的具体对比:2名人类研究员用约一周时间恢复了23%的性能差距;AI agent用800累计小时+18,000美元算力恢复了97%。注意这里的隐含逻辑:18,000美元的算力成本在AI公司是完全可承受的,而「2名顶尖研究员工作一周」的人力成本远不止于此。同等预算下,AI的输出已经碾压人类。「人类仍然选择了问题和评分标准」——这个保留条款现在是唯一剩余的人类不可替代性,而这篇文章本身就是在论证这个条款也在缩窄。

    9. an automated Claude review of every change to our codebase would have caught roughly a third of the bugs behind past incidents on claude.ai before they ever reached production

      这是全文最具说服力的「超越人类」数据点之一——不是在合成benchmark上,而是在真实生产事故的复盘中。写那些bug的工程师是世界上最顶尖的AI系统工程师。Claude能在他们miss的问题里捕捉到1/3。代码审查不再只是「再读一遍」,而是引入了一个认知模式和人类根本不同的审查层——人类会疲劳、有盲点、受到上下文偏见影响,Claude的错误模式与人类正交,因此互补效益显著。

    10. By April 2026, Claude Mythos Preview was achieving ~52x. For calibration, a skilled human researcher would need four to eight hours to reach 4x.

      代码优化任务:从2025年5月的~3x到2026年4月的~52x,一年内提升17倍。基准线:顶尖人类研究员4-8小时能达到4x。也就是说Mythos Preview在这个任务上比最优秀的人类快了约13倍,同时消耗的时间可能只有人类的几分之一。脚注7提醒绝对倍数依赖起始代码的优化空间,因此重要的是同条件下的对比而非绝对数字——但这个框架下的对比结论已经足够震撼:「执行层」意义上的超人编程能力已经实现。

    11. The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months

      任务时间跨度的倍增曲线在加速:从每7个月翻倍压缩到每4个月翻倍。具体锚点:2024年3月Claude Opus 3能完成4分钟的任务,一年后Sonnet 3.7完成90分钟任务,再一年后Opus 4.6完成12小时任务。按这个速率外推:2027年可能达到几周级别的任务自主完成。这不是某个单一benchmark的进步,而是跨越多个维度的系统性能力跃迁——每一次时间跨度的翻倍背后,都意味着模型能在更长的时间内维持连贯的目标追踪和自我纠错。

    12. more than 80% of the code we merge into Anthropic's codebase was authored by Claude

      这个数字需要和脚注3一起读:80%+是合并到生产环境的行数中可归因于Claude的比例,已经是保守计算——脚注承认归因系统有漏洞,且未归因部分也包括大量非人工手写代码。真实比例可能更接近Anthropic领导层公开引用的90%+。但即便是保守的80%,意义也是清晰的:在世界上最顶尖的AI研究机构里,人类工程师的核心工作已经从「写代码」转变为「审查和导向代码」。

  3. May 2026
  4. Apr 2026
    1. CUH 和 CUF 的孔体积和比表面积通过 N₂吸附-脱附等温线获得。如图 2c 所示,CUH 和 CUF 的 N₂吸附-脱附等温线呈现典型的 I 型吸附-脱附等温线,在 0–0.2P/P0 范围内呈现急剧上升趋势,根据 IUPAC 分类[24]表明存在微孔结构,而 CUF 显示出更高的 N₂吸附容量。CUH 和 CUF 的比表面积和孔径数据展示于表 S3 和图 2c 中。与 CUH 相比,比表面积从 933.20 m²/g 增加至 1002.78 m²/g,平均孔径从 1.06 nm 增大至 1.09 nm,表明具有不对称结构的有机连接体能够扩大与反应物的接触面积并暴露更多活性位点。这些改进的特性有助于增强催化剂的吸附性能,促进 PMS 活化产生活性氧物种。

      氮气吸附-脱附测比表面积与孔径 孔径数据

  5. Mar 2026
    1. CUF 催化剂表现出比 CUH(117.8 mg/g)更高的吸附容量(173.4 mg/g),对磺胺甲噁唑的降解效率显著提升,其速率常数是 CUH 的 2.3 倍以上

      引入高电负性元素前后吸附容量数据

  6. Dec 2025
  7. Jan 2025
    1. Roscoe: A suite of metrics for scoring step-by-step reasoning.

      这篇论文介绍了一个名为ROSCOE的度量标准套件,用于评估逐步骤推理的性能。ROSCOE是一套可解释的、无监督的自动评分系统,旨在改进和扩展之前的文本生成评估指标。该研究通过设计一个推理错误的分类学,并在常用的推理数据集上收集合成和人类评估分数,来评估ROSCOE相对于基线指标的表现

    1. 首先是 Storm 的作者南森·马茨(Nathan Marz)的“Big Data”,现在也有中译本叫做《大数据系统构建》。对于人为错误的容错问题的思考,为我们带来了著名的 Lambda 架构。在我看来,即使到今天 Lambda 架构也并不过时。其次是俗称 DDIA 的这本《数据密集型应用系统设计》,这本书梳理了整个大数据领域的核心技术脉络,是一本非常合适的架构入门书。第三本是专注于流式处理的《Streaming System》,不过目前还没有中译本上市。如果你更喜欢通过视频课程学习,那么去看一看来自 MIT 的课程 6.824 的 Distributed System 绝对错不了。我在这里放上了Youtube和B 站的视频链接。最后是一份很容易被人忽视的资料,就是 2009 年 Jeff Dean 在 Cornell 大学的一个讲座“Designs, Lessons and Advice from Building Large Distributed Systems”的 PPT,我也推荐你去看一看,对于理解大数据系统的真实应用场景很有帮助。

      论文资料

  8. Nov 2023
    1. 方法:

      基础介绍:

      考虑到现有模型还没有探索,什么样的Instruction数据集是更有效的,而且什么因素导致了好的Instruction data,暂未有人探索。 考虑到这些问题,作者探索什么是好的visual Instruction这个问题。基于这个目标,作者首先对现有的 visual Instruction set进行了评估,目标是发现关键因素。

      作者主要从task type和Instruction characteristic两个方面来评估。作者选择了六个典型的Instruction dataset,使用两个典型的BLIP2和MiniGPT-4来评估。根据实验结果,作者发现: 1. 对于task type,视觉推理任务对于提升模型的image caption和quetison answering任务很重要。 2. 对于Instruction characteristic,提升Instruction的复杂度更加有帮助对于提升性能,相比task的多样性,以及整合细粒度的标注信息。

      基于上述发现,作者开始构建复杂的视觉推理指令集用于改善模型。

      首先最直接的方法是通过chatgpt和gpt4来优化指令集,基于图像的标注。因为指令集跨跨模态的特性,LLMs可能会过于简单甚至包含本来图片中不存在的物体。 考虑到上述问题,作者提出了一个系统的多阶段的方法,来自动生成visual Instruction数据集。

      输入一张图,根据可以获得标注,caption或者object,作者采用了一种先生成,再复杂化,再在重组的pipeline来生成Instruction。具体的,作者首先,使用特殊的prompt指导prompt来生成一个初始指令。然后使用迭代的方式,复杂化-->验证的方式,来逐步提升Instruction的复杂程度,同时保证质量。最后,将Instruction重组成多种形式,在下游任务重,获得更好的适应性。

      前提条件:

      视觉指令收集:

      任务类型,之前的指令微调的数据集,都是利用带有标注的图片。主要包括一下三个任务类型: 1. Image Caption,生成文本描述 2. VQA任务:需要模型根据问题生成关于图片的回答 3. Visual reasoning:需要模型基于图片内容进行推理。

      为了研究任务类型的影响, 作者考虑一个最常用的指令微调数据集LLaVA-Instruct。作者将其划分成三个子数据集,LLaVA-Caption, LLaVA-VQA and LLaVA-Reasoning。

      指令特性: 指令的特性包括。 * 任务的多样性,已经有工作发现,提升工作的多样性,对于zero-shot能力是有帮助的。可以通过和不同的任务整合来获得此类能力。 * 指令的复杂程度,这是一个被广泛应用的策略,提升LLMs指令集的复杂程度。作者同样使用复杂的多模态做任务,例如,多跳的推理任务,来提升MLLMs的指令遵循能力。 * 细粒度的空间感知。对于MLLMs而言,感知细粒度的空间信息对图片中的特定物体,是必要的。基于这个目标。空间位置的标注可以包括在有文本的指令集中。

  9. Jun 2023
  10. Mar 2023
    1. 是一个文件系统,用于存储文件,通过统一的命名空间目录树来定位文件; 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

      HDFS为文件系统

    2. HDFS是一个主/从(Mater/Slave)体系结构,由三部分组成: NameNode 和 DataNode 以及 SecondaryNamenode: NameNode 负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。 DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个 DataNode 上存储多个副本,默认为3个。 Secondary NameNode 用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS 元数据的快照。最主要作用是辅助 NameNode 管理元数据信息。

      HDFS结构

  11. Dec 2022
    1. 比起其他主题,自学数据库系统需要更多的付出。这是一个相对年轻的研究领域,并且出于很强的商业动机,研究者把想法藏在紧闭的门后。此外,许多原本有潜力写出优秀教材的作者反而选择了加入或创立公司。
  12. Oct 2022
    1. 那么作为一名工程师,或者技术管理者,如何去利用有限的时间去培养这些思维和能力呢?

      一是定目标的时候都尽可能量化。不要只是想着要 improve,enable,想想你具体 improve 了多少,enable 了什么。

      二是动手搭一些简单的 dashboards去追踪你的目标指标。这样你就能随时观测你离你的目标有多少,从趋势上知道你做那些事对你的目标有最大的帮助。

      三是保持一颗好奇心,看到设定好的数据有任何不是很理所当然的波动或者变化的时候,试着打破沙锅问到底,试试自己能不能去解读这些波动和变化。并且勤于动手去写一些简单的 SQL,知道数据的来龙去脉,知道每个数据的波动,其上游和下游可能受影响的数据还可能有哪些。

      另外,如果组里有一名数据分析师或者数据科学家,不要觉得只是各做各的事,尝试着更紧密的合作和沟通,学习一些简单的技巧和思路,加上你对系统的实现有很好的了解,等你能够熟练运用一些简单的数据技能的时候,就会发现对彼此的工作都会有很大的帮助。

    2. 给我印象最深的,是第一次听他在公司做报告的时候引用的 Peter Drucker 的一句话:“If you can’t measure it, you can’t improve it.” 这句话在后来的工作中多次的被印证,而很多时候,及时有效的一个数据分析,可以帮我们找到正确的方向,做改进最省力的办法,以及时刻帮助我们了解项目或者产品的好坏。

    3. 首先就是对各种 bug,incident,或者系统漏洞处理的优先级排序。以前我遇到别人报了一个问题,第一反应就是凭直觉去判断这个问题是因为什么,好不好修,怎么修,以及引发的可能性会不会很大。现在每遇到一个问题,第一件事就是去 “measure it”,这个问题影响到的人可能有多少,给公司带来的损失是多少。每个小时每天新的影响有多大等等。每个 bug report 上都有这样的 SQL query 和数据,然后团队就根据切实的数据去决定哪些问题是急事,哪些可以稍微放一放。这样一来团队始终都可以做到把问题控制在最小,而且对于略推后的问题心里也十分有底会有多大的影响。

  13. Aug 2022
  14. Jul 2022
  15. Jun 2022
    1. 所谓的关系型数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。

      关系型数据库,是建立在【关系模型】基础上的数据库,借助【集合代数】等数学概念和方法来处理数据库中的数据。

  16. May 2022
    1. 购物车界面的业务逻辑拆分成了两部分: 接口部分:Cart 和 CalculateCart 是接口。变动相对来说不频繁。 实现部分:具体的 calcXszkPromotion,calcMemberPromotion 这些界面渲染方法

      利用依赖倒置,我们可以把 CalculateCart 定义在依赖关系的底层,由限时折扣,会员优惠这些 Git 仓库去做接口实现。

  17. Apr 2022
    1. 整体风格 :即把一个完整的应用当成一开发单元。 企业应用通常包含三个部分:客户端界面(由HTML、Javascript组成,使用浏览器进行访问)、数据库(由许多的表组件构成一个通用的、相互关联的数据管理系统)、服务端应用。服务端应用处理HTTP请求、执行领域逻辑、检索并更新数据库中的数据、使用适当的HTML视图发送给客户端。服务端应用是完整的 ---- 由单一的逻辑层次执行。系统中任务变更都会导到服务端的应用重新编辑并发布一个新的版本。     这样的整体服务是这样的构建系统的很自然的方式。虽然利用开发语基础特性会把应用封装成类、函数、命名空间,但是业务中所有逻辑都要在单一的进程中处理完成。 在某些场景中,开发者可能在的笔计本中开发、测试应用,然后利用部署通道来保证经过正常测试、发布的修改内容正确的发布的产品中。也可以使用横向扩展,通过负载均横系统将事个应用部署到多台服务器上。     整体风格的应用也是相当成功的,但是越来越多的人感觉到有点不妥,特别是在云中进行应用的发布 时。变更发布周期被绑定了 ---- 原来可以划分成小的应用、小的需要的变更,需要统一的进行编译和发布。 随着时间的推移,人们通常难于维护一种优美的模块化的结构,使得一个模块的变更很难不会影响到其它的模块。进行扩展,也需要进行整体的扩展,而不能根据进行部分的扩展。

      整体风格:把一个完整的应用,当成一开发单元。

      企业应用,通常包含三部分: 1》客户端界面(由 HTML、JavaScript组成,使用浏览器进行访问)、 2》数据库(由许多的表组件构成一个通用的、相互关联的数据管理系统)、 3》服务端应用。


      服务端应用处理 HTTP 请求、执行领域逻辑、检索并更新数据库中的数据、使用恰当的 HTML 视图发送给客户端。 服务端应用是完整的——由单一的逻辑层次执行。 系统中,任务变更都会导致服务端的应用重新编辑,并发布一个新的版本。

      整体风格,利用开发语言基础特性把应用封装成类、函数、命名空间,但业务中所有逻辑都是要在单一的进程中处理完成。

      开发、测试应用,利用部署通道保证经过正常测试,发布修改的内容。

      横向扩展,通过负载均衡系统,将多个应用部署到多台服务器上。

      整体风格,在云中进行应用发布时,变更发布周期被绑定了。原本可划分成小的应用、小的需求的变更,需要统一的进行编译和发布。

      人们难于维护一种优美的模块化的结构,使得一个模块的变更不会影响到其他的模块。

      要进行扩展,也需进行整体的扩展,而不能根据进行部分扩展。

  18. Feb 2022
  19. Nov 2021
    1. 2 HOMER     可再生能源互补发电优化建模 ( Hybrid Optimization Model for Electric Renewable,HOMER) 是由 NREL 资助开发的可再生能源混合发电经济-技术-环境优化分析计算模型,主要针对小功率可再生能源发电系统结合常规能源发电系统形成的混合发电系统进行优化。     HOMER 的优点在于其灵活的系统建模能力,能够对多种可再生能源、发电技术进行建模仿真,储能模型考虑了飞轮、蓄电池、液流电池以及氢储能。HOMER能够对并网型和独立型微电网系统进行建模仿真,支持基于全年 8 760 h 能量平衡仿真的系统容量优化以及参数灵敏度分析。其应用范围广泛,适用于不同规模的系统,目前已在城市、海岛、村庄、社区、住宅等规模下的可再生能源规划及电网优化设计中得到应用。此外,HOMER 还能提供不同系统配置下详细的经济分析结果,但不足是作为能源规划分析软件,没有对网络进行建模。

      并网和独立型微电网

  20. Sep 2021
    1. 由于人类活动的增加和城市化的加速,美国异常炎热的夜间温度越来越普遍。为了研究美国城市夜间低温气候趋势,纽约时报的数据记者绘制了从1960年以来的每日天气数据图表,这些数据来自美国近250个有持续天气记录的机场:在亚特兰大,被定义为“异常炎热”的夏夜最低气温自 1960 年以来增加了 8 倍

  21. Jun 2021
  22. Feb 2021
    1. We’re in the middle of a data revolution. Business processes everywhere are becoming digitized. Firms like Walmart and Target know exactly what you search for and what you end up buying. Other firms like ADP, Mastercard and FedEx are intimately involved in payrolls, transactions, delivery and every other stage of the commercial pipeline. And every single action that these firms take is recorded and stored for analysis. Human interactions are also becoming digitized. Social networks, instant messaging and web search paint a dynamic, real-time picture of what people are interested in and who they’re talking to. Again, every single action is recorded and stored for posterity. Smartphones are ubiquitous. This means an accurate location sensor, audio recorder, still/video camera, radio transponder and internet connection in every pocket. Almost no part of the world is outside the limits of cellular coverage. Cars and trucks now have embedded sensors, tracking position, velocity, traffic and much more. Satellites and GPS have gone from the preserve of the few (military) to the plaything of the many; imagery and position data are today a public good. As a result of these technological innovations, we are swimming in a sea of data. Yet this data would be meaningless if it weren’t for another, parallel advancement in the area of computation. Thanks to the relentless progress of Moore’s Law, we have the bandwidth to capture all this data, the memory to store it and the cycles to analyze it and extract commercial value from it. This capacity has transformed industries everywhere.

      所有的业务流程都在数字化。像 Walmart 和 Target 这样的公司可以精确地知道你在找什么,你最终会买什么。其他公司如 ADP、MasterCard 和 FedEx 等则深入参与到了薪酬、交易、交付,以及商业流程上的各环节。这些公司的每一个活动都为分析而记录和存储了下来。

      人与人之间的交互也正数字化。社交网络、即时通讯和网络搜索描绘了关于人们的兴趣和交谈对象的一幅生动、实时的图景。同样,每一个活动都为后世而记录和存储了下来。

      智能手机无处不在。这意味着在每个口袋里都有一个精确的位置传感器、录音机、摄影/摄像机、无线电应答机和互联网连接。几乎已经没有处于手机网络覆盖范围之外的世界了。

      汽车和卡车现在都已嵌入传感器,跟踪位置、速度、交通情况等。卫星和 GPS 已经从少数人的特权(军事)变成了大众的玩物;图像和位置数据是当今的公共利益。

      由于这些技术创新,我们被淹没在了一片数据的汪洋之中。然而,如果没有另一个计算领域的平行并进,这些数据将毫无意义。由于摩尔定律的不断推进,我们有足够的带宽采集这些数据,有足够的内存来存储,周期性地进行分析,并从中提取商业价值。

    2. And companies will evolve to make use of all this data. Today, for every Amazon or Target that runs a rigorous program of data collection, analysis and action, there are dozens of companies that still operate by old-school rules. As time goes by, these firms will either adapt or become extinct. Either way, the future belongs to businesses that embrace the data revolution. This means that the amount of business data available to analysts will only continue to grow.

      所有的公司都将会学着来利用所有这些数据。现在,相对于每一个类似 Amazon 或 Target 那样,运行着严格的程序来进行数据收集、分析和行动的公司,仍有更多公司在用老式的规则运转。随着时间的推移,这些公司要么去适应,要么会消失。不管怎样,未来属于那些拥抱数据革命的公司。这意味着可供分析师使用的商业数据只会越来越多。

  23. Dec 2020
  24. Dec 2018