16 Matching Annotations
  1. Last 7 days
    1. The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months

      任务时间跨度的倍增曲线在加速:从每7个月翻倍压缩到每4个月翻倍。具体锚点:2024年3月Claude Opus 3能完成4分钟的任务,一年后Sonnet 3.7完成90分钟任务,再一年后Opus 4.6完成12小时任务。按这个速率外推:2027年可能达到几周级别的任务自主完成。这不是某个单一benchmark的进步,而是跨越多个维度的系统性能力跃迁——每一次时间跨度的翻倍背后,都意味着模型能在更长的时间内维持连贯的目标追踪和自我纠错。

    2. The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months

      任务时间跨度的倍增曲线在加速:从每7个月翻倍压缩到每4个月翻倍。具体锚点:2024年3月Claude Opus 3能完成4分钟的任务,一年后Sonnet 3.7完成90分钟任务,再一年后Opus 4.6完成12小时任务。按这个速率外推:2027年可能达到几周级别的任务自主完成。这不是某个单一benchmark的进步,而是跨越多个维度的系统性能力跃迁——每一次时间跨度的翻倍背后,都意味着模型能在更长的时间内维持连贯的目标追踪和自我纠错。

  2. May 2026
  3. Jan 2025
    1. Roscoe: A suite of metrics for scoring step-by-step reasoning.

      这篇论文介绍了一个名为ROSCOE的度量标准套件,用于评估逐步骤推理的性能。ROSCOE是一套可解释的、无监督的自动评分系统,旨在改进和扩展之前的文本生成评估指标。该研究通过设计一个推理错误的分类学,并在常用的推理数据集上收集合成和人类评估分数,来评估ROSCOE相对于基线指标的表现

  4. Oct 2024
  5. Dec 2022
  6. Sep 2022
    1. 我们应用在早上9点、中午12点、晚上21点的使用点击较高,可以考虑在这几个时间段去推送重点的内容。另外我发现周末10点使用会比平常9点较高,考虑周末大家休息会比较晚起床等因素,因此在周末的推送规则我就设置在10点左右进行。为了避免和其他应用卡在同一时间点推送,推送的时间不会卡的很准时,由程序自动设置在推送时间之后的5分钟左右进行发送。

      推送时间测试结果,可以参考

    1. 为了节省时间,我们要避免做一些没有意义的事情,比如:浪费时间去辩论,试图说服认知不同的人,让他们接受自己的观点;在一些重复的事情上浪费时间,没有事情自动化或外包;把时间浪费在效用低,且无法复用的事情上;参与低效甚至有伤害性的社交应酬;没有保持充足的睡眠,健康地生活;在某件事情上,花费了超长的时间(边际效益递减);上面是简单的总结,作者在微博中,对没一点有了更明细的说明:微博链接:https://weibo.com/5339148412/M2JSemaIe

      第3点,感受尤为深刻,特别是自己对于感情上,明明知道是没有结果,但是还是一直在持续不断的投入感情,浪费时间、金钱

  7. Aug 2022
  8. Mar 2022
  9. Jan 2022
  10. Apr 2021
  11. Feb 2021