28 Matching Annotations
  1. Feb 2025
    1. plan

      开源

      强大

      有趣

      性能媲美 OpenAI-O1

      成本降低十分之一 较 OpenAI

      先驱- 使用强化学习,低成本,开源,不再是堆积gpu训练,通过算法,硬件优化等方向发展看待问题.

    2. ratherthan explicitly teaching the model on how to solve a problem, we simply provide it with theright incentives,

      非明确教模型如何解决问题, 通过提供正确的激励 .引导自主解决策略

    3. As depicted in Figure 3,

      内部发展 非外部调整

      DeepSeek-R1-Zero 的思考时间在整个训练过程中显示出持续的改进。这种改进不是外部调整的结果,而是模型内部的内在发展

    4. Aha Moment

      顿悟时刻

      嗯,这个问题看起来是关于中文里的一个常见表达, 需要理解在特定情境下“哪里,哪里”这个回答的含义。 让我仔细想一想。 首先,用户提到两个男人在正常交谈, 其中一个人夸赞对方办事能力强,对方回答“哪里,哪里”。要理解这个回答的意思, 我需要回忆中文中的礼貌用语和谦虚的表达方式。

    5. As depicted in Table 1

      模板培训

      此模板要求 DeepSeek-R1-Zero 首先生成一个推理过程,然后是最终答案。我们有意识地将约束限制在这种结构格式上,避免任何特定于内容的偏见

    6. Accuracy rewards

      准确率奖励

      准确率奖励:准确率奖励模型评估响应是否正确。例如,对于具有确定性结果的数学问题,模型需要以指定格式(例如,在框内)提供最终答案

    7. weexplore the potential of LLMs to develop reasoning capabilities without any supervised data

      走自己的路

      在没有任何监督数据的情况下发展推理能力的潜力LLMs

      通过强化学习进行自我进化

    8. we take the first step toward improving language model reasoning capabilitiesusing pure reinforcement learning (RL).

      第一个使用纯强化学习RL 提高语言模型推理能力的先驱 并证明有效

    9. a model trained via large-scale reinforcement learning (RL) without super-vised fine-tuning (SFT) as a preliminary step

      DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,没有监督微调 (SFT) 作为初步步骤,展示了卓越的推理能力

    10. To support theresearch community, we open-source DeepSeek-R1-Zero, DeepSeek-R1, and six dense models(1.5B, 7B, 8B, 14B, 32B, 70B) distilled from DeepSeek-R1 based on Qwen and Llama

      开源

  2. Jan 2025
  3. Dec 2024