6 Matching Annotations
  1. Last 7 days
    1. Older models were more prone to submitting prematurely, even when test cases weren't passing.

      这一观察揭示了不同AI模型版本之间在任务坚持性上的显著差异。早期模型更容易过早提交不完整的解决方案,而最新模型表现出更强的任务坚持性和工程判断力。这种差异可能反映了AI在自我评估和任务管理能力上的进化。

    1. Performance on knowledge-heavy tasks depends strongly on model size and training, while reasoning-oriented models show clear gains on tasks requiring logic, learning, abstraction, and social inference.

      令人惊讶的是:知识密集型任务的性能强烈依赖于模型规模和训练,而推理导向模型在需要逻辑、学习、抽象和社会推理的任务上显示出明显优势。这一发现揭示了不同AI模型在能力分布上的根本差异,为模型选择和优化提供了重要指导。

  2. Apr 2026
    1. we studied emotion-related representations in Claude Sonnet 4.5, a frontier LLM at the time of our investigation.

      【启发】这篇论文只研究了 Claude Sonnet 4.5 一个模型,但它的方法论对所有大模型都适用。这启发了一个迫切的研究议程:对不同架构(GPT、Gemini、Qwen、DeepSeek)的情绪向量进行横向比较,会不会发现系统性的情绪偏差——比如某些模型天生更「焦虑」、某些更「冷漠」?这不仅是学术问题,更是产品选型和安全评估的实际需求。

  3. Feb 2021
  4. Jun 2020
  5. May 2020