19 Matching Annotations
  1. Jun 2026
    1. the next evolution of video generation may also be systems that can plan, generate, edit, critique, and iterate across an entire creative task

      大多数人认为视频生成技术的进步主要体现在单次输出的质量和效率上,但作者认为真正的进化将是能够进行多轮推理和规划的系统,类似于AI编程的发展路径。这挑战了人们对视频生成技术发展方向的普遍认知,暗示了从单次输出到多轮推理的转变。

    2. In the near term, the next Sora won't be a better video model, but a video agent.

      大多数人认为视频模型的进步将主要体现在生成质量、一致性和提示遵循度等技术指标的提升上,但作者认为真正的突破将是视频代理(video agent)的出现,这些代理能够规划、生成、编辑、批评和迭代整个创作任务。这挑战了人们对视频生成技术发展路径的主流预期。

  2. Apr 2026
    1. 支持图像、视频、音频多模态参考,锁定外观和音色。最多支持 5 个视频主体参考,官方称业内最多。

      令人惊讶的是:Wan2.7-Video一次可以同时控制多达5个不同的视频主体,每个都有独特的外观和声音,这在AI视频生成领域是前所未有的能力。这意味着创作者可以创建复杂的多人场景,而不必担心角色混淆或一致性丢失。

    2. 让你能像导演一样控制 AI 视频的每个环节

      大多数人认为AI视频生成工具只能简单生成内容,而作者认为Wan2.7-Video已经进化为完整的导演工具套件,允许用户对视频进行全方位控制,这挑战了人们对AI视频生成工具只能单向输出的传统认知。

    1. current approaches often rely on decoupled trigger-response pipelines or are limited to captioning-style narration, reducing their effectiveness for open-ended question answering and long-horizon interaction

      大多数人认为现有的视频大模型可以通过简单的触发-响应管道或描述式叙述来处理实时视频流,但作者认为这种方法对于开放式问答和长时程交互效果有限。这是一个反直觉的观点,因为它挑战了当前视频处理领域的常规做法,暗示需要更集成的端到端方法来真正实现实时视频理解。

    1. The cost of understanding what happens in a video has dropped by a factor of roughly 40, while the quality of that understanding has improved dramatically.

      大多数人认为AI视频分析仍处于早期阶段且成本高昂,但作者指出AI视频分析成本已大幅下降40倍,质量反而提升。这一反直觉观点暗示视频分析可能已经跨越了实用性的门槛,将催生全新的应用类别,挑战了人们对AI视频处理能力的传统认知。

  3. Aug 2024
  4. Jul 2024
  5. Jun 2024
  6. May 2024
  7. Feb 2024
    1. This technical report focuses on (1) our method for turning visual data of all types into a unified representation that enables large-scale training of generative models, and (2) qualitative evaluation of Sora’s capabilities and limitations. Model and implementation details are not included in this report.

      AI to generate video images.

  8. Jun 2023
  9. Jul 2020
  10. Jun 2020
  11. May 2020
  12. Aug 2019
  13. Jul 2018