2 Matching Annotations
  1. Last 7 days
    1. We replace persistent autograd graphs with stateless layer templates, binding weights dynamically as they stream in, eliminating persistent graph metadata while providing flexibility in scheduling.

      令人惊讶的是:研究团队摒弃了传统的持久化自动微分图,采用无状态层模板和动态权重绑定的创新方法,这不仅消除了图元数据开销,还提供了调度灵活性。这种架构层面的创新可能是实现单GPU训练百亿参数模型的关键突破。

  2. Jun 2021
    1. 自动微分机制

      自动微分将符号微分应用于最基本的运算(或称原子操作),如常数,幂函数,指数函数,对数函数,三角函数等基本函数,代入自变量的值得到其导数值,作为中间结果进行保留。然后再根据这些基本运算单元的求导结果计算出整个函数的导数值。