Unlike traditional GPU-centric systems, MegaTrain stores parameters and optimizer states in host memory (CPU memory) and treats GPUs as transient compute engines.
令人惊讶的是:这项研究彻底颠覆了传统GPU训练范式,将百亿参数模型的训练重心从GPU转移到CPU内存,这打破了人们对GPU作为AI训练核心的固有认知。这种'GPU仅作为计算引擎'的理念可能重新定义大模型训练的基础架构。