每日人工智能资讯|谷歌 DeepMind 推出解耦式 DiLoCo：提升异步训练架构，容忍硬件故障-中国数智化转型网

谷歌 DeepMind 最近推出了名为 “解耦式 DiLoCo” 的新型分布式训练架构，这一创新旨在提高大规模人工智能模型的训练效率，并增强其在硬件故障情况下的鲁棒性。数智化转型网www.szhzxw.cn

传统的训练方式需要所有计算单元在进行梯度更新时进行紧密同步，这使得整个过程容易受到单个硬件故障的影响。为了解决这一问题，解耦式 DiLoCo 将训练过程分散到多个异步、故障隔离的 “计算孤岛” 中，使得每个计算单元可以独立进行训练，而不必等待其他单元。数智化转型网www.szhzxw.cn

这一架构的核心在于将训练任务分配到多个被称为 “学习单元” 的集群中。每个学习单元可以在本地进行多次梯度计算，然后再将压缩后的梯度信息传递给外部优化器进行汇总。由于这一过程是异步的，即使某个单元出现故障，其他单元仍可以继续训练，避免了传统方法中因单点故障导致的整体停滞。

通过实验证明，解耦式 DiLoCo 在高硬件故障率的情况下仍能维持 88% 的良好利用率，而标准的数据并行训练方法仅为 27%。此外，这种新架构将跨数据中心所需的带宽从 198 Gbps 大幅降低至 0.84 Gbps，使得在现有商业互联网基础设施下的全球分布式训练成为可能。数智化转型网www.szhzxw.cn

值得一提的是，解耦式 DiLoCo 还具备自愈能力。在进行混沌工程测试时，该系统能够在整个学习单元失效后继续训练，并在单元恢复后无缝重新整合。这种灵活性在多种硬件平台上同样适用，支持不同代数的 TPU 芯片在同一次训练中协同工作，从而延长了旧设备的使用寿命，并缓解了硬件更新过程中可能出现的容量瓶颈。数智化转型网www.szhzxw.cn

若您对人工智能感兴趣，可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数智化转型网小助手思思（17757154048，微信同号）