数智化转型网szhzxw.cn 人工智能资讯 每日人工智能资讯|谷歌 DeepMind 推出解耦式 DiLoCo:提升异步训练架构,容忍硬件故障

每日人工智能资讯|谷歌 DeepMind 推出解耦式 DiLoCo:提升异步训练架构,容忍硬件故障

谷歌 DeepMind 最近推出了名为 “解耦式 DiLoCo” 的新型分布式训练架构,这一创新旨在提高大规模人工智能模型的训练效率,并增强其在硬件故障情况下的鲁棒性。数智化转型网www.szhzxw.cn

传统的训练方式需要所有计算单元在进行梯度更新时进行紧密同步,这使得整个过程容易受到单个硬件故障的影响。为了解决这一问题,解耦式 DiLoCo 将训练过程分散到多个异步、故障隔离的 “计算孤岛” 中,使得每个计算单元可以独立进行训练,而不必等待其他单元。数智化转型网www.szhzxw.cn

这一架构的核心在于将训练任务分配到多个被称为 “学习单元” 的集群中。每个学习单元可以在本地进行多次梯度计算,然后再将压缩后的梯度信息传递给外部优化器进行汇总。由于这一过程是异步的,即使某个单元出现故障,其他单元仍可以继续训练,避免了传统方法中因单点故障导致的整体停滞。

通过实验证明,解耦式 DiLoCo 在高硬件故障率的情况下仍能维持 88% 的良好利用率,而标准的数据并行训练方法仅为 27%。此外,这种新架构将跨数据中心所需的带宽从 198 Gbps 大幅降低至 0.84 Gbps,使得在现有商业互联网基础设施下的全球分布式训练成为可能。数智化转型网www.szhzxw.cn

值得一提的是,解耦式 DiLoCo 还具备自愈能力。在进行混沌工程测试时,该系统能够在整个学习单元失效后继续训练,并在单元恢复后无缝重新整合。这种灵活性在多种硬件平台上同样适用,支持不同代数的 TPU 芯片在同一次训练中协同工作,从而延长了旧设备的使用寿命,并缓解了硬件更新过程中可能出现的容量瓶颈。数智化转型网www.szhzxw.cn

若您对人工智能感兴趣,可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数智化转型网小助手思思(17757154048,微信同号)

思思微信二维码

若您为人工智能服务商,可添加数智化转型网小助手Nora,加入人工智能行业交流群。

Nora微信二维码

若您为人工智能创业者,可添加数智化转型网社群主理人Carina,加入人工智能创业交流群。

Carina微信二维码

声明:本文来自数智化转型网,版权归作者所有。文章内容仅代表作者独立观点,不代表数智化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

底部图片
免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/117020.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部