近日,面壁智能联合清华大学及 OpenBMB 开源社区,正式发布并开源了中国首个基于华为昇腾平台训练的三值(1.58-bit)大模型 ——BitCPM-CANN。该模型在低比特大模型训练领域取得了重大突破,标志着中国在人工智能技术上的又一里程碑。数智化转型网www.szhzxw.cn
BitCPM-CANN 的推出,不仅展示了国产算力平台的强大实力,还实现了从量化算子到训练算法的全链路原生开发。该模型分为0.5B、1B、3B 和8B 四个尺寸,性能表现卓越,相较于同尺寸的全精度家族 MiniCPM4进行了逐项对照评测,结果令人振奋。BitCPM-CANN 在推理阶段能够释放约6倍的显存红利,这意味着一个8B 参数的模型能够轻松运行在当前主流旗舰手机上,为手机产业带来了极大的便利。
官方介绍,面壁智能基于 MindSpeed 与 Megatron-LM 搭建了完整的低比特训练底座,涵盖了环境适配、32K 长序列支持、并行策略、融合算子等工程体系。今后,所有面向昇腾的低比特训练工作都可以依托这一套公共基础设施。这不仅降低了开发门槛,也加快了技术的迭代速度。数智化转型网www.szhzxw.cn
为了进一步推动这一技术的应用,BitCPM-CANN 的所有模型权重均已开源,用户可以通过 HuggingFace 和 ModelScope 平台获取。这为开发者提供了一个极具潜力的工具,鼓励更多的创新应用在 AI 领域涌现。
综上所述,BitCPM-CANN 的发布标志着中国在 AI 大模型训练领域迈出了坚实的一步,为未来的智能应用铺平了道路。数智化转型网www.szhzxw.cn
若您对人工智能感兴趣,可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数智化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数智化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数智化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自数智化转型网,版权归作者所有。文章内容仅代表作者独立观点,不代表数智化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

本文由数智化转型网(www.szhzxw.cn)转载,编辑/翻译:数智化转型网(Professionalism Achieves Leadership 专业造就领导者)白龙
