中国的AI翻译技术达到了新的高度。东北大学“NiuTrans”团队正式开源其最新大模型NiuTrans.LMT(Large-scale Multilingual Translation),实现60种语言、234个翻译方向全覆盖。不仅搭建了以中英文为双核的全球语言桥梁,还在藏语、阿姆哈拉语等29种资源匮乏语言方面取得了重大突破,向全球语言平等迈出了关键一步。
双中心架构,打破“英国霸权”
与大多数以英语为唯一枢纽的翻译模式不同,NiuTrans.LMT采用中英双中心设计,支持中文↔ 58种语言和英语↔ 59种语言之间的高质量直接翻译,避免了“中文→英文→次要语言”带来的二次意义损失。这种架构特别有利于“一带一路”沿线国家与讲中文的人之间的直接交流,促进了无需中介的跨文化互动。
三层语言覆盖,兼顾效率与公平
该模型精确划分了语言资源级别:
13种高资源语言(如法语、阿拉伯语、西班牙语):翻译流畅度与人类水平相当;
18种中等资源语言(如印地语和芬兰语):专业术语和语法结构高度准确;
29种低资源语言(包括藏语、斯瓦希里语、孟加拉语):通过数据增强和迁移学习,从“不可翻译”到“可用翻译”的飞跃。
两阶段训练,性能超越FLORES-200
NiuTrans.LMT在权威多语言基准FLORES-200上表现出色,在开源模型中一直排名第一。它的成功源于创新的两阶段培训流程:
持续预训练(CPT):在 900 亿个标记的多语言语料库上均匀学习,确保少数民族语言不会黯然失色;
监督微调 (SFT):集成来自 FLORES-200 和 WMT(覆盖 117 个方向的 567,000 个样本)的高质量并行语料库,以提高翻译准确性和风格一致性。
四尺度开源,涵盖研究到商业用途
为满足不同场景需求,团队同步开源了 0.6B、1.7B、4B 和 8B 四种模型参数尺度,均可在 GitHub 和 Hugging Face 上免费下载。轻量级版本可以运行在消费级GPU上,适合移动部署;8B 版本面向企业级高精度翻译场景,支持 API 集成和私有化部署。
AIbase认为,NiuTrans.LMT的发布不仅是一项技术成果,更是“保护语言多样性”的实际行动。当AI能够准确翻译藏族诗词、非洲谚语或北欧古文时,科技才真正拥有了人性的温暖。东北大学的开源计划正在为全球没有语言障碍的数字未来奠定基础。
若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
