数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|全新多语种编码器 mmBERT:超越 XLM-R,提升速度与效率

人工智能资讯|全新多语种编码器 mmBERT:超越 XLM-R,提升速度与效率

近日,约翰霍普金斯大学的一组研究人员推出了 mmBERT,这是一款新型的多语种编码器,旨在填补当前多语种自然语言处理领域的空白。该模型在多个任务上超越了 XLM-R,且在速度上比以往模型提升了2到4倍,为多语种应用的研究和开发提供了更强大的支持。

mmBERT 的架构分为两种主要配置:基础模型和小型模型。基础模型拥有22层变换器,隐藏层维度为1152,总参数量约为3.07亿,而小型模型的参数量则为1.4亿。mmBERT 采用了先进的 Gemma2分词器,支持256k 的词汇量,利用旋转位置嵌入(RoPE)和 FlashAttention2技术,显著提高了处理效率。同时,该模型的序列长度从1024个令牌扩展到8192个令牌,意味着其可以处理更长的上下文信息。

在训练数据方面,mmBERT 使用了来自多个来源的3万亿个令牌,覆盖了1833种语言。其中,英语在整个语料库中仅占10% 至34%。训练分为三个阶段:预训练、阶段中训练和衰减阶段。在每个阶段中,模型逐步接触更多的语言和更高质量的数据,这种方法有助于提高低资源语言的表现。

mmBERT 在多个基准测试中展现了其卓越的性能。在英语自然语言理解(GLUE)任务中,mmBERT 的基础模型得分为86.3,超越了 XLM-R 的83.3。在多语种自然语言理解(XTREME)任务中,mmBERT 的得分为72.8,也高于 XLM-R 的70.4。此外,在嵌入任务和代码检索任务中,mmBERT 同样表现出色,显示出其在多种应用场景中的潜力。

通过对低资源语言的特别关注,mmBERT 确保这些语言在训练过程中也能得到充分的利用。在多项基准测试中,mmBERT 在法罗语和提格雷尼亚语等低资源语言的表现均优于其他大型模型,证明了编码器模型在经过精心训练后,可以有效应对低资源场景的挑战。

mmBERT 不仅提升了多语种处理的速度和效率,还为下一代的多语种自然语言处理系统奠定了坚实的基础。它以高效、开放的方式重新定义了多语种编码器的潜力,标志着一个新时代的到来。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)萍水

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/93403.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部