数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|Grab自研语言模型解决亚洲语言识别难题

人工智能资讯|Grab自研语言模型解决亚洲语言识别难题

新加坡超级应用公司Grab近日在其工程博客上分享了自己开发语言模型的经验,指出现有的大语言模型在理解东南亚语言方面表现不佳。Grab的超级应用提供网约车、送餐、购物、金融服务等服务,覆盖新加坡、马来西亚、印度尼西亚、菲律宾、越南、泰国、柬埔寨和缅甸等国家,这些国家的文档通常使用不使用拉丁字母的脚本编写。

在执行客户身份验证等合规任务时,Grab 需要准确地从身份证、驾驶执照和登记证等文件中提取信息。尽管他们尝试了光学字符识别 (OCR) 系统,但 Grab 发现这些技术在处理不同的文档模板时效果不佳。

2025年,Grab开始探索是否可以使用大语言模型来解决这个问题。尽管一些强大的商业模型具有能力,但它们经常出错,在理解东南亚语言方面存在延迟,而开源的视觉大语言模型虽然效率更高,但仍然缺乏准确性。因此,Grab决定构建自己的视觉大语言模型,该模型可以矢量化图像,以便于文本提取。

Grab 选择阿里云的 Qwen2-VL2B 模型作为基础,因为它体积适中,支持东南亚语言,并且能够动态处理不同分辨率的图像。随后,Grab 从 Common Crawl 中提取了东南亚语言的内容,并构建了内部合成数据管道,以生成各种字体和背景下的文本图像。该团队使用低秩适配技术对 Qwen2-VL 进行了微调,在处理印尼语文档方面取得了良好的效果。

尽管在识别泰语和越南语方面仍存在挑战,但 Grab 最终决定进行全参数微调。通过训练模型学习东南亚语言独特的视觉模式,Grab 成功开发出一种轻量级的视觉大语言模型,其性能优于各种 OCR 工具和通用模型。Grab 表示,战略性地使用高质量数据可以使小型专业模型实现效率和效果。

未来,Grab 计划继续开发更多自己的模型,以扩展其文档处理技术。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/101155.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部