人工智能资讯|Grab自研语言模型解决亚洲语言识别难题-数智化转型网szhzxw.cn

新加坡超级应用公司Grab近日在其工程博客上分享了自己开发语言模型的经验，指出现有的大语言模型在理解东南亚语言方面表现不佳。Grab的超级应用提供网约车、送餐、购物、金融服务等服务，覆盖新加坡、马来西亚、印度尼西亚、菲律宾、越南、泰国、柬埔寨和缅甸等国家，这些国家的文档通常使用不使用拉丁字母的脚本编写。

在执行客户身份验证等合规任务时，Grab 需要准确地从身份证、驾驶执照和登记证等文件中提取信息。尽管他们尝试了光学字符识别（OCR）系统，但 Grab 发现这些技术在处理不同的文档模板时效果不佳。

2025年，Grab开始探索是否可以使用大语言模型来解决这个问题。尽管一些强大的商业模型具有能力，但它们经常出错，在理解东南亚语言方面存在延迟，而开源的视觉大语言模型虽然效率更高，但仍然缺乏准确性。因此，Grab决定构建自己的视觉大语言模型，该模型可以矢量化图像，以便于文本提取。

Grab 选择阿里云的 Qwen2-VL2B 模型作为基础，因为它体积适中，支持东南亚语言，并且能够动态处理不同分辨率的图像。随后，Grab 从 Common Crawl 中提取了东南亚语言的内容，并构建了内部合成数据管道，以生成各种字体和背景下的文本图像。该团队使用低秩适配技术对 Qwen2-VL 进行了微调，在处理印尼语文档方面取得了良好的效果。

尽管在识别泰语和越南语方面仍存在挑战，但 Grab 最终决定进行全参数微调。通过训练模型学习东南亚语言独特的视觉模式，Grab 成功开发出一种轻量级的视觉大语言模型，其性能优于各种 OCR 工具和通用模型。Grab 表示，战略性地使用高质量数据可以使小型专业模型实现效率和效果。

未来，Grab 计划继续开发更多自己的模型，以扩展其文档处理技术。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然

人工智能资讯|Grab自研语言模型解决亚洲语言识别难题

人工智能资讯|Anthropic获得25亿美元信贷支持，年收入激增至20亿美元

人民时评：从以旧换新看绿色消费——消费新亮点发展新赛道

Husqvarna、霍尼韦尔、Ally Financial、亨高4家企业在生成式人工智能上的应用案例

数据成为数字时代重要战略资源经过哪些历程？

企业出海面对风险时的对应措施

联系我们

微信扫一扫关注我们

人工智能资讯|文心魔漫功能上线：一句话，一张图片，两分钟生成连载！每个人都可以成为漫画家

人工智能资讯|战略新增长点！地图巨头高德启动Robotaxi业务

相关推荐

联系我们

微信扫一扫关注我们