新加坡超级应用公司Grab近日在其工程博客上分享了自己开发语言模型的经验,指出现有的大语言模型在理解东南亚语言方面表现不佳。Grab的超级应用提供网约车、送餐、购物、金融服务等服务,覆盖新加坡、马来西亚、印度尼西亚、菲律宾、越南、泰国、柬埔寨和缅甸等国家,这些国家的文档通常使用不使用拉丁字母的脚本编写。
在执行客户身份验证等合规任务时,Grab 需要准确地从身份证、驾驶执照和登记证等文件中提取信息。尽管他们尝试了光学字符识别 (OCR) 系统,但 Grab 发现这些技术在处理不同的文档模板时效果不佳。
2025年,Grab开始探索是否可以使用大语言模型来解决这个问题。尽管一些强大的商业模型具有能力,但它们经常出错,在理解东南亚语言方面存在延迟,而开源的视觉大语言模型虽然效率更高,但仍然缺乏准确性。因此,Grab决定构建自己的视觉大语言模型,该模型可以矢量化图像,以便于文本提取。
Grab 选择阿里云的 Qwen2-VL2B 模型作为基础,因为它体积适中,支持东南亚语言,并且能够动态处理不同分辨率的图像。随后,Grab 从 Common Crawl 中提取了东南亚语言的内容,并构建了内部合成数据管道,以生成各种字体和背景下的文本图像。该团队使用低秩适配技术对 Qwen2-VL 进行了微调,在处理印尼语文档方面取得了良好的效果。
尽管在识别泰语和越南语方面仍存在挑战,但 Grab 最终决定进行全参数微调。通过训练模型学习东南亚语言独特的视觉模式,Grab 成功开发出一种轻量级的视觉大语言模型,其性能优于各种 OCR 工具和通用模型。Grab 表示,战略性地使用高质量数据可以使小型专业模型实现效率和效果。
未来,Grab 计划继续开发更多自己的模型,以扩展其文档处理技术。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
