人工智能资讯|蚂蚁集团推出多语言视觉大模型训练框架，高效识别文档伪造和逻辑矛盾-数智化转型网szhzxw.cn

近日，蚂蚁金服科技在香港金融科技节上推出了一项名为“多语言多模态大模型训练框架”的革命性技术。该框架旨在解决大模型在多语言环境中的应用瓶颈问题。随着人工智能技术的快速发展，大模型正逐渐成为各行各业提升效率的重要工具。然而，以英语为主的传统大模型在少数民族语言环境中往往表现不佳，经常面临“语言混乱”和推理信息混乱等问题，严重限制了其全球应用。

为了应对这一挑战，蚂蚁金服的研究团队开发了这一新框架，并在多元文化多语言视觉问答基准测试（CVQA）中取得了显著成果。该框架在埃及阿拉伯语、爪哇语、印尼语和巽他语等资源匮乏的少数民族语言上表现尤为出色，展现了出色的多语言识别能力，成功排名第一。

这一突破的核心在于创新的语言感知优化框架。该框架采用“用目标语言进行思考”的机制，结合细粒度的多维奖励策略和自动化数据解决方案，实现对少数民族语言的深入理解和处理。根据测试结果，与类似规模的开源模型相比，该框架在主流多语言视觉问答（Multilingual Visual Question Answering，VQA）基准测试中将准确率提高了约 9.5%，在某些任务中，甚至超越了 GPT-4o 和 Gemini-2.5-flash 等国际主流闭源模型，取得了总分最高的成绩。

在安全能力方面，蚂蚁金服还引入了图像安全框架，该框架结合了视觉分析和常识推理，用于检测伪造。它可以有效地识别图像中的视觉不一致和逻辑矛盾。该技术不仅可以定位被篡改区域，还可以进行可解释的分析，显着增强了数字内容的风险控制能力。

作为蚂蚁金服全球业务的核心技术，这两项能力在ZOLOZ文档认证产品（RealDoc）中进行了扩展，支持119种语言，高效处理多语言业务文档、合同和文档，涵盖保险理赔、征信、跨境贸易等场景。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然

人工智能资讯|蚂蚁集团推出多语言视觉大模型训练框架，高效识别文档伪造和逻辑矛盾

人工智能专题|中国AI专利最多的公司之一——腾讯

河北省制造强省建设领导小组印发《关于支持秦皇岛市电子信息产业发展的若干措施》的通知

如何避免大模型应用陷入“套壳”魔咒？

服务商资讯|蘑菇车联（MOGOX）中标新加坡首个L4级自动驾驶巴士官方项目

企业主数据治理体系框架是什么样的？企业主数据管理实施方法有哪些？

联系我们

微信扫一扫关注我们

人工智能资讯|AI一键变形PPT大师！Gemini Canvas 新功能推出，瞬间解放专业人士

人工智能资讯|Infosys 推出 Topaz Fabric：企业 IT 运营的智能平台

相关推荐

联系我们

微信扫一扫关注我们