数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|蚂蚁集团推出多语言视觉大模型训练框架,高效识别文档伪造和逻辑矛盾

人工智能资讯|蚂蚁集团推出多语言视觉大模型训练框架,高效识别文档伪造和逻辑矛盾

近日,蚂蚁金服科技在香港金融科技节上推出了一项名为“多语言多模态大模型训练框架”的革命性技术。该框架旨在解决大模型在多语言环境中的应用瓶颈问题。随着人工智能技术的快速发展,大模型正逐渐成为各行各业提升效率的重要工具。然而,以英语为主的传统大模型在少数民族语言环境中往往表现不佳,经常面临“语言混乱”和推理信息混乱等问题,严重限制了其全球应用。

为了应对这一挑战,蚂蚁金服的研究团队开发了这一新框架,并在多元文化多语言视觉问答基准测试(CVQA)中取得了显著成果。该框架在埃及阿拉伯语、爪哇语、印尼语和巽他语等资源匮乏的少数民族语言上表现尤为出色,展现了出色的多语言识别能力,成功排名第一。

这一突破的核心在于创新的语言感知优化框架。该框架采用“用目标语言进行思考”的机制,结合细粒度的多维奖励策略和自动化数据解决方案,实现对少数民族语言的深入理解和处理。根据测试结果,与类似规模的开源模型相比,该框架在主流多语言视觉问答(Multilingual Visual Question Answering,VQA)基准测试中将准确率提高了约 9.5%,在某些任务中,甚至超越了 GPT-4o 和 Gemini-2.5-flash 等国际主流闭源模型,取得了总分最高的成绩。

在安全能力方面,蚂蚁金服还引入了图像安全框架,该框架结合了视觉分析和常识推理,用于检测伪造。它可以有效地识别图像中的视觉不一致和逻辑矛盾。该技术不仅可以定位被篡改区域,还可以进行可解释的分析,显着增强了数字内容的风险控制能力。

作为蚂蚁金服全球业务的核心技术,这两项能力在ZOLOZ文档认证产品(RealDoc)中进行了扩展,支持119种语言,高效处理多语言业务文档、合同和文档,涵盖保险理赔、征信、跨境贸易等场景。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/101145.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部