每日人工智能资讯|字节跳动联合港科大发布MMProLong：长文档LMM训练问答对效率远超OCR转录-数智化转型网

5月24日，字节跳动Seed团队联合香港科技大学发布了一项针对多模态大语言模型（LMM）长文档训练的最新研究成果。研究人员基于阿里巴巴开源的Qwen2.5-VL构建了名为 MMProLong 的新模型，并在长文档处理效率上取得突破性进展。该研究不仅打破了多模态模型长文本训练的传统路径，更揭示了数据组织形式对模型长上下文能力的关键影响。数智化转型网www.szhzxw.cn

这项研究的核心发现直击当前LMM训练的痛点:在多模态长文档训练中，针对特定目标进行问答对（QA）训练的效果显著优于传统的字符识别（OCR）转录。实验表明，纯文本转录作为训练任务非但无法提升模型在长上下文中的定位能力，反而会导致性能下降;而通过独立模型（如字节跳动Seed2.0）生成的长上下文问答对进行训练，则能引导模型在冗长干扰信息中精准检索目标段落。数智化转型网www.szhzxw.cn

基于这一优化策略，MMProLong 在仅 128，000个Token 的有限训练预算下，展现出极强的长文本稳定性，在输入长度达到 256，000乃至512，000个Token 时依然没有出现性能崩溃，并在 MMLongBench 和 MM-NIAH（大海捞针）基准测试中大幅超越 InternVL3-38B 和Gemma3-27B等体量更大的开源模型。此外，MMProLong 的多模态能力还成功迁移至未经专门训练的长视频理解任务中，并在Qwen3-VL-8B模型上同样验证了该策略 water-proof 的有效性。数智化转型网www.szhzxw.cn

此项研究为当前大模型行业提供了一条不同于 DeepSeek（通过视觉信息高度压缩与重新排序升级架构）的演进路线，证明了通过优化训练数据结构而非改动底层架构，同样能实现长上下文能力的跨越式提升，为未来更长模态、多步骤智能体的开发开辟了更为经济、高效的技术可行性。

若您对人工智能感兴趣或为人工智能创始人，可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数智化转型网小助手思思（17757154048，微信同号）

若您为人工智能服务商，可添加数智化转型网小助手Jasper，加入人工智能行业交流群。

声明：本文来自数智化转型网，版权归作者所有。文章内容仅代表作者独立观点，不代表数智化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。

本文由数智化转型网（www.szhzxw.cn）转载，编辑/翻译：数智化转型网（Professionalism Achieves Leadership 专业造就领导者）白龙

每日人工智能资讯|字节跳动联合港科大发布MMProLong：长文档LMM训练问答对效率远超OCR转录

主数据是什么？主数据主要的业务场景有哪些？

广东省经贸系统“五五”普法中期进展情况总结——坚持普治并举，增强普法实效

药石科技浙江晖石生产基地首个多肽GMP中试车间正式建成投运

每日人工智能资讯｜人工智能驱动情绪经济新增长，AI情感交互撬动千亿级消费市场

杰克科技股份有限公司未来工厂建设项目实施效果如何？

联系我们

微信扫一扫关注我们

每日人工智能资讯 | 企业AI Agent遭遇可靠性瓶颈，行业进入重建期

每日人工智能资讯|​Zoom 对Anthropic 的投资回报超十亿美元

相关推荐

联系我们

微信扫一扫关注我们

每日人工智能资讯|Zoom 对Anthropic 的投资回报超十亿美元