人工智能资讯|全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答-数智化转型网szhzxw.cn

最近，一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上，通过一种名为 GRPO（Group Relative Policy Optimization）的强化学习方法进行优化，显示出在音频问答任务中的出色表现。

Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩，涵盖了声音、语音和音乐等多个音频类别。研究团队指出，尽管模型的训练涉及音频数据，但其性能提升的主要原因竟然是文本推理能力的增强。这一发现让人惊讶，因为即使仅使用文本数据进行微调，模型的表现也取得了显著的提升。

为此，研究人员利用 ChatGPT 生成了大量音频问答数据，创建了两个新的数据集:AVQA-GPT 和 VGGS-GPT。这两个数据集分别包含4万和18.2万条音频数据，进一步提升了 Omni-R1的准确性。在训练过程中，Omni-R1的表现超过了以往的基线模型，包括 SARI，平均得分达到71.3%。研究表明，尽管使用音频进行微调稍微优于仅使用文本，但后者的贡献同样不可忽视。

GRPO 方法的一个关键优点是其内存效率，使得在48GB 的 GPU 上能够有效运行。该方法通过比较分组输出，基于答案的正确性来进行奖励，而无需使用复杂的价值函数。研究人员通过扩展 Qwen-2Audio 的音频描述来增加训练数据，这种策略使得模型在多模态任务上更具竞争力。

Omni-R1不仅在音频问答领域设立了新的标杆，还展示了文本推理在音频模型性能中的重要性。未来，研究团队承诺将发布所有相关资源，以便更多研究人员和开发者能够利用这一成果。

论文:https://arxiv.org/abs/2505.09439

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然

人工智能资讯|全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

2024零售业十大关键词之一：平替消费

2025福建企业100强全榜单

数据相关专题|数据分析有哪些分类？

人工智能资讯|Repello AI 成功融资 120 万美元，推动生成式 AI 安全防护创新

人工智能资讯|一文看懂DeepSeek如何火爆全球？

联系我们

微信扫一扫关注我们

人工智能资讯|美团AI编程工具“NoCode”即将上线，对话式开发工具对标Lovable

人工智能资讯|马斯克与微软携手，Grok人工智能模型将登陆Azure平台

相关推荐

联系我们

微信扫一扫关注我们