数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|像编辑 Word 文档一样编辑音频?StepXenon 发布 30 亿参数音频编辑模型 Step-Audio-EditX

人工智能资讯|像编辑 Word 文档一样编辑音频?StepXenon 发布 30 亿参数音频编辑模型 Step-Audio-EditX

StepFun AI 最近发布了其开源音频编辑模型 Step-Audio-EditX,这是一种创新的 3B 参数模型,使音频编辑与文本编辑一样直接和可控。通过将音频信号编辑任务转换为令牌级作,Step-Audio-EditX 使富有表现力的语音编辑变得更加简单。

目前,大多数零样本文本转语音 (TTS) 系统对情感、风格、口音和语气的控制有限。尽管它们可以生成自然的语音,但往往无法精确满足用户需求。之前的研究试图通过额外的编码器和复杂的架构来分离这些因素,而 Step-Audio-EditX 则通过调整数据和训练目标来实现控制。

Step-Audio-EditX 使用双码本分词器,将语音映射到两个令牌流中:一个以 16.7Hz 记录的语言流,另一个以 25Hz 记录的语义流。该模型在文本和音频标记的混合语料库上进行训练,使其能够同时处理文本和音频标记。

该模型的关键是使用大边距学习,随后的训练阶段使用合成的大边距三元组和四元组来增强模型的性能。凭借来自约 60,000 名扬声器的高质量数据,该模型在情感和风格编辑方面表现出出色的性能。此外,该模型还使用人类评分和偏好数据进行强化学习,以提高语音生成的自然性和准确性。

为了评估模型的有效性,研究团队引入了 Step-Audio-Edit-Test 基准测试,使用 Gemini2.5Pro 作为评估工具。测试结果显示,经过多轮编辑后,情感和说话风格编辑的准确性显着提高。此外,Step-Audio-EditX可以有效增强其他闭源TTS系统的音频质量,为音频编辑研究带来新的可能性。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/101820.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部