StepFun AI 最近发布了其开源音频编辑模型 Step-Audio-EditX,这是一种创新的 3B 参数模型,使音频编辑与文本编辑一样直接和可控。通过将音频信号编辑任务转换为令牌级作,Step-Audio-EditX 使富有表现力的语音编辑变得更加简单。
目前,大多数零样本文本转语音 (TTS) 系统对情感、风格、口音和语气的控制有限。尽管它们可以生成自然的语音,但往往无法精确满足用户需求。之前的研究试图通过额外的编码器和复杂的架构来分离这些因素,而 Step-Audio-EditX 则通过调整数据和训练目标来实现控制。
Step-Audio-EditX 使用双码本分词器,将语音映射到两个令牌流中:一个以 16.7Hz 记录的语言流,另一个以 25Hz 记录的语义流。该模型在文本和音频标记的混合语料库上进行训练,使其能够同时处理文本和音频标记。
该模型的关键是使用大边距学习,随后的训练阶段使用合成的大边距三元组和四元组来增强模型的性能。凭借来自约 60,000 名扬声器的高质量数据,该模型在情感和风格编辑方面表现出出色的性能。此外,该模型还使用人类评分和偏好数据进行强化学习,以提高语音生成的自然性和准确性。
为了评估模型的有效性,研究团队引入了 Step-Audio-Edit-Test 基准测试,使用 Gemini2.5Pro 作为评估工具。测试结果显示,经过多轮编辑后,情感和说话风格编辑的准确性显着提高。此外,Step-Audio-EditX可以有效增强其他闭源TTS系统的音频质量,为音频编辑研究带来新的可能性。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
