人工智能资讯|像编辑 Word 文档一样编辑音频？StepXenon 发布 30 亿参数音频编辑模型 Step-Audio-EditX-数智化转型网szhzxw.cn

StepFun AI 最近发布了其开源音频编辑模型 Step-Audio-EditX，这是一种创新的 3B 参数模型，使音频编辑与文本编辑一样直接和可控。通过将音频信号编辑任务转换为令牌级作，Step-Audio-EditX 使富有表现力的语音编辑变得更加简单。

目前，大多数零样本文本转语音（TTS）系统对情感、风格、口音和语气的控制有限。尽管它们可以生成自然的语音，但往往无法精确满足用户需求。之前的研究试图通过额外的编码器和复杂的架构来分离这些因素，而 Step-Audio-EditX 则通过调整数据和训练目标来实现控制。

Step-Audio-EditX 使用双码本分词器，将语音映射到两个令牌流中：一个以 16.7Hz 记录的语言流，另一个以 25Hz 记录的语义流。该模型在文本和音频标记的混合语料库上进行训练，使其能够同时处理文本和音频标记。

该模型的关键是使用大边距学习，随后的训练阶段使用合成的大边距三元组和四元组来增强模型的性能。凭借来自约 60,000 名扬声器的高质量数据，该模型在情感和风格编辑方面表现出出色的性能。此外，该模型还使用人类评分和偏好数据进行强化学习，以提高语音生成的自然性和准确性。

为了评估模型的有效性，研究团队引入了 Step-Audio-Edit-Test 基准测试，使用 Gemini2.5Pro 作为评估工具。测试结果显示，经过多轮编辑后，情感和说话风格编辑的准确性显着提高。此外，Step-Audio-EditX可以有效增强其他闭源TTS系统的音频质量，为音频编辑研究带来新的可能性。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然

人工智能资讯|像编辑 Word 文档一样编辑音频？StepXenon 发布 30 亿参数音频编辑模型 Step-Audio-EditX

人工智能专题系列文章|“职场周报自动生成+同步Agent”核心技能的实际应用

2023江西服务业民营企业20强

珠江三角洲地区改革发展规划纲要——再创体制机制新优势

每个企业规模不同，需求也不同。『业务链流程的风险管理』有不同的服务方式吗？企业如何选择适合自己的『业务链流程的风险管理』？

关于2020年宁波市优质企业兼并重组拟补助项目的公示

联系我们

微信扫一扫关注我们

人工智能资讯|OpenAI 推出 GPT-5-Codex-Mini：面向开发人员的轻量级、快速且经济高效的模型

人工智能资讯|StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，带来全新的音频编辑体验

相关推荐

联系我们

微信扫一扫关注我们