在文本生成和图像生成被大模型彻底重塑的时代,语音编辑仍然是最难“像写文字一样”直观作的领域。近日,StepFun AI 发布了一个全新的开源项目 Step-Audio-EditX,正在改变这一局面。该模型基于 30 亿参数音频语言模型(Audio LLM),首次将语音编辑转化为文本标记级别的可控作,而不是传统的波形信号处理任务。
根据该团队的最新论文 arXiv:2511.03601,Step-Audio-EditX 旨在让开发人员“直接编辑语音的情感、语气、风格,甚至呼吸声,就像编辑文本中的句子一样”。
从“模仿声音”到“精准控制”
目前,大多数零样本 TTS 系统只能从简短的参考音频中复制情绪、口音和音色,听起来很自然,但缺乏控制。文本中的样式提示经常被忽略,尤其是在结果不稳定的跨语言和跨样式任务中。
Step-Audio-EditX 采用了完全不同的方法——它不依赖复杂的解开编码器结构,而是通过改变数据结构和训练目标来实现可控性。该模型从大量文本相同但属性差异显著的语音对和语音三元组中学习,从而掌握如何在不改变文本的情况下调整情绪、风格和副语言信号。
两个 Codebook 分词器和 3B 音频 LLM 架构
Step-Audio-EditX 延续了 Step-Audio 的两个码本分词器(Dual Codebook Tokenizer):
- 语言流:采样率 16.7Hz,包含 1024 个标记;
- 语义流:采样率 25Hz,包含 4096 个 token;
- 两个流以 2:3 的比例交错,保留了语音中的韵律和情感特征。
在此基础上,研究团队构建了一个紧凑的 30 亿参数音频 LLM。该模型使用文本 LLM 进行初始化,并在混合语料库上进行训练(文本与音频标记的比例为 1:1)。它可以读取文本或音频标记,并始终输出双码本标记序列。
音频重建由独立的解码器处理:扩散变压器流匹配模块预测梅尔频谱图,BigVGANv2声码器将其转换为波形。整个模块经过 200,000 小时的高质量语音训练,显着提高了音色和韵律的自然度。
大利润学习和合成数据策略
Step-Audio-EditX 的一项关键创新是“大边距学习”。该模型在三元组和四元组样本上进行训练,学习在保持文本不变的同时在“显着不同”的语音属性之间进行转换。
该团队使用了涵盖中文、英语、粤语和四川方言的 60,000 名说话者的数据集,并构建了合成三连音以增强情感和风格控制。每个样本由专业配音演员录制的 10 秒片段组成,由 StepTTS 生成中性和情感版本,然后通过人类和模型评估选择高质量的样本。
副语言(如笑声、呼吸声、填充停顿)编辑基于NVSpeech数据集,通过克隆和标注实现时间监督,无需额外的边距模型。
SFT + PPO:让模型理解指令
培训分为两个阶段:
- 监督微调 (SFT):模型以统一的聊天格式同时学习TTS和编辑任务;
- 强化学习 (PPO):通过奖励模型优化对自然语言指令的响应。
奖励模型使用 SFT 检查点初始化,并使用 Bradley-Terry 损失在大保证金偏好对上进行训练,直接在代币级别计算奖励,无需解码波形。然后,PPO 结合了 KL 惩罚项来平衡音频质量和偏差。
步进音频编辑测试:AI评估标准
为了量化控制能力,团队提出了 Step-Audio-Edit-Test 基准测试,以 Gemini2.5Pro 为评测模型,从情感、风格和副语言特征三个维度进行评估。
结果显示:
- 中文情绪准确率从57.0%提高到77.7%;
- 样式准确率从 41.6% 提高到 69.2%;
- 英语结果显示出类似的表现。
副语言编辑的平均分也从 1.91 上升到 2.89,接近主流商业系统的水平。更令人惊讶的是,Step-Audio-EditX 为 GPT-4o mini TTS、ElevenLabs v2 和 Douba Seed TTS2.0 等闭源系统带来了显着的改进。
Step-Audio-EditX 代表了可控语音合成的真正飞跃。它摒弃了传统的波形级信号运算,转而使用离散的 token,结合大边距学习和强化优化,让语音编辑的体验首次接近文本编辑的流畅性。
在技术和开放性方面,StepFun AI 选择了全栈开源(包括模型权重和训练代码),大大降低了语音编辑研究的门槛。这意味着未来的开发人员可以精确控制语音的情感、语气和副语言特征,就像编辑文本一样。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
