人工智能资讯|StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，带来全新的音频编辑体验-数智化转型网szhzxw.cn

音频创作的障碍已被彻底打破。国产AI独角兽StepStepFun AI于11月9日正式上线全球领先的LLM级音频编辑模型——Step-Audio-EditX，首次实现“自然语言指令编辑语音”的革命性体验。用户只需输入“把这句话改成川渝说唱歌手的傲慢语气”或“最后加个害羞的笑声”，模型就能精准调整声音、情感、节奏，甚至呼吸停顿，让语音编辑像编辑文档一样直观高效。

30亿参数，性能提升

Step-Audio-EditX 的核心突破在于其超高效的模型压缩技术。团队将原来的 130 亿参数模型细化为仅 30 亿，不仅大幅降低了部署成本，还实现了关键指标的突破。该模型支持零样本语音克隆——只需一个参考音频，无需目标人的训练数据，即可高保真再现其声音;它还支持多轮迭代编辑，允许用户连续发出详细的指令（如“温柔一点”或“笑声延长0.3秒”），逐渐接近想要的效果。

方言和情感，完美掌握

该模型对中文语境的理解尤其令人印象深刻，支持流利的普通话、英语、四川话和粤语。方言表达中的地域情感和语用习惯，自然而真实地呈现出来。在盲测中，测评人员一致认为其“川渝笑话的街头感”和“粤语颗粒的精致”远超同类产品。

挑战闭源商业模式，三项关键指标领先

根据AIbase获得的数据，Step-Audio-EditX在三个核心维度上优于Minimax、字节跳动豆包等闭源解决方案：

自然度评分：4.72/5（Minimax 4.51，豆包 4.38）

情绪准确率：93.7%（领先第二名6.2个百分点）

语音一致性：98.1%，几乎无损再现

爆款应用场景：从短视频到无障碍服务

这项技术正在催生新的内容形式：

短视频博主可以一键切换“开朗的女孩”和“讽刺的教官”声音;

有声读物创作者可以单独完成多个角色情感对话;

AI改造的川话喜剧视频，瞬间成为美式单口喜剧出口;

听障用户的语音合成系统现在具有“情感温暖”，不再冰冷和机械。

AIbase 认为，Step-Audio-EditX 的意义超越了工具升级——它正在重塑音频内容制作的逻辑。当声音不再是一经记录就固定的线性媒介，而是成为可以反复提炼的“活文本”，数百万创作者将获得前所未有的表达自由。接下来，如果 StepStepFun 开放 API 或集成到移动系统中，这把“AI 魔术剪刀”可能会真正进入每个人的口袋，让每一个声音都被重新构想。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn