音频创作的障碍已被彻底打破。国产AI独角兽StepStepFun AI于11月9日正式上线全球领先的LLM级音频编辑模型——Step-Audio-EditX,首次实现“自然语言指令编辑语音”的革命性体验。用户只需输入“把这句话改成川渝说唱歌手的傲慢语气”或“最后加个害羞的笑声”,模型就能精准调整声音、情感、节奏,甚至呼吸停顿,让语音编辑像编辑文档一样直观高效。
30亿参数,性能提升
Step-Audio-EditX 的核心突破在于其超高效的模型压缩技术。团队将原来的 130 亿参数模型细化为仅 30 亿,不仅大幅降低了部署成本,还实现了关键指标的突破。该模型支持零样本语音克隆——只需一个参考音频,无需目标人的训练数据,即可高保真再现其声音;它还支持多轮迭代编辑,允许用户连续发出详细的指令(如“温柔一点”或“笑声延长0.3秒”),逐渐接近想要的效果。
方言和情感,完美掌握
该模型对中文语境的理解尤其令人印象深刻,支持流利的普通话、英语、四川话和粤语。方言表达中的地域情感和语用习惯,自然而真实地呈现出来。在盲测中,测评人员一致认为其“川渝笑话的街头感”和“粤语颗粒的精致”远超同类产品。
挑战闭源商业模式,三项关键指标领先
根据AIbase获得的数据,Step-Audio-EditX在三个核心维度上优于Minimax、字节跳动豆包等闭源解决方案:
自然度评分:4.72/5(Minimax 4.51,豆包 4.38)
情绪准确率:93.7%(领先第二名6.2个百分点)
语音一致性:98.1%,几乎无损再现
爆款应用场景:从短视频到无障碍服务
这项技术正在催生新的内容形式:
短视频博主可以一键切换“开朗的女孩”和“讽刺的教官”声音;
有声读物创作者可以单独完成多个角色情感对话;
AI改造的川话喜剧视频,瞬间成为美式单口喜剧出口;
听障用户的语音合成系统现在具有“情感温暖”,不再冰冷和机械。
AIbase 认为,Step-Audio-EditX 的意义超越了工具升级——它正在重塑音频内容制作的逻辑。当声音不再是一经记录就固定的线性媒介,而是成为可以反复提炼的“活文本”,数百万创作者将获得前所未有的表达自由。接下来,如果 StepStepFun 开放 API 或集成到移动系统中,这把“AI 魔术剪刀”可能会真正进入每个人的口袋,让每一个声音都被重新构想。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
