数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,带来全新的音频编辑体验

人工智能资讯|StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,带来全新的音频编辑体验

音频创作的障碍已被彻底打破。国产AI独角兽StepStepFun AI于11月9日正式上线全球领先的LLM级音频编辑模型——Step-Audio-EditX,首次实现“自然语言指令编辑语音”的革命性体验。用户只需输入“把这句话改成川渝说唱歌手的傲慢语气”或“最后加个害羞的笑声”,模型就能精准调整声音、情感、节奏,甚至呼吸停顿,让语音编辑像编辑文档一样直观高效。

30亿参数,性能提升

Step-Audio-EditX 的核心突破在于其超高效的模型压缩技术。团队将原来的 130 亿参数模型细化为仅 30 亿,不仅大幅降低了部署成本,还实现了关键指标的突破。该模型支持零样本语音克隆——只需一个参考音频,无需目标人的训练数据,即可高保真再现其声音;它还支持多轮迭代编辑,允许用户连续发出详细的指令(如“温柔一点”或“笑声延长0.3秒”),逐渐接近想要的效果。

方言和情感,完美掌握

该模型对中文语境的理解尤其令人印象深刻,支持流利的普通话、英语、四川话和粤语。方言表达中的地域情感和语用习惯,自然而真实地呈现出来。在盲测中,测评人员一致认为其“川渝笑话的街头感”和“粤语颗粒的精致”远超同类产品。

挑战闭源商业模式,三项关键指标领先

根据AIbase获得的数据,Step-Audio-EditX在三个核心维度上优于Minimax、字节跳动豆包等闭源解决方案:

自然度评分:4.72/5(Minimax 4.51,豆包 4.38)

情绪准确率:93.7%(领先第二名6.2个百分点)

语音一致性:98.1%,几乎无损再现

爆款应用场景:从短视频到无障碍服务

这项技术正在催生新的内容形式:

短视频博主可以一键切换“开朗的女孩”和“讽刺的教官”声音;

有声读物创作者可以单独完成多个角色情感对话;

AI改造的川话喜剧视频,瞬间成为美式单口喜剧出口;

听障用户的语音合成系统现在具有“情感温暖”,不再冰冷和机械。

AIbase 认为,Step-Audio-EditX 的意义超越了工具升级——它正在重塑音频内容制作的逻辑。当声音不再是一经记录就固定的线性媒介,而是成为可以反复提炼的“活文本”,数百万创作者将获得前所未有的表达自由。接下来,如果 StepStepFun 开放 API 或集成到移动系统中,这把“AI 魔术剪刀”可能会真正进入每个人的口袋,让每一个声音都被重新构想。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/101822.html

人工智能资讯|像编辑 Word 文档一样编辑音频?StepXenon 发布 30 亿参数音频编辑模型 Step-Audio-EditX

联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部