数智化转型网 人工智能资讯 每日人工智能资讯|火山引擎发布豆包音频生成模型1.0:一句话生成影视级音频,角色声音 10 分钟都不”串戏”

每日人工智能资讯|火山引擎发布豆包音频生成模型1.0:一句话生成影视级音频,角色声音 10 分钟都不”串戏”

昨日,火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持将文本或音频任一模态作为输入,端到端生成完整音频作品。这款模型的核心突破在于:用一条Prompt就能搞定对白、音效、背景音乐的全要素生成,彻底告别人工多轨剪辑的传统工作流。数智化转型网www.szhzxw.cn

一、一句话变身”音频导演”,省去所有后期

过去,一段成片级音频作品意味着对白、音效、配乐逐条生成、手动对齐、多轨混音,流程繁琐且高度依赖后期技术能力。豆包音频生成模型1. 0 将这一切压缩进一条Prompt:用户可以在单条指令中同时定义多个角色的台词、语气和情绪节奏,嵌入笑声、叹息、停顿、方言口音等细节,背景音乐与环境音效同步生成,输出即成品。一位创作者敲下一段描述,就能直接收到可上线的有声剧、播客节目或品牌音频。

二、长音频不”串戏”,角色声音首尾如一

长音频创作中最令创作者头疼的难题,是前后一致性——角色在第 1 分钟和第 10 分钟听起来是否像同一个人。豆包音频生成模型1. 0 实现了文生音频与参考音频的深度联动,在长音频中保持音色高度统一,创作者无需逐段比对、反复修音。当前模型单次支持 2 分钟音频创作,并可通过多次延长功能在长程生成中保持音色一致,满足有声书、播客、长剧集等场景需求。数智化转型网www.szhzxw.cn

此外,模型还支持音色与风格的解耦控制,同一音色可适配不同情绪和语境,甚至实现”一声多角”——同一个声音在不同角色设定下呈现差异化表达,显著提升角色配音和创意音频生产的灵活性。目前火山方舟已开启API邀测,个人用户可在体验中心享有 30 分钟创作额度,豆包音频生成模型1. 0 也即将上线剪映、即梦、番茄等产品。数智化转型网www.szhzxw.cn

若您对人工智能感兴趣或为人工智能创始人,可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数智化转型网小助手思思(17757154048,微信同号)

思思企微
思思企微

若您为人工智能服务商,可添加数智化转型网小助手Jasper,加入人工智能行业交流群。

鹿鸣企微
Jasper企微

声明:本文来自数智化转型网,版权归作者所有。文章内容仅代表作者独立观点,不代表数智化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

底部图片
免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/126071.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部