当人工智能语音不仅“听起来像人”,而且“听起来像你”,并且速度快到几乎无法察觉时,语音交互的边界正在被彻底重新定义。10月30日凌晨,MiniMax曦语科技正式推出其下一代文本转语音模型——MiniMax语音2.6,带来端到端延迟低于250毫秒的实时性能和革命性的Fluent LoRA语音克隆技术,将语音生成推向高自然、低延迟、强个性化的新时代。
250毫秒内:接近人类对话的实时响应
在语音交互场景中,延迟是体验的生命线。语音 2.6 通过深度架构优化,实现了从文本输入到音频输出的端到端延迟低于 250 毫秒,匹配了人类自然对话的节奏。这意味着,在智慧客服、实时字幕、虚拟主播等高需求场景下,AI语音不再落后,真正实现了流畅的对话和沉浸式的互动。
Fluent LoRA:用 30 秒的音频克隆您的独特声音
这次最大的突破是深度集成了 Fluent LoRA(Low-Rank Adaptation)技术。用户只需提供30秒以上的参考音频,模型就能准确捕捉说话者的声音、语气、节奏,甚至情感风格,生成与目标文本高度匹配的自然语音。无论是克隆自己的声音来讲述睡前故事,还是定制虚拟品牌大使,语音克隆从未如此简单、高效和逼真。
更重要的是,Fluent LoRA在保证语音质量一致性的同时,显著提高了语音的流畅度,避免了传统TTS中常见的“机械断句”或“情绪错位”等问题,使合成语音真正具有表现力。
全场景覆盖:从个人创作到企业部署
MiniMax Speech 2.6 现在可供个人创作者和企业客户使用:
- 教育领域:教师可以快速生成课件的讲座音频;
- 客户服务:企业可以部署具有品牌特定语音的智能语音机器人;
- 智能硬件:车载和家庭设备可实现低延迟、高保真语音交互;
- 内容制作:UP和播客可以即时生成多角色画外音,大大提高了创作效率。
语音2.6作为MiniMax多模态大模型生态的关键组成部分,不仅强化了其在AIGC领域的技术深度,也标志着文本转语音合成正在从“功能可用性”迈向“情感可信度和可定制个性”的新时代。
在当今竞争日益激烈的AI格局中,人们的注意力都集中在“体验细节”上,MiniMax证明了真正的智能不仅仅是计算速度快,而是像人一样说话,说话引人入胜,延迟仅为250毫秒,能够“像你一样说话”。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
