每日人工智能资讯|真正的情感自由！Fish Audio 发布第二季：多扬声器、词语级情绪控制、完全开源-数智化转型网szhzxw.cn

Fish Audio正式发布了其新的文本转语音（TTS）型号S2，标志着开源TTS技术在表现力和可控性方面的重大突破。

该模型名为Fish Audio S2，注重强烈的情绪控制能力。用户可以通过自然语言指令实现细致的韵律和情感调整，比如插入标签如[笑]（笑）、[低语]（低语）、[超级快乐]（超级快乐），甚至支持像[专业广播音调]（专业广播音调）或[音调上升]（提高音调）等免费描述，实现词语或短语层面的精准控制，生成高度富有表现力且自然生动的语音。

主要亮点包括：

完全开源：模型权重、微调代码以及基于SGLang的流式推理引擎都已公开（可在GitHub和Hugging Face上获取）。S2-Pro 是旗舰版本（约 44 亿参数）。
超低延迟：推理延迟小于150毫秒，适合实时应用，如聊天机器人和虚拟锚点。
母语多语支持：多个说话者可在单一推理中处理，支持对话转向、中断、自然情感传递和语音一致性，无需额外处理。

Fish Audio表示，S2在约1000万小时的音频数据中训练，涵盖近50种语言，结合强化学习对齐和双自回归架构，在多项基准测试中展现出领先的自然性和表现力。它被认为是开源和闭源解决方案中情感智能最高的TTS系统之一。“真正的语言自由从现在开始，”Fish Audio宣称，标志着具有真实情感和个性的AI语音时代已经到来。

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）