巨人网络推出三款多模态模式：消除视频失真，并通过语音转换实现歌曲的实用使用-数智化转型网szhzxw.cn

巨人网络人工智能实验室最近与清华大学SATLab和西北工业大学合作，推出了音频和视频领域的三项多模态生成技术成果：音乐驱动视频生成模型YingVideo-MV、零截图语音转换模型YingMusic-SVC以及歌唱合成模型YingMusic-Singer。

这些成就反映了团队在音频和视频多模态生成技术的最新进展，并将在GitHub和HuggingFace等平台上开源。其中，YingVideo-MV模型仅通过提供“一段音乐和人物形象”即可生成音乐视频片段。它能够对音乐的节奏、情感和结构内容进行多模态分析，确保摄像机运动与音乐高度同步。它还包括镜头语言，如放大、缩小、平移和移动。此外，它采用长期时间一致性机制，有效缓解长视频中的“失真”和“跳帧”等常见问题。

在音频生成方面，YingMusic-SVC专注于零声音转换的**“真实歌曲可用性”**。通过针对真实音乐场景的优化，有效抑制伴奏、和声及混响干扰，显著降低音高失真和高音失真风险，为高质量音乐再现提供稳定的技术支持。

YingMusic-Singer唱歌合成模型支持在指定旋律下输入任何歌词，以生成清晰的发音和稳定的自然旋律。其主要特点是能够灵活适应不同长度的歌词，支持零声部克隆，大大提升了AI演唱的灵活性和实用性，有效降低了音乐创作的门槛。

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）