数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|美团推出长猫视频生成大模型,开启长视频创作新时代

人工智能资讯|美团推出长猫视频生成大模型,开启长视频创作新时代

今天,美团长猫团队正式发布了其全新的视频生成模型——长猫-视频。这种模型凭借其能够准确重构现实世界的运行状态,标志着美团在“世界模型”领域的探索取得了重大进展。世界模型是下一代人工智能的核心引擎,帮助人工智能更好地理解、预测和重建现实世界的动态。

LongCat-Video 基于先进的 Diffusion Transformer (DiT) 架构,集成了文本转视频、图像转视频和视频延续等核心功能。这种创新模型通过设置“条件帧数”有效地区分了任务,确保了不同输入条件下的出色生成能力。LongCat-Video在文本到视频生成中可以输出720p和30fps的高清视频,在开源领域具有领先的语义理解和视觉呈现能力。此外,图转视频在动态过程中可以严格保留参考图像的属性和风格,呈现出自然、流畅的运动表现。

LongCat-Video 最令人印象深刻的功能是其长视频生成能力。通过对视频延续任务的预训练,模型可以稳定输出长达5分钟的连贯长视频,同时避免了色漂、画质下降、动作断裂等常见问题。这一技术突破不仅提高了视频生成的质量,也为自动驾驶、具身智能等深度交互场景提供了坚实的技术基础。

在高效推理方面,LongCat-Video采用“两阶段粗细生成”策略,结合块稀疏注意力(BSA)和模型蒸馏优化,显著提高了视频生成的速度和质量。该模型的推理速度提高了 10.1 倍,即使在处理长视频时也能确保出色的生成质量。

经过严格的内部和公开基准测试,LongCat-Video 在文本对齐、视觉质量、运动质量等多个维度上都表现出了出色的性能,在当前开源领域达到了 SOTA(State of the Art)水平。团队表示,LongCat-Video 的发布将大大简化长视频的创作过程,让创作者从 1 秒的灵感跳到 5 分钟的成品。

为了让更多人体验这项先进技术,美团在GitHub和Hugging Face上发布了LongCat-Video的相关资源。这个项目不仅为个人创作者提供了强大的工具,也为整个视频创作行业注入了新的活力。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/99824.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部