数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|字节跳动推出突破性的AI模型Vidi2:1200亿参数,革新视频剪辑

人工智能资讯|字节跳动推出突破性的AI模型Vidi2:1200亿参数,革新视频剪辑

字节跳动刚刚发布了其最新的多模态大型语言模型Vidi2,这是一款拥有120亿参数的人工智能模型,专为视频理解设计。该模型能够处理数小时的原始素材,理解叙事结构,并基于简单的提示生成完整的TikTok短视频或电影片段,这被视为对现有视频剪辑行业的重大颠覆。

突破:细粒度时空定位(STG)

Vidi2 的关键在于其视频理解能力。新模型引入了细粒度时空定位(STG)功能,可以同时识别视频中的时间戳和物体的边界框。在给定文本查询时,Vidi2 不仅能找到对应的时间段,还能准确标记该时间范围内特定物体的位置。

技术:

  • 空定位:模型返回一个“流水线”(时间索引边界框),以一秒级跟踪特定对象和人物,直接支持编辑,例如在人群中追踪特定人物。
  • 技术架构:Vidi2升级为采用Gemma-3作为骨干网络,并重新设计了自适应令牌压缩技术,确保高效且保持长视频处理中的关键细节。

绩效领导力:长视频理解的明显优势

Vidi2在行业基准测试中表现异常出色。在用于开放式时间检索的VUE-TR-V2基准测试中,其整体IoU达到48.75,尤其在**超长视频(超过一小时)**中表现优于商业模型17.5个百分点。在本地化任务(VUE-STG)中,该模型也以vIoU 32.57和tIoU 53.19的表现最佳。

QQ20251201-094610.png

从模特到产品:TikTok的“智能编辑器”

基于Vidi2强大的功能,字节跳动开发了多种实用的自动编辑工具,包括高亮提取、故事感知剪辑、内容感知布局重建和多角度切换,这些功能均可在消费级硬件上运行。

  • TikTok应用:该技术已应用于TikTok的智能分割功能,能够自动编辑、重建、添加字幕,并将长视频转换为适合TikTok的短视频。
  • AI大纲:该工具可以将简单的提示或热门话题转化为结构化的视频标题、开头和大纲。

行业影响:字节跳动的人工智能飞轮开始转动

AIbase评论称,Vidi2的发布和字节跳动庞大的TikTok(每日活跃用户达10亿)数据平台优势,为其提供了用于训练和实时反馈优化的海量视频数据,这对本土AI公司构成了重大挑战。随着大型平台技术飞轮开始转动,传统AI公司可能面临更大的竞争压力。

Vidi2 仍处于研究阶段,官方表示演示版将很快发布。

若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/103432.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部