字节跳动刚刚发布了其最新的多模态大型语言模型Vidi2,这是一款拥有120亿参数的人工智能模型,专为视频理解设计。该模型能够处理数小时的原始素材,理解叙事结构,并基于简单的提示生成完整的TikTok短视频或电影片段,这被视为对现有视频剪辑行业的重大颠覆。
突破:细粒度时空定位(STG)
Vidi2 的关键在于其视频理解能力。新模型引入了细粒度时空定位(STG)功能,可以同时识别视频中的时间戳和物体的边界框。在给定文本查询时,Vidi2 不仅能找到对应的时间段,还能准确标记该时间范围内特定物体的位置。
技术:
- 时空定位:模型返回一个“流水线”(时间索引边界框),以一秒级跟踪特定对象和人物,直接支持编辑,例如在人群中追踪特定人物。
- 技术架构:Vidi2升级为采用Gemma-3作为骨干网络,并重新设计了自适应令牌压缩技术,确保高效且保持长视频处理中的关键细节。
绩效领导力:长视频理解的明显优势
Vidi2在行业基准测试中表现异常出色。在用于开放式时间检索的VUE-TR-V2基准测试中,其整体IoU达到48.75,尤其在**超长视频(超过一小时)**中表现优于商业模型17.5个百分点。在本地化任务(VUE-STG)中,该模型也以vIoU 32.57和tIoU 53.19的表现最佳。

从模特到产品:TikTok的“智能编辑器”
基于Vidi2强大的功能,字节跳动开发了多种实用的自动编辑工具,包括高亮提取、故事感知剪辑、内容感知布局重建和多角度切换,这些功能均可在消费级硬件上运行。
- TikTok应用:该技术已应用于TikTok的智能分割功能,能够自动编辑、重建、添加字幕,并将长视频转换为适合TikTok的短视频。
- AI大纲:该工具可以将简单的提示或热门话题转化为结构化的视频标题、开头和大纲。
行业影响:字节跳动的人工智能飞轮开始转动
AIbase评论称,Vidi2的发布和字节跳动庞大的TikTok(每日活跃用户达10亿)数据平台优势,为其提供了用于训练和实时反馈优化的海量视频数据,这对本土AI公司构成了重大挑战。随着大型平台技术飞轮开始转动,传统AI公司可能面临更大的竞争压力。
Vidi2 仍处于研究阶段,官方表示演示版将很快发布。
若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
