数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|LLaVA-OneVision-1.5,一个完全开源的多模态模型,超越了Qwen2.5-VL

人工智能资讯|LLaVA-OneVision-1.5,一个完全开源的多模态模型,超越了Qwen2.5-VL

最近,开源社区迎来了 LLaVA-OneVision-1.5,这是一种新的多模态模型,标志着一项重大的技术进步。LLaVA(大型语言和视觉助手)系列历时两年多,逐渐从简单的图文对齐模型演变为能够处理图像和视频等各种输入形式的综合框架。

LLaVA-OneVision-1.5的核心理念是提供一个开放、高效、可重复的训练框架,使用户能够轻松构建高质量的视觉语言模型。其训练过程分为三个阶段:首先,在语言-图像对齐的预训练阶段,模型学习将视觉特征转换为语言词嵌入。

接下来,在第二阶段“高质量知识学习”中,模型在8500万个训练样本上进行训练,注入了大量的视觉和知识信息,显著增强了其能力。最后,在视觉指令微调阶段,使用精心设计的数据集对模型进行训练,使其能够处理各种复杂的视觉指令。

在效率方面,团队采用了创新的离线并行数据打包方式,显著提高了训练效率。8500万个样本,数据处理压缩比高达11倍,训练过程只需3.7天即可完成。同时,LLaVA-OneVision-1.5还采用RICE-ViT作为视觉编码器,具有视觉理解的区域感知,特别适合处理文档中的文本。

数据是模型能力的基础。LLaVA-OneVision-1.5 的预训练数据集多样且范围广泛,它引入了“概念平衡”采样策略,以确保在各种任务中平衡性能。该模型在各种基准测试中表现出色,尤其是 80 亿参数版本,在 27 个基准测试中优于 Qwen2.5-VL。

项目:

https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/98830.html

人工智能资讯|Strella 筹集 1400 万美元资金,推动人工智能面试技术创新客户研究

联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部