数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|Liquid AI 推出 LFM2-VL 模型,为手机带来「小巧又灵敏」的AI 视觉语言能力

人工智能资讯|Liquid AI 推出 LFM2-VL 模型,为手机带来「小巧又灵敏」的AI 视觉语言能力

Liquid AI 最新发布了 LFM2-VL 系列视觉语言基础模型(Vision-Language Foundation Models),这标志着多模态 AI 正朝着「精简、快速、可部署在设备端」的方向加速发展。

这两款型号分别是 LFM2-VL-450M 和 LFM2-VL-1.6B,前者专为资源受限的硬件环境设计,参数量不足5亿;后者虽参数更多但依旧轻量,适合单个 GPU 或设备直接部署。

LFM2-VL 扩展自 Liquid AI 之前推出的 LFM2架构,整合了视觉与语言处理能力,支持多分辨率的图片输入,可处理文本与图像,具有极佳的灵活性与兼容性 (liquid.ai, Venturebeat)。模型在 GPU 推理速度上实现了高达「两倍」的提升,并且在常见性能评测中表现不凡 (Venturebeat, liquid.ai)。

在图像处理方面,LFM2-VL 能以原始分辨率(最高512×512)输入图像,避免因强制缩放带来的失真问题。对于更大尺寸图像,模型会采用非重叠切片方式处理,并配合缩略图以获取全局语境信息 (Venturebeat, liquid.ai)。其架构由语言模型主干、SigLIP2NaFlex 视觉编码器与一个多模态投影器构成。投影器使用两层 MLP(带 pixel unshuffle 技术)来减少图像 token 数量,从而提升处理速度 (Venturebeat, liquid.ai)。

训练数据方面,LFM2-VL 涉及约1,000亿多模态训练 token,来源包括开源数据集与公司自有合成图像数据 (Venturebeat, liquid.ai)。评测结果显示,LFM2-VL-1.6B 在 RealWorldQA(65.23)、InfoVQA(58.68)、OCRBench(742)等任务中成绩优异,同时在推理效率上领先于同类模型 (Venturebeat, liquid.ai)。

目前,这些模型已在 Hugging Face 发布,并附有在 Colab 上的微调示例代码,兼容 Hugging Face Transformers 与 TRL 库。它们采用了一种基于 Apache2.0原则的新“LFM1.0授权协议”,允许学术使用,年收入低于1,000万美元的公司可用于商业,而年营收更高的企业则需联系 Liquid AI 获取授权 (Venturebeat, liquid.ai)。

Liquid AI 的 LFM2-VL 模型组合为视觉与文本融合 AI 在设备端部署提供了新的路径,尤其适合手机、笔记本、可穿戴设备等场景,有助于降低对云端依赖,提升隐私与响应速度。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)萍水

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/92016.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部