数智化转型网szhzxw.cn 人工智能资讯 智谱发布全新视觉大模型 GLM-4.5V,能轻松区分炸鸡品牌!

智谱发布全新视觉大模型 GLM-4.5V,能轻松区分炸鸡品牌!

8月11日,智谱科技正式推出其最新的视觉理解模型 ——GLM-4.5V。这款模型是基于其新一代文本模型 GLM-4.5-Air 进行训练的,继承了上一代视觉推理模型 GLM-4.1V-Thinking 的技术路线,拥有惊人的1060亿参数和120亿激活参数。值得一提的是,GLM-4.5V 还新增了 “思考模式” 开关功能,用户可以选择是否启用该模式,从而在处理任务时更灵活。数字化转型网www.szhzxw.cn

这一模型的视觉能力令人瞩目,能够轻松分辨出麦当劳和肯德基的炸鸡翅,从外观色泽和质感等多个角度进行深入分析。此外,GLM-4.5V 还能参与图像猜地点的挑战,甚至在比赛中取得了优异的成绩,超越了99% 的人类参赛者,位列第66名。智谱还展示了该模型在42个基准测试中的卓越表现,在绝大多数测试中得分超过同等规模的其他模型。

目前,GLM-4.5V 已经在开源平台如 Hugging Face、魔搭和 GitHub 上线,用户可以免费下载使用,并且还提供了 FP8量化版本。为了更好地体验这一模型,智谱推出了一个桌面助手应用程序,支持实时截屏和录屏,帮助用户完成各种视觉推理任务,包括代码辅助和文档解读。数字化转型网www.szhzxw.cn

在实际测试中,GLM-4.5V 展现了出色的能力,能够根据上传的图片进行位置推断,虽然偶尔会出现小误差,但推理过程仍然非常丰富。而在处理网页内容时,它可以通过截图生成相似度高的页面,展现出强大的复现能力。

GLM-4.5V 不仅在视觉理解领域表现突出,还在 Agent 应用场景中展现出巨大潜力。随着这一技术的不断发展,我们有理由期待它在未来的应用中为人们的生活带来更多便捷。数字化转型网www.szhzxw.cn

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)鲍勃

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/89467.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部