智谱发布全新视觉大模型 GLM-4.5V，能轻松区分炸鸡品牌！-数智化转型网szhzxw.cn

8月11日，智谱科技正式推出其最新的视觉理解模型 ——GLM-4.5V。这款模型是基于其新一代文本模型 GLM-4.5-Air 进行训练的，继承了上一代视觉推理模型 GLM-4.1V-Thinking 的技术路线，拥有惊人的1060亿参数和120亿激活参数。值得一提的是，GLM-4.5V 还新增了 “思考模式” 开关功能，用户可以选择是否启用该模式，从而在处理任务时更灵活。数字化转型网www.szhzxw.cn

这一模型的视觉能力令人瞩目，能够轻松分辨出麦当劳和肯德基的炸鸡翅，从外观色泽和质感等多个角度进行深入分析。此外，GLM-4.5V 还能参与图像猜地点的挑战，甚至在比赛中取得了优异的成绩，超越了99% 的人类参赛者，位列第66名。智谱还展示了该模型在42个基准测试中的卓越表现，在绝大多数测试中得分超过同等规模的其他模型。

目前，GLM-4.5V 已经在开源平台如 Hugging Face、魔搭和 GitHub 上线，用户可以免费下载使用，并且还提供了 FP8量化版本。为了更好地体验这一模型，智谱推出了一个桌面助手应用程序，支持实时截屏和录屏，帮助用户完成各种视觉推理任务，包括代码辅助和文档解读。数字化转型网www.szhzxw.cn

在实际测试中，GLM-4.5V 展现了出色的能力，能够根据上传的图片进行位置推断，虽然偶尔会出现小误差，但推理过程仍然非常丰富。而在处理网页内容时，它可以通过截图生成相似度高的页面，展现出强大的复现能力。

GLM-4.5V 不仅在视觉理解领域表现突出，还在 Agent 应用场景中展现出巨大潜力。随着这一技术的不断发展，我们有理由期待它在未来的应用中为人们的生活带来更多便捷。数字化转型网www.szhzxw.cn

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）鲍勃

智谱发布全新视觉大模型 GLM-4.5V，能轻松区分炸鸡品牌！

数据挖掘的基本概念和工作流程

2020年6月份北京市工业生产者价格变动情况

Vibe Coding大战升级！Vercel V0变身全能AI，自动搞定前后端+文案！

神经网络的基本结构包含哪些？

从后台到宾客体验：技术如何重新定义酒店业

联系我们

微信扫一扫关注我们

GitHub CEO 托马斯·多姆克即将离职，微软人工智能部门面临激烈竞争

OpenAI内部神秘 AI一举夺得信息学奥赛金牌，震惊全球！

相关推荐

联系我们

微信扫一扫关注我们