AIMultiple于2026年5月7日发布大视觉模型(LVM)目标检测专项基准测试,对比评测GPT-4o Vision、YOLOv8n与DETR三款模型在1000张图像上的目标检测表现,揭示通用视觉模型与专用视觉模型的能力鸿沟。
评测结果(检测精度mAP@0.5):
• DETR:0.55(最优)
• YOLOv8n:0.20
• GPT-4o Vision:0.02(远低于专用模型)
推理延迟(毫秒/图):
• YOLOv8n:365ms(最快)
• DETR:3145ms
• GPT-4o Vision:5150ms(最慢)
趋势判断:
GPT-4o等通用大视觉模型在目标检测任务上的精度(0.02 mAP)与其在语言和通用推理上的表现形成鲜明反差——垂直领域的专用模型(如YOLOv8n)凭借极致优化仍保持压倒性优势。企业部署视觉AI不应迷信”大一统”模型,需根据精度/速度/成本三角进行理性选型。
若您对人工智能感兴趣,可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数智化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数智化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数智化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自数智化转型网,版权归作者所有。文章内容仅代表作者独立观点,不代表数智化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

本文由数智化转型网(www.szhzxw.cn)转载,编辑/翻译:数智化转型网(Professionalism Achieves Leadership 专业造就领导者)迅龙
