人工智能资讯|谷歌Gemini 3闪电升级：引入智能视觉技术，助力AI深入分析图像，如专家般-数智化转型网szhzxw.cn

谷歌最近在其轻量化型号Gemini 3 Flash中推出了一项名为“代理视觉（代理视觉）”的强大功能。这一升级打破了此前AI视觉模型仅“快速浏览后猜测”的局限，使AI能够像人类专家一样，通过主动探索和深度推理来分析图像。

此前，在处理信息丰富的图像（如远处路标、复杂的电路图或小文字）时，AI常常丢失细节，因为它只能一次性处理全局信息。能动视觉引入了“思考、行动、观察”的循环机制。简单来说，当用户提出复杂的视觉问题时，Gemini 3 会先创建分析计划，然后使用自动生成和执行的 Python 代码裁剪、旋转或注释图像部分内容，最终基于这些高清细节给出最终答案。

这种调查工作模式使双子座在处理困难视觉任务时的准确率提高了5%到10%。它不再只是识别像素;相反，它学会了“放大”以根据需要寻找证据。

目前，该功能首先在 Gemini AI Studio 和 Vertex AI 平台上提供。开发者只需启用“代码执行”功能即可使用。谷歌表示，未来该功能也将通过“思维模式”直接向普通用户开放，使移动AI助手能够拥有这种深度的视觉推理能力。

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）