谷歌 Gemini2.5革新图像处理:不止识别物体，更能理解抽象概念与关系-数智化转型网szhzxw.cn

谷歌近日为其 Gemini2.5AI 模型推出了一项创新功能——“对话式图像分割”，允许用户通过自然语言提示直接分析和突出显示图像内容。这项技术超越了传统的图像分割范畴，赋予 Gemini 理解并响应更复杂、更具语义的指令的能力。数字化转型网www.szhzxw.cn

超越传统，理解抽象与关系数字化转型网www.szhzxw.cn

传统图像分割通常局限于识别如“狗”、“汽车”或“椅子”等固定类别的物体。而现在，Gemini 可以理解并应用于图像特定部分的更复杂语言。它能够处理:关系查询:例如“撑伞的人”。基于逻辑的指令:例如“所有非坐着的人”。抽象概念:甚至能识别“杂物”或“损坏”等没有清晰视觉轮廓的概念。

此外，得益于内置的文本识别功能，Gemini 还能识别需要阅读屏幕文本的图像元素，例如展示柜中的“开心果果仁蜜饯”。该功能支持多语言提示，并可按需提供其他语言（如法语）的物体标签。数字化转型网www.szhzxw.cn

广泛应用:从设计到安全再到保险

谷歌表示，这项技术在多个领域都具有广泛的实际应用价值:图像编辑:设计师无需鼠标或选择工具，只需口头指令，如“选择建筑物的阴影”，即可精准选中所需区域。工作场所安全:Gemini 可以扫描照片或视频，自动识别违规行为，例如“施工现场所有未戴头盔的人”。保险行业:理赔员可以发出“突出显示所有遭受风暴破坏的房屋”等命令，自动在航拍图像中标记受损建筑，大幅节省手动检查时间。数字化转型网www.szhzxw.cn

开发者友好:API 访问与优化建议

这项强大的功能无需特殊的独立模型。开发者可以通过 Gemini API 直接访问“对话式图像分割”功能，所有请求均由具备此功能的 Gemini 模型直接处理。

返回的结果以 JSON 格式呈现，包含所选图像区域的坐标（box_2d）、像素掩码（mask）和描述性标签（label），为后续开发提供便利。数字化转型网www.szhzxw.cn

为获得最佳效果，谷歌建议使用 gemini-2.5-flash 模型，并将 thinkingBudget 参数设置为零以触发即时响应。开发者可以通过 Google AI Studio 或 Python Colab 进行初步测试。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）鲍勃

谷歌 Gemini2.5革新图像处理:不止识别物体，更能理解抽象概念与关系

超越传统，理解抽象与关系数字化转型网www.szhzxw.cn

广泛应用:从设计到安全再到保险

开发者友好:API 访问与优化建议

人工智能资讯|百度智能云千帆大模型平台、文小言接入DeepSeek-R1-0528模型

国家发展改革委等部门关于做好2023年降成本重点工作的通知

粤5G基站数与用户数均居全国第一

人工智能资讯|Infosys 推出 Topaz Fabric：企业 IT 运营的智能平台

宁波市经信局召开推进老小用品制造业发展座谈会市经信局召开推进老小用品制造业发展座谈会

联系我们

微信扫一扫关注我们

超越传统，理解抽象与关系数字化转型网www.szhzxw.cn

广泛应用:从设计到安全再到保险

开发者友好:API 访问与优化建议

库班：人工智能将在五年内成为企业生存的 “基本技能”

苹果发布 iOS 26 Beta 4，上线AI新闻摘要功能

相关推荐

联系我们

微信扫一扫关注我们