谷歌发布智能体视觉功能，AI 图像理解从静态扫描变为主动调查

1 月 28 日

谷歌 DeepMind 团队为 Gemini 3 Flash 模型推出智能体视觉新功能，革新 AI 处理图像传统方式，通过建立思考、行动与观察的闭环，让模型主动、多步骤调查理解和分析视觉信息，减少猜测与错误。该功能在多项视觉基准测试中使模型输出质量提高 5% 到 10%，如提升建筑图纸验证平台准确率、避免视觉数学问题中的幻觉问题。当前模型已能智能决定放大查看细节，未来版本将更自动化。

谷歌发布 Agentic Vision：模仿人类处理图像，让 AI 学会「放大看」

IT 之家

谷歌发布智能体视觉功能，AI 图像理解从静态扫描变为主动调查

品玩

谷歌 Gemini 3 Flash 新增「Agentic Vision」功能：将视觉推理与代码执行相结合

开源中国

展开全部报道

专业版功能

体验专业版特色功能，拓展更丰富、更全面的相关内容。