谷歌 DeepMind 团队为 Gemini 3 Flash 模型推出智能体视觉新功能,革新 AI 处理图像传统方式,通过建立思考、行动与观察的闭环,让模型主动、多步骤调查理解和分析视觉信息,减少猜测与错误。该功能在多项视觉基准测试中使模型输出质量提高 5% 到 10%,如提升建筑图纸验证平台准确率、避免视觉数学问题中的幻觉问题。当前模型已能智能决定放大查看细节,未来版本将更自动化。
行业标签
公司
更多体验
前往小程序
24 小时
资讯推送
进群体验