谷歌发布智能体视觉功能,AI 图像理解从静态扫描变为主动调查
1 月 28 日
谷歌 DeepMind 团队为 Gemini 3 Flash 模型推出智能体视觉新功能,革新 AI 处理图像传统方式,通过建立思考、行动与观察的闭环,让模型主动、多步骤调查理解和分析视觉信息,减少猜测与错误。该功能在多项视觉基准测试中使模型输出质量提高 5% 到 10%,如提升建筑图纸验证平台准确率、避免视觉数学问题中的幻觉问题。当前模型已能智能决定放大查看细节,未来版本将更自动化。
2026-04-21
谷歌组建团队专攻 AI 编程,追赶 Claude2026-03-11
谷歌将为美国国防部提供用于非机密工作的 AI 智能体2026-03-03
谷歌 Home 新增实时搜索功能:Gemini 已能理解摄像头实时画面2026-02-27
谷歌翻译推出全新人工智能驱动功能2026-02-26
谷歌版豆包手机开始测试 Gemini 可以代替用户执行多步骤任务并自动操作2026-02-25
谷歌大面积封禁 OpenClaw 用户账号,或与 OpenAI 生态竞争2026-02-04
谷歌测试新功能:Gemini 将可自动操控安卓手机完成任务2026-01-28
谷歌发布智能体视觉功能,AI 图像理解从静态扫描变为主动调查2026-01-13
谷歌智能眼镜配套应用曝光:强调隐私保护与本地处理2026-01-07
谷歌计划将 Gemini 引入智能电视 Apple TV 或将跟进查看更多
体验专业版特色功能,拓展更丰富、更全面的相关内容。