1 月 16 日
谷歌研究院创建了一个名为 「BIG-Bench Mistake」 的专用基准数据集,用于评估大语言模型的出错概率和自我纠错能力。研究人员通过在 BIG-Bench 基准测试任务中运行 PaLM 语言模型,并修改其生成的思维链轨迹,形成了包含 255 项逻辑错误的数据集。测试结果显示,虽然大部分语言模型能识别并修正推理过程中的逻辑错误,但效果尚不理想,通常需人工干预。谷歌认为,专有小型模型可用于监督大型模型,以提高纠错能力、降低 AI 部署成本。
话题追踪
2024-05-15
谷歌视频生成模型 Veo 发布:支持长视频生成2024-05-14
谷歌 2024 年 I/O 开发者大会前瞻:AI 成绝对主角,多款新模型或将亮相2024-04-04
谷歌就追踪用户活动的诉讼达成和解 同意删除浏览数据2024-04-01
谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具2024-03-23
微软 Copilot 被曝用谷歌数据 用户不满:直接跳转至 Gemini 主页2024-03-11
让 AI 模型互相教学,谷歌推出社会学习框架2024-02-28
谷歌 CEO 内部信:AI 大模型翻车不可接受 将全面纠正错误2024-02-25
谷歌 AI 模型无法准确生成白人形象 已致歉正优化查看更多