英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC
2025 年 1 月 13 日
英伟达推出了名为 Nemotron-CC 的大型英文 AI 训练数据库,包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。该数据库旨在解决现有公开数据库规模和质量的局限性,提供高质量数据以推动大语言模型训练。Nemotron-CC 基于 Common Crawl 网站数据构建,经过严格处理后提取高质量子集 Nemotron-CC-HQ。与业界领先的 DCLM 相比,使用 Nemotron-CC-HQ 训练的模型在 MMLU 基准测试中分数提高了 5.6 分。英伟达已将 Nemotron-CC 公开,并将在 GitHub 公布相关文档。
2026-04-15
英伟达推出全球首个开源量子 AI 模型,助攻开发量子芯片2026-04-14
英伟达推出全球首个开源量子人工智能模型「ISING」2026-03-20
黄仁勋谈太空数据中心:冷却是最大难题之一 解决或需数年2026-03-18
英伟达组建 Nemotron 联盟,共建开源前沿模型2026-03-17
黄仁勋谈「养龙虾」:盛赞 OpenClaw 堪比 Windows 影响个人计算2026-03-17
庆祝 CUDA 诞生 20 周年,英伟达黄仁勋称 Token 是 AI 时代基石2026-03-17
英伟达 Vera Rubin 开启「智能体 AI」新前沿2026-03-10
英伟达将推出面向 AI 智能体的开源平台查看更多
体验专业版特色功能,拓展更丰富、更全面的相关内容。