英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC
1 月 13 日

英伟达推出了名为 Nemotron-CC 的大型英文 AI 训练数据库,包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。该数据库旨在解决现有公开数据库规模和质量的局限性,提供高质量数据以推动大语言模型训练。Nemotron-CC 基于 Common Crawl 网站数据构建,经过严格处理后提取高质量子集 Nemotron-CC-HQ。与业界领先的 DCLM 相比,使用 Nemotron-CC-HQ 训练的模型在 MMLU 基准测试中分数提高了 5.6 分。英伟达已将 Nemotron-CC 公开,并将在 GitHub 公布相关文档。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。
logo
科技新闻,每天 3 分钟
icon
icon
icon
icon