热门话题
每日早报
排行榜
AI
科技动态
财经快讯
医疗产业
汽车
专业版

© 2026 NoCode 无码科技（杭州）有限公司浙ICP备17005035号-6 联系我们加入我们产品介绍 MCP 接入

浙公网安备 33010902002965 号浙 B2-20181004

科技新闻，每天 3 分钟

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

2025 年 1 月 13 日

英伟达推出了名为 Nemotron-CC 的大型英文 AI 训练数据库，包含 6.3 万亿个 Token，其中 1.9 万亿为合成数据。该数据库旨在解决现有公开数据库规模和质量的局限性，提供高质量数据以推动大语言模型训练。Nemotron-CC 基于 Common Crawl 网站数据构建，经过严格处理后提取高质量子集 Nemotron-CC-HQ。与业界领先的 DCLM 相比，使用 Nemotron-CC-HQ 训练的模型在 MMLU 基准测试中分数提高了 5.6 分。英伟达已将 Nemotron-CC 公开，并将在 GitHub 公布相关文档。

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

IT 之家

英伟达推出 6.3 万亿 Token AI 训练数据库，能否重塑大语言模型训练格局？

ITBear 科技资讯

英伟达宣布推出 Nemotron-CC：用于 LLM 预训练的万亿级英语语言数据集

品玩

展开全部报道

话题追踪

2026-07-16

英伟达发布多款物理 AI 产品，两款机器人计算模组明年上市

2026-07-02

英伟达推出 AI 基础设施新合作模式

2026-06-08

英伟达与 LG 集团携手打造 AI 工厂，推动物理 AI 与移动出行领域发展

2026-06-06

黄仁勋与多位韩企掌门人在烤肉店共进晚餐，称英伟达已着手在韩国新建 AI 技术中心项目

2026-06-04

英伟达入局 PC 领域，端侧 AI 赛道全面打开

2026-06-01

英伟达黄仁勋称「AI 减少岗位是胡说八道」，软件工程师数量在增加

2026-04-25

英伟达适配 DeepSeek-V4 AI 模型，开箱性能超 150 tokens/sec/user

2026-04-15

英伟达推出全球首个开源量子 AI 模型，助攻开发量子芯片

2026-04-14

英伟达推出全球首个开源量子人工智能模型「ISING」

2026-03-20

黄仁勋谈太空数据中心：冷却是最大难题之一解决或需数年

查看更多

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。

行业标签

订阅

芯片与半导体

订阅

订阅

订阅

订阅

订阅

订阅

二维码

24 小时

资讯推送

进群体验