OpenAI 科学家盛赞中国大模型 DeepSeek-v3

2024 年 12 月 30 日

OpenAI 创始团队成员、高级研究科学家 Andrej Karpathy 罕见地分享了中国开源大模型 DeepSeek-v3，该模型用 280 万小时的 GPU 算力训练出了比 Llama-3 405B 更强的模型，成本节省了 11 倍。DeepSeek 在多个主流基准测试中性能超过著名开闭源模型，成为最强开源大模型之一。这表明即便在算力有限的情况下，使用高质量数据、更好的算法同样能训练出高性能大模型。DeepSeek 的团队是一群前量化分析师，他们的训练效率非常疯狂。DeepSeek v3 的架构主要包括多头潜在注意力（MLA）和混合专家（MoE）两大块，其中 MLA 是 v3 的核心创新之一，主要用于减少推理过程中的内存占用。v3 的 MoE 引入了一套先进的动态调整机制，专门用于优化专家负载。Deep Seek 除了开源最新模型之外，他们还提供了免费的在线服务。

OpenAI 科学家盛赞中国大模型：算法非常强，算力用到极致

站长之家/awtmt.com_news/华尔街见闻

专业版功能

体验专业版特色功能，拓展更丰富、更全面的相关内容。