OpenAI 创始团队成员、高级研究科学家 Andrej Karpathy 罕见地分享了中国开源大模型 DeepSeek-v3,该模型用 280 万小时的 GPU 算力训练出了比 Llama-3 405B 更强的模型,成本节省了 11 倍。DeepSeek 在多个主流基准测试中性能超过著名开闭源模型,成为最强开源大模型之一。这表明即便在算力有限的情况下,使用高质量数据、更好的算法同样能训练出高性能大模型。DeepSeek 的团队是一群前量化分析师,他们的训练效率非常疯狂。DeepSeek v3 的架构主要包括多头潜在注意力(MLA)和混合专家(MoE)两大块,其中 MLA 是 v3 的核心创新之一,主要用于减少推理过程中的内存占用。v3 的 MoE 引入了一套先进的动态调整机制,专门用于优化专家负载。Deep Seek 除了开源最新模型之外,他们还提供了免费的在线服务。