首个超越 GPT-4o 级开源模型，Llama3.1 泄密

2024 年 7 月 24 日

Llama 3.1 大模型非 Meta 官方泄露，版本包括 8B、70B 和 405B，基准测试结果显示 70B 版本多项超过 GPT-4o。模型使用公开数据训练，微调数据包括公开指令数据集和合成样本，支持多语言。模型基于优化 Transformer 架构，使用 GQA 提高推理可扩展性。Llama 3.1 用于多语言商业应用及研究，可微调以适应其他语言。训练使用 Meta 定制 GPU 集群，能耗和温室气体排放量已公开。模型注重安全性和拒绝不良 prompt，建议部署时作为整个人工智能系统的一部分，并提供额外安全措施。