【天风海外】META发布Llama3开源模型，性能直逼GPT

admin2024-04-20 09:00:0078

【天风海外】META发布Llama3开源模型，性能直逼GPT4

☀️META 正式发布开源大模型 Llama 3，实现了对前代Llama2的重大突破。通过在预训练和后训练技术上的创新，Llama 3在8B和70B参数规模的模型中表现卓越，成为当前最佳的模型之一。优化后的后训练过程有效降低了模型出错率，同时提升了模型的一致性和响应多样性。

🎉模型架构：Llama 3采用了标准的纯解码器Transformer架构，并在前代Llama 2的基础上实现了显著的技术改进。首先，Llama 3应用了一个拥有128K token词汇量的tokenizer，这增强了模型对语言的编码能力，进而显著提升了性能。其次，为了提高模型的推理效率，研究团队特别在8B和70B大小的模型中引入了分组查询注意力（GQA）技术。此外，Llama 3在训练时使用了8192个token的序列，并借助掩码技术确保自注意力机制不会跨越文档边界。

🌟Llama 3性能:模型在两个定制的24K GPU集群上，基于超过15万亿个token的数据进行训练，数据量是Llama 2的七倍，代码数据量则是其四倍。这种大规模的训练方式使得Llama 3能够支持8K的上下文长度，处理能力是Llama 2的两倍，标志着Meta在AI大模型领域的技术实力和创新能力。

💫性能对比：META的Llama 3模型在多个AI基准测试中表现卓越，包括MMLU、ARC、DROP等，尽管在某些测试中仅略胜一筹。在更大规模的70B参数版本中，Llama 3在人类反馈评分中超越了Mistral、OpenAi和Claude对应模型，尤其在实际应用场景如头脑风暴和创意写作中表现突出。虽然未能超越Anthropic的Claude 3 Opus，但Llama 3的性能已超越了该系列的中等型号Sonnet，证明了其在当前AI模型中的竞争力和实用性。

🎨未来计划：META的Llama 3系列以8B和70B模型为起点，预示着未来更多创新的发布。公司正在开发的超大型模型拥有超过400B参数，尽管仍在训练阶段，但已展现出巨大的潜力。预计接下来的几个月，META将推出具备多模态、多语言对话、扩展上下文窗口和增强性能的新模型系列。Llama 3训练完成后，相应的详细研究论文也将公布。

欢迎联系天风海外团队



【天风海外】META发布Llama3开源模型，性能直逼GPT

其他股票