Llama3本地部署

看看官方介绍!

Llama3模型目前共开源了8B和70B两个参数规模的模型,400B参数规模的模型还在训练中。MetaAI也表示接下来的几个月里,将发布多个具有新功能的模型,包括多模态、多语言对话能力、更长的上下文窗口以及更强的综合能力的模型。

测试的方法和过程:

https://github.com/meta-llama/llama3/blob/main/eval_details.md
Blog: https://ai.meta.com/blog/meta-llama-3

HF: https://huggingface.co/meta-llama/Meta-Llama-3-70B

https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3
  • 结构与Llama2基本一致,词表大小扩充到128K,8B和70B大小的模型中都采用了分组查询注意力(GQA),最大长度8K。
  • 15T Tokens进行模型预训练,整体是Llama2的7倍,代码数据是Llama2的4倍,其中5%的数据由其他30种语言组成。
  • 训练优化(数据并行、模型并行和流水线并行)实现同时在16K个GPU上训练,每个GPU的计算利用率超过400 TFLOPS。最终在24K个GPU上训练,相比于Llama2训练效率提高了约三倍。
扫码领红包

微信赞赏支付宝扫码领红包

发表回复

后才能评论