LLaMA-2 的基础能力,采用高效的训练方法

Colossal-AI 团队充分利用了 LLaMA-2 的基础能力,采用高效的训练方法,仅使用约 8.5B token 数据、15 小时、数千元的训练成本,成功构建了性能卓越的中文 LLaMA-2,在多个评测榜单性能优越。

相较于原始 LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练 SOTA 模型媲美。

开源代码与权重:github.com/hpcaitech/ColossalAI

该项目在 GitHub 完全开源了全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架 ColossalEval,以实现低成本的可复现性。

不仅如此,相关方案还可迁移应用到任意垂类领域,以及从头预训练大模型的低成本构建。感兴趣的同学可以试下。

未经允许不得转载:表盘吧 » LLaMA-2 的基础能力,采用高效的训练方法