AMD 开源首款小语言模型 AMD-135M-岩猫星空网

AMD 宣布推出 AMD-135M —— Llama 家族的第一个小型语言模型。该模型具有推测解码功能，其训练代码、数据集和权重都是开源的，以便开发人员可以重现该模型并帮助训练其他 SLM 和 LLM。

“大语言模型通常使用自回归方法进行推理。然而，这种方法的一个主要限制是每次前向传递只能生成单个 token，导致内存访问效率低下并影响整体推理速度。

推测解码的出现解决了这个问题。其基本原理是使用小型草稿模型生成一组候选 token，然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token，而不会影响性能，从而显著减少内存访问消耗，并实现几个数量级的速度提升。”

公告称，AMD-135M 使用 AMD Instinct MI250 加速器从头开始训练，拥有 6700 亿个 token，包括 AMD-Llama-135M 和 AMD-Llama-135M-code 两个型号。

更多详情可查看官方公告。

下载地址：https://huggingface.co/amd/AMD-Llama-135m

未经允许不得转载：岩猫星空网 » AMD 开源首款小语言模型 AMD-135M

AMD 开源首款小语言模型 AMD-135M

作者：pu

相关推荐

近期文章

归档

分类