摩尔线程开源音频理解大模型 MooER-岩猫星空网

摩尔线程宣布开源音频理解大模型—MooER（摩耳）。公告称，MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型，不仅支持中文和英文的语音识别，还具备中译英的语音翻译能力。

摩尔线程AI团队在该工作中开源了推理代码和5000小时数据训练的模型，并计划进一步开源训练代码和基于8万小时数据训练的模型。

MooER的模型结构包括Encoder、Adapter和Decoder（Large Language Model，LLM）三个部分。其中，由Encoder对输入的原始音频进行建模，提取特征并获取表征向量。Encoder的输出会送到Adapter进一步下采样，使得每120ms音频输出一组音频Embedding。音频Embedding和文本的Prompt Embedding拼接后，再送进LLM进行对应的下游任务，如语音识别（Automatic Speech Recognition，ASR）、语音翻译（Automatic Speech Translation，AST）等。

在模型训练阶段，融合了语音模态和文本模态的数据会按以下形式输入到LLM：

项目团队将MooER与多个开源的音频理解大模型进行了对比，包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3和SeamlessM4T-v2等。结果显示，MooER-5K在六个中文测试集上的CER（字错误率）达到4.21%，在六个英文测试集的WER（词错误率）为17.98%，与其它开源模型相比，MooER-5K的效果更优或几乎持平。

特别是在Covost2 zh2en中译英测试集上，MooER的BLEU分数达到了25.2，显著优于其他开源模型，取得了可与工业水平相媲美的效果。基于内部8万小时数据训练的MooER-80k模型，在上述中文测试集上的CER达到了3.50%，在英文测试集上的WER到达了12.66%。

更多详情可查看技术文档：https://arxiv.org/pdf/2408.05101

未经允许不得转载：岩猫星空网 » 摩尔线程开源音频理解大模型 MooER

摩尔线程开源音频理解大模型 MooER

作者：pu

相关推荐

近期文章

归档

分类