GitHub - homebrewltd/ichigo: Llama3.1 学会倾听

2024-10-17

🍓 Ichigo(原llama3-s)是一个开源的实时语音AI研究项目,目标是扩展基于文本的LLM,使其具备原生“倾听”能力。它采用受Meta的Chameleon论文启发的早期融合技术,使用WhisperSpeechVQ对连续语音数据进行预训练,并通过在交织的合成数据上进行训练来增强模型的音频指令遵循能力。Ichigo v0.3模型在更清晰、改进的数据集上进行训练,实现了63.79的增强MMLU得分,并展现出更强的语音指令遵循能力,甚至在多轮交互中也是如此。

25
未分类 语音AI