LlamaF:嵌入式FPGA上的高效Llama2架构加速器

2024-09-28

文章介绍了一种名为LlamaF的FPGA加速器,旨在提升大型语言模型(LLM)在嵌入式设备上的推理性能。该加速器针对TinyLlama 1.1B模型进行了优化,采用训练后量化技术减少模型大小,并优化了片外内存带宽。通过异步计算和全流水线矩阵向量乘法器设计,LlamaF在Xilinx ZCU102平台上实现了14.3-15.8倍的加速和6.1倍的能效提升。

22
未分类 Llama2