极简TPU架构详解:从零开始构建芯片加速器

2025-08-19
极简TPU架构详解:从零开始构建芯片加速器

本文介绍了一个极简的张量处理单元(TPU)设计,它借鉴了Google TPU V1和V2的设计理念。该TPU采用2x2的处理单元网格架构,通过流水线处理乘累加运算、偏置相加、Leaky ReLU激活函数和MSE损失函数等操作。其94位指令集控制数据在处理单元网格中的水平和垂直流动,并支持数据预处理、权重矩阵转置等功能。文章还详细介绍了其指令集、硬件架构、以及如何添加新的模块和运行测试等内容,旨在帮助读者入门芯片加速器的设计。