基于 Transformer 的图像生成模型 3D 隐式表示的研究

2024-05-01

本研究提出了一种新的基于 Transformer 的图像生成模型,称为 3D 隐式 Transformer 图像生成(3D-ITR)。3D-ITR 采用 Transformer 架构,将图像表示为三维隐式表示,这使得它能够捕获图像的形 状、纹理和语义信息。此外,3D-ITR 使用 Patch Transformer 编码器来提取图像的局部特征,并使用自注意力机制融合图像的不同部分的信息。在各种图像生成任务上的实验表明,3D-ITR 在图像质量、多模态和多样性方面优于现有的方法。

38