Sana:使用线性扩散Transformer实现高效的高分辨率图像合成

2024-10-16

Sana是一个文本到图像的框架,可以高效地生成高达4096 × 4096分辨率的图像。它采用深度压缩自动编码器,将图像压缩32倍,并使用线性DiT替代传统的注意力机制,提高效率。此外,Sana使用解码器-LLM作为文本编码器,并通过高效的训练和采样策略,如Flow-DPM-Solver,加速收敛。与其他模型相比,Sana-0.6B在保持高质量的同时,速度更快,甚至可以在笔记本GPU上运行。

未分类