Sana：使用线性扩散Transformer实现高效的高分辨率图像合成

Sana：使用线性扩散Transformer实现高效的高分辨率图像合成 (nvlabs.github.io)

原文: Sana

Sana是一个文本到图像的框架，可以高效地生成高达4096 × 4096分辨率的图像。它采用深度压缩自动编码器，将图像压缩32倍，并使用线性DiT替代传统的注意力机制，提高效率。此外，Sana使用解码器-LLM作为文本编码器，并通过高效的训练和采样策略，如Flow-DPM-Solver，加速收敛。与其他模型相比，Sana-0.6B在保持高质量的同时，速度更快，甚至可以在笔记本GPU上运行。

上一篇: 75 倍加速：优化 Ion 编译器后端

下一篇: 亚马逊更新其电子阅读器产品线，包括更大屏幕的Paperwhite

评论已经关闭！

返回首页