PixArt-Σ

5天前发布 145 0 0

PixArt-Σ是一个由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发的扩散变换器模型(DiT),专门用于4K分辨率的文本到图像生成。

收录时间:
2025-07-06
PixArt-ΣPixArt-Σ

功能特点

PIXART-Σ的功能特点主要体现在以下几个方面:

  1. 高效的训练过程:PIXART-Σ通过结合更高质量的数据,实现了从“较弱”的基线模型到“更强”的模型的进化,这一过程被称为“弱到强训练”。这种训练方式不仅提高了模型的性能,也使其在处理各种复杂的图像生成任务时具有更高的效率。
  2. 高效的标记压缩:PIXART-Σ采用了高效的标记压缩技术,这种技术可以显著减少训练过程中的计算量,同时保持模型的性能,从而进一步提升了训练效果。
  3. 4K文本到图像生成:PIXART-Σ支持直接生成4K分辨率的高质量图像,这对于需要高分辨率视觉内容的应用场景,如电影、游戏和高质量视觉内容制作等,具有极大的价值。
  4. 较小的模型大小:尽管PIXART-Σ能够实现卓越的图像质量和用户提示的遵循能力,但其模型大小却相对较小,这使其在运行和部署时具有更高的灵活性和效率。

和主流其他模型效果对比

上图展示了PixArt-Σ与一些开源模型(如PixArt-α和SDXL)在相同的文本提示下的生成效果:与PixArt-α相比,PixArt-Σ显著提高了肖像的真实感和语义分析能力。与SDXL相比,该方法具有更好的遵循用户指令的能力。其中关键字高亮显示为蓝色。

    上图展示了PixArt-Σ和其它四款T2I产品:Firefly 2、Imagen 2、Dalle 3和Midjourney V6在相同的文本提示下的生成效果。通过观察,我们可以发现:PixArt-Σ生成的图像与这些商业产品相比非常具有竞争力

数据统计

相关导航

暂无评论

none
暂无评论...