@JackBlue 在 百度开源两个生图模型ERNIE-Image 中发帖
ERNIE图像 ERNIE-Image 是百度 ERNIE-Image 团队开发的开源文本转图像模型。它基于单流扩散变换器 (DiT),采用潜在扩散 (LDM) 框架,拥有 80 亿个参数。该模型自带一个轻量级的提示增强器,可以将简短的输入扩展为更丰富、更结构化的提示,从而更好地发挥模型的性能。ERNIE-Image 仅使用 80 亿个 DiT 参数,就实现了开源权重文本转图像模型中最先进的性能——而且它的设计不仅注重视觉效果,更注重可控性:准确的内容呈现与美观同样重要。在实践中,它尤其擅长复杂的指令跟踪、精确的文本渲染和结构化图像生成——而这些领域正是许多现有开源权重模型的短板。
在线体验:
[image]