Dannniel (@whighw)佬友们,商汤这次的开源文生图模型Sense Nova U1的技术报告出来了,量大管饱,还有免费的token可以领 中发帖

之前刷推老看见有KOL在转发他们的产品,这次技术报告一出来,还挺有意思的 
先放架构图: 
 [image] 
熟悉文生图模型的老友们都知道,过去的模型都是先将像素的RGB数值转化为向量,放在潜空间里(VAE层) 
这次他们的统一架构NEO-Unify完全摒弃了这个做法,采取的是像素输入,像素输出,让模型直接理解图片,而不是一堆潜空间里的数据 
 [image] 
在训练数据上,理解类和生成类数据分别用了: 


理解类数据




预训练混合比例: 包含图文对 (32%)、纯文本 (37%)、详细描述 (17%) 以及信息图表 (14%)。 


中期训练: 采用 SenseNova V6.5 数据集,并通过多维度过滤(采样平衡 + 提示词增强 + 模型自动化评分)进行精炼。 




生成类数据




VLM 重标注 (Re-captioning): 所有图像(涵盖自然、设计、人像、...
 
 
Back to Top