Dannniel (@whighw) 在 佬友们,商汤这次的开源文生图模型Sense Nova U1的技术报告出来了,量大管饱,还有免费的token可以领 中发帖
之前刷推老看见有KOL在转发他们的产品,这次技术报告一出来,还挺有意思的
先放架构图:
[image]
熟悉文生图模型的老友们都知道,过去的模型都是先将像素的RGB数值转化为向量,放在潜空间里(VAE层)
这次他们的统一架构NEO-Unify完全摒弃了这个做法,采取的是像素输入,像素输出,让模型直接理解图片,而不是一堆潜空间里的数据
[image]
在训练数据上,理解类和生成类数据分别用了:
理解类数据
预训练混合比例: 包含图文对 (32%)、纯文本 (37%)、详细描述 (17%) 以及信息图表 (14%)。
中期训练: 采用 SenseNova V6.5 数据集,并通过多维度过滤(采样平衡 + 提示词增强 + 模型自动化评分)进行精炼。
生成类数据
VLM 重标注 (Re-captioning): 所有图像(涵盖自然、设计、人像、...