Dannniel (@whighw) 在佬友们，商汤这次的开源文生图模型Sense Nova U1的技术报告出来了，量大管饱，还有免费的token可以领中发帖之前刷推老看见有KOL在转发他们的产品，这次技术报告一出来，还挺有意思的

Dannniel (@whighw) 在佬友们，商汤这次的开源文生图模型Sense Nova U1的技术报告出来了，量大管饱，还有免费的token可以领中发帖

之前刷推老看见有KOL在转发他们的产品，这次技术报告一出来，还挺有意思的 
先放架构图： 
 [image] 
熟悉文生图模型的老友们都知道，过去的模型都是先将像素的RGB数值转化为向量，放在潜空间里（VAE层） 
这次他们的统一架构NEO-Unify完全摒弃了这个做法，采取的是像素输入，像素输出，让模型直接理解图片，而不是一堆潜空间里的数据 
 [image] 
在训练数据上，理解类和生成类数据分别用了： 


理解类数据




预训练混合比例： 包含图文对 (32%)、纯文本 (37%)、详细描述 (17%) 以及信息图表 (14%)。 


中期训练： 采用 SenseNova V6.5 数据集，并通过多维度过滤（采样平衡 + 提示词增强 + 模型自动化评分）进行精炼。 




生成类数据




VLM 重标注 (Re-captioning)： 所有图像（涵盖自然、设计、人像、...