Dannniel (@whighw) 在 商汤的文生图模型 SenseNova U1 开始发图文交错的内测码了,分享给老友们 中发帖
商汤这次发布的模型SenseNova U1还挺有意思
做AI这行久了,我对"理解模型看不懂图、生成模型画不对意思"这种割裂早就见怪不怪了。视觉理解模型(比如CLIP、传统VLM)看图说话一把好手,但让它画张图就歇菜;图像生成模型(比如Stable Diffusion)画出来的东西确实漂亮,可你让它理解复杂语义,它就抓瞎。
"理解"和"生成"之间这道鸿沟,一直是多模态AI最头疼的问题。
所以商汤宣布开源基于NEO-unify架构的SenseNova U1系列模型时,我第一反应是——终于有人认真做"统一"了。它从架构层面就把语言和视觉信息当作一个整体来建模,理解和生成之间没有边界。光这个思路就值得好好试试。
开源地址:
GitHub:GitHub - OpenSenseNova/SenseNova-U1: SenseNova-U series: Native Unified Par...