香农 (@Shannon) 在 我认为 gpt image2 的效果这么好,很大程度上是做了工程上的优化 中发帖
底模肯定是有改进的,但单从纯图片的表现力来看,还不至于甩大香蕉一大截。最近大家都用 UI界面、网页布局和中文文字来测试 image2,横平竖直做到非常好,中文也很清晰,太好了,以至于让我感觉不像是单次推理就能生出来的图。
我大胆假设:image2 是不是可能有一套 类似于 ps 的 agent 工作流?可能生图过程不是一气呵成的,它底层会先解耦:比如先通过代码生成前端框架,再嵌入ai生成的图,最后再用ai来全局润色/重绘;中文效果这么好,也很有可能是先用文字层布局,再重绘一遍来实现融合。鉴于我对文本大模型的使用经验来看,上下文稍微长一点都可能前言不搭后语。很难理解这些图片能做到图像拓扑结构上如此完美的精确性。
假如这些图片真的是一口气生成出来的,那会不会很快,视频生成模型的 sota 也要易主到 openai 了?