香农 (@Shannon) 在我认为 gpt image2 的效果这么好，很大程度上是做了工程上的优化中发帖底模肯定是有改进的，但单从纯图片的表现力来看，还不至于甩大香蕉一大截

香农 (@Shannon) 在我认为 gpt image2 的效果这么好，很大程度上是做了工程上的优化中发帖

底模肯定是有改进的，但单从纯图片的表现力来看，还不至于甩大香蕉一大截。最近大家都用 UI界面、网页布局和中文文字来测试 image2，横平竖直做到非常好，中文也很清晰，太好了，以至于让我感觉不像是单次推理就能生出来的图。 
我大胆假设：image2 是不是可能有一套 类似于 ps 的 agent 工作流？可能生图过程不是一气呵成的，它底层会先解耦：比如先通过代码生成前端框架，再嵌入ai生成的图，最后再用ai来全局润色/重绘；中文效果这么好，也很有可能是先用文字层布局，再重绘一遍来实现融合。鉴于我对文本大模型的使用经验来看，上下文稍微长一点都可能前言不搭后语。很难理解这些图片能做到图像拓扑结构上如此完美的精确性。 
假如这些图片真的是一口气生成出来的，那会不会很快，视频生成模型的 sota 也要易主到 openai 了？