Yanis灰度测试deepseek新模型 中发帖

通过创建新会话有机会进入deepseekV4新模型的灰度版本,简单的进行了个测试 
黑洞测试,需要模拟出真实的物理引擎,这道题之前国产模型根本做不出来。 
 [image] 
这是它出的黑洞效果,和Gemini3pro有的一拼了。但是不知道是不是个路由拼好模,多次生成时好时坏的,但是风格又不是dsv3.2,只能说上限接近Gemini3pro,但是后面几次生成,连渲染都渲染不出来🫠 
幻觉问题: 
ds的幻觉大的一批,都能编对话了 
 [image] 
B站有视频做了更详细的幻觉测试:BV19tcYzKEyZ 
除了重复不存在的对话,还有发[image] [file1]假装图片的 
 [image] 
 [image] 
这个幻觉程度,达到了史无前例的高 
后续拿着[image] [file1]又去试了gemini,也有一样的问题,而且他更恐怖,还会提取对话记忆——我此前有某个会话发过一张戴...
 
 
Back to Top