Yanis 在 灰度测试deepseek新模型 中发帖
通过创建新会话有机会进入deepseekV4新模型的灰度版本,简单的进行了个测试
黑洞测试,需要模拟出真实的物理引擎,这道题之前国产模型根本做不出来。
[image]
这是它出的黑洞效果,和Gemini3pro有的一拼了。但是不知道是不是个路由拼好模,多次生成时好时坏的,但是风格又不是dsv3.2,只能说上限接近Gemini3pro,但是后面几次生成,连渲染都渲染不出来🫠
幻觉问题:
ds的幻觉大的一批,都能编对话了
[image]
B站有视频做了更详细的幻觉测试:BV19tcYzKEyZ
除了重复不存在的对话,还有发[image] [file1]假装图片的
[image]
[image]
这个幻觉程度,达到了史无前例的高
后续拿着[image] [file1]又去试了gemini,也有一样的问题,而且他更恐怖,还会提取对话记忆——我此前有某个会话发过一张戴...