Anan (@milynn) 在自己vibe的研究内容小应用测试Minimax

Anan (@milynn) 在自己vibe的研究内容小应用测试Minimax。opus评价M3不如M2.7。中发帖

**叠甲：**不评价minimax现在额度这块的消息，最终肯定会有个定论。🙄 
个人看法：跟之前一样minimax并不是很值得付费，仅能够当做龙虾玩具跑一些目标和流程比较具体小功能。 
**裁判：**claude-opus-4.8 max 
这次测试用的流程： 
 [image] 
同一个问题使用 
[image] 
首先耗时上，M3很慢。当然有可能是M3还没有highspeed模型。 
 [image] 
然后是claude评判的结果。直接上对比总结表。 
 [image] 
1. M3反直觉：最新的 M3 综合表现最差。 AI味重(57 分，两项高危)，一个真实生成缺陷------第三章整章丢失、留了一句翻译模型的报错。。。而且耗时是高速档的 2.2 倍。 
文章开头的现状判断：四条主线的证据与边界是三篇里单段推理质量最高的。明确把已验证结论和概念验证/预测分开。思考时间这么久这点优势...