Anan (@milynn)自己vibe的研究内容小应用测试Minimax。opus评价M3不如M2.7。 中发帖

**叠甲:**不评价minimax现在额度这块的消息,最终肯定会有个定论。🙄 
个人看法:跟之前一样minimax并不是很值得付费,仅能够当做龙虾玩具跑一些目标和流程比较具体小功能。 
**裁判:**claude-opus-4.8 max 
这次测试用的流程: 
 [image] 
同一个问题使用 
[image] 
首先耗时上,M3很慢。当然有可能是M3还没有highspeed模型。 
 [image] 
然后是claude评判的结果。直接上对比总结表。 
 [image] 
1. M3反直觉:最新的 M3 综合表现最差。 AI味重(57 分,两项高危),一个真实生成缺陷------第三章整章丢失、留了一句翻译模型的报错。。。而且耗时是高速档的 2.2 倍。 
文章开头的现状判断:四条主线的证据与边界是三篇里单段推理质量最高的。明确把已验证结论和概念验证/预测分开。思考时间这么久这点优势...
 
 
Back to Top