翎 (@black_ancker)Claude Code开发者:大海捞针测试不能正确反映模型上下文能力 中发帖

[image] 
这也说明了为什么4.7在这项测试上开倒车,我认为这个说法还是可信的,毕竟这些AI公司想针对某个评测集刷分是很容易的 
推文链接; 
https://x.com/bcherny/status/2044821690920980626
 
 
Back to Top