翎 (@black_ancker) 在 Claude Code开发者：大海捞针测试不能正确反映模型上下文能力中发帖[image]

翎 (@black_ancker) 在 Claude Code开发者：大海捞针测试不能正确反映模型上下文能力中发帖

[image] 
这也说明了为什么4.7在这项测试上开倒车，我认为这个说法还是可信的，毕竟这些AI公司想针对某个评测集刷分是很容易的 
推文链接； 
https://x.com/bcherny/status/2044821690920980626