@sparklydream 在【SNSE Bench】目前进度 / 预告帖中发帖个人维护的基于算法竞赛题目的微型 LLM Benchmark

@sparklydream 在【SNSE Bench】目前进度 / 预告帖中发帖

个人维护的基于算法竞赛题目的微型 LLM Benchmark。 
前情提要： 


注意：尽管都是编程相关，算法竞赛题目所需的能力与软件工程 / Coding Agent 并不完全重合。模型在 SNSE Bench 中的表现与其软件工程能力并无必然联系。 
全称：SNSE’s Not Software Engineering Bench。 
进展
已经结束了第一批题目的挑选，每道题目都设计了子任务。后续会继续更新。 
目前已经测试完了以下模型： 

Gemini 3 Flash
Kimi K2.5
Qwen 3.6 Plus
DeepSeek Web (20260405)

目前正在测试以下模型： 

Gemini 3.1 Pro
GPT 5.4

目前没有可靠的 Claude 渠道，欢迎愿意提供的佬友联系。 
如无特殊说明，思考强度均为可用的最高档，无工具调用。 
模型均来自于一些平台的...