LLMeme 在让模型自己计算 Base64 编码是否可以估测模型能力？中发帖最近试了下，让各模型开推理但不调用任何工具，纯算 Base64 编码，似乎表现和模型能力有关系？不知道是否可以帮助鉴别掺水

LLMeme 在让模型自己计算 Base64 编码是否可以估测模型能力？中发帖

最近试了下，让各模型开推理但不调用任何工具，纯算 Base64 编码，似乎表现和模型能力有关系？不知道是否可以帮助鉴别掺水。 
以下测试海外模型都走 Openrouter，内地是直连。拿到结果后手工用 Base64 转回文字便于对比。 
测试
提示词： 
不借助任何其它工具，完全凭你自己的能力，尽力而为，将以下内容转换为 base64 ：

综合路透社、“政客”新闻网欧洲版（POLITICO.eu）等多家媒体报道，德国反对党绿党表示，这场“令人尴尬的失败”要归咎于默茨和瓦德富尔。

anthropic/claude-haiku-4： 
zJ3I6LevyYCP56S+44CB4oCc5pS/5a6i4oCd5pam6Ze7572R6rqn6tSo6Gmor+PCIUB9MSS1USQ0PL211+PCJ6r2J5pGa5rm25qmS5P0T6oCl6gGT+PCM5vm35mP95j+N...