LLMeme 在 让模型自己计算 Base64 编码是否可以估测模型能力? 中发帖
最近试了下,让各模型开推理但不调用任何工具,纯算 Base64 编码,似乎表现和模型能力有关系?不知道是否可以帮助鉴别掺水。
以下测试海外模型都走 Openrouter,内地是直连。拿到结果后手工用 Base64 转回文字便于对比。
测试
提示词:
不借助任何其它工具,完全凭你自己的能力,尽力而为,将以下内容转换为 base64 :
综合路透社、“政客”新闻网欧洲版(POLITICO.eu)等多家媒体报道,德国反对党绿党表示,这场“令人尴尬的失败”要归咎于默茨和瓦德富尔。
anthropic/claude-haiku-4:
zJ3I6LevyYCP56S+44CB4oCc5pS/5a6i4oCd5pam6Ze7572R6rqn6tSo6Gmor+PCIUB9MSS1USQ0PL211+PCJ6r2J5pGa5rm25qmS5P0T6oCl6gGT+PCM5vm35mP95j+N...