https://linux.do 论坛的话题更新通知频道。
henry (@Henry_Gorden) 在 新人报道,对大模型的评测佬友们有何见解 中发帖
最近在折腾大模型评测,发现同一模型在不同 benchmark 上表现差异还挺明显的,尤其是长链推理和幻觉控制这块。
用 OpenCompass 跑效果、LLMPerf 看性能时,抽样策略和参数设置(比如 temperature)对结果影响也不小,多轮测试下来波动还是挺真实的。
大家在做评测的时候,一般怎么平衡数据规模和测试稳定性?有没有比较推荐的做法?凤凰山 (@aizimuji) 在 同样模型, 比如gpt5.4, 在claude里面用和codex用效果相比如何 中发帖
有人实际评测过吗
都说claude好, 那在claude里面用gpt模型是不是比codex好呢@LinuxGoGoGo 在 刚刚,AI「美军女神」骗穿美国!4个月吸粉100万,Meta连夜封杀 中发帖
短评:这个新闻只看图就够了 😍
[image]
[image]
[image]
[image]
[image]
[image]是橙子不是橙汁 (@is_xingyu) 在 晚9点入睡,睡不着,求支招,或者用什么药物 中发帖
如题:
昨天晚上克制住了玩手机的欲望,9点就准备入睡,辗转反侧,躺了1个半小时。
期间在和自己做斗争,最终战败,看手机到12点半,才睡着。
这种作息已经很久了,过年回老家的时候,轻轻松松8点、9点就能睡着。
来上班以后,就天天熬夜,老煎熬了,早上起床也不轻松。
求给为佬友的入睡焚诀,或者有什么安全的药物能让我早点睡?NIMao 在 佬们,有什么在艺术设计方面好用的ai工具吗? 中发帖
最近需要设计一些店铺主副图和A+,但是没有系统的学习过,有没有那种可以对接ps进行设计的ai,按照你的指示去生成每个图层。或者其他的好用的也行,推荐的我都去试试。@cool609 在 cc提示 response exceeded the 32000 output token maximum 应该怎么搞啊 中发帖
[fa0053d15d22379fdfeefe774039a12b]
API Error: Claude’s response exceeded the 32000 output token CLAUDE_CODE_MAX_OUTPUT_TOKENS environment variable.
用的中转站,需要在setting中配置什么吗@TVpoet 在 三月ai究竟发生了什么 中发帖
三月大事件:先是谷歌反重力大幅开团削减pro额度
随后微软copilot取消pro对于高级模型的支持
然后因L站内奸举报,openai加大了对注册机的监察
随后到来的是aws封杀,这导致很多公益站难以维系
最后是claude官方风控力度加强🥲
天才程序员们还好吗@yishunya 在 微信ClawBot连接到OpenClaw有巨大漏洞! 中发帖
昨天我安装了微信ClawBot,试试效果很不错,能直接控制我的电脑,同时我看了里面md文件,可以支持多人扫码使用,那挺好呀!其他人也可以试用这个插件,可我不想把主main给别人啊,就想着微信ClawBot能不能路由到OpenClaw指定的agents里面,于是我要龙虾自己去配置,它酷酷一顿操作,还是不行,这是为啥??monkey zhang 在 第二波回馈佬友gpt5.4日400刀 中发帖
之前分享了两拨gpt5.4,佬友们速度还是很快,都蹬完了,今天增加额度400到,回馈L站佬友。
息,周一再分享吧。
auth.json
{
"OPENAI_API_KEY": "sk-NHpBSCmdkOEkG1K8RIJqQvOrhKHsDhAeUo75Z3O3plTIAZ7F"
}
config.toml
model_provider = "codexeasy"
model = "gpt-5.4"
model_reasoning_effort = "high"
disable_response_storage = true
[model_providers.codexeasy]
name = "codexeasy"
base_url = "https://www.codexeasy.com"
wire_api = "responses"
requires_openai_au...