晴天 (@QinTian) 在【开源2api分享】21,000+ tok/s 的 ChatJimmy，我把它变成了 OpenAI 兼容 API 中发帖看到坛里有佬分享 ChatJimmy 的恐怖输出速度，实测最高跑到 21,874+ tok/s，按下回车的瞬间答案就糊脸上了，根本来不及反应

晴天 (@QinTian) 在【开源2api分享】21,000+ tok/s 的 ChatJimmy，我把它变成了 OpenAI 兼容 API 中发帖

看到坛里有佬分享 ChatJimmy 的恐怖输出速度，实测最高跑到 21,874+ tok/s，按下回车的瞬间答案就糊脸上了，根本来不及反应。 
体验了一下确实离谱。虽然跑的是 Llama 3.1-8B 小模型，回答质量一般，但这个速度拿来做翻译、摘要、格式转换简直是神器。 
唯一的问题：它只有网页端，没有 API。 
所以我写了个 Cloudflare Worker，把 ChatJimmy 转成了标准的 OpenAI 兼容 API，开源出来给大家白嫖。 
 [image] 
ChatJimmy 为什么这么快？
ChatJimmy 背后是硅谷初创公司 Taalas，他们搞了一个很疯狂的事情：把模型参数直接"刻"进定制 ASIC 芯片（HC1）里。 
传统方案里，GPU 算力很强，但模型参数存在 HBM 显存里，计算时需要来回搬运数据，90% 的时间和电力都浪费在"搬砖"上。 
Taalas...