晴天 (@QinTian) 在 【开源2api分享】21,000+ tok/s 的 ChatJimmy,我把它变成了 OpenAI 兼容 API 中发帖
看到坛里有佬分享 ChatJimmy 的恐怖输出速度,实测最高跑到 21,874+ tok/s,按下回车的瞬间答案就糊脸上了,根本来不及反应。
体验了一下确实离谱。虽然跑的是 Llama 3.1-8B 小模型,回答质量一般,但这个速度拿来做翻译、摘要、格式转换简直是神器。
唯一的问题:它只有网页端,没有 API。
所以我写了个 Cloudflare Worker,把 ChatJimmy 转成了标准的 OpenAI 兼容 API,开源出来给大家白嫖。
[image]
ChatJimmy 为什么这么快?
ChatJimmy 背后是硅谷初创公司 Taalas,他们搞了一个很疯狂的事情:把模型参数直接"刻"进定制 ASIC 芯片(HC1)里。
传统方案里,GPU 算力很强,但模型参数存在 HBM 显存里,计算时需要来回搬运数据,90% 的时间和电力都浪费在"搬砖"上。
Taalas...