KenithZ 在基于DS4proTokenizer和GLM5.1Tokenizer的单次性能测试中发帖3月入了L站后接触到了codex后，觉得以前使用古法chat模式做开发真的是太惨了，同时内心中压抑的很久的想法终于压制不住了，于是在4月19，创建了一个llm工程

KenithZ 在基于DS4proTokenizer和GLM5.1Tokenizer的单次性能测试中发帖

3月入了L站后接触到了codex后，觉得以前使用古法chat模式做开发真的是太惨了，同时内心中压抑的很久的想法终于压制不住了，于是在4月19，创建了一个llm工程。工程的作用是什么呢，对，就是妄图在gpt的帮助下手搓一个llm。因为当时最强的开源国模，就是glm5.1，而且还是mit协议的，没有太大的协议风险。想着有现成的Tokenizer干嘛不用。于是就以5.1的Tokenizer作为基础开始手搓模型。于是开始了长达10天的llm工程化，于是什么 SwiGLU、CLA+GQA、RetNet统统扔进模型里面。然后4.29在开发到从单卡训练转FSDP2下跑多卡训练的时候就发现ds4发布了，还是mit协议的。于是本着反正模型都还没彻底定型，多试几个Tokenizer，看看哪个比较好（单纯是因为5060ti16G练不动了，5.1回家把4060ti16g也插上做双卡）。于是就有了下面的对比。前期实...