KenithZ基于DS4proTokenizer和GLM5.1Tokenizer的单次性能测试 中发帖

3月入了L站后接触到了codex后,觉得以前使用古法chat模式做开发真的是太惨了,同时内心中压抑的很久的想法终于压制不住了,于是在419,创建了一个llm工程。工程的作用是什么呢,对,就是妄图在gpt的帮助下手搓一个llm。因为当时最强的开源国模,就是glm5.1,而且还是mit协议的,没有太大的协议风险。想着有现成的Tokenizer干嘛不用。于是就以5.1Tokenizer作为基础开始手搓模型。于是开始了长达10天的llm工程化,于是什么 SwiGLUCLA+GQARetNet统统扔进模型里面。然后4.29在开发到从单卡训练转FSDP2下跑多卡训练的时候就发现ds4发布了,还是mit协议的。于是本着反正模型都还没彻底定型,多试几个Tokenizer,看看哪个比较好(单纯是因为5060ti16G练不动了,5.1回家把4060ti16g也插上做双卡)。于是就有了下面的对比。前期实...
 
 
Back to Top