狐狸汉克 (@foxhank) 在在一台Mate70鸿蒙手机上跑起来了千问2.5模型中发帖[c80aa921d77657bf263a4d3ab51c293]

狐狸汉克 (@foxhank) 在在一台Mate70鸿蒙手机上跑起来了千问2.5模型中发帖

[c80aa921d77657bf263a4d3ab51c293] 
设备是Mate70 Pro，鸿蒙6.0.0.130，完全本地部署千问2.5 0.5b参数模型。使用llama.cpp作为后端推理模块。 
感觉NPU根本没发力，纯CPU硬算的，速度大概1秒一个token，目前还在优化，但是至少证明是可行的。