狐狸汉克 (@foxhank) 在 在一台Mate70鸿蒙手机上跑起来了千问2.5模型 中发帖
[c80aa921d77657bf263a4d3ab51c293]
设备是Mate70 Pro,鸿蒙6.0.0.130,完全本地部署千问2.5 0.5b参数模型。使用llama.cpp作为后端推理模块。
感觉NPU根本没发力,纯CPU硬算的,速度大概1秒一个token,目前还在优化,但是至少证明是可行的。