@Royo三个地区不同服务器调用Nvidia api的比较 中发帖

穷的没有token用,打起了老黄的主意。用脚本测试了老黄家一些热门模型。 
本次测试北京时间周一早上4点,三台服务器测试时间差不超过10分钟。 
▋ 这些测试脚本是在三台服务器本机上跑的,latency_ms/timeout基本就是: 
服务器 → build.nvidia.com/api 节点

之间的网络和服务响应情况,不包含回国的延迟。 
▋ 结果的影响因素 
𝟭. 服务器出口网络质量 / 路由 / ip信誉 
𝟮. nvidia 后端不同地区/集群/模型调度差异 
▋ 服务器测试结果: 

latency_ms = 延迟
daily_calls = 过去30天内的日均API调用,判断模型是否热门
ctx = contextWindow 上下文长度,sub2api里部署测得
max_out = maxTokens 最大输出token,sub2api里部署测得

⚠ 插一点关于 con...
 
 
Back to Top