@Royo 在三个地区不同服务器调用Nvidia api的比较中发帖穷的没有token用，打起了老黄的主意

@Royo 在三个地区不同服务器调用Nvidia api的比较中发帖

穷的没有token用，打起了老黄的主意。用脚本测试了老黄家一些热门模型。 
本次测试北京时间周一早上4点，三台服务器测试时间差不超过10分钟。 
▋ 这些测试脚本是在三台服务器本机上跑的，latency_ms/timeout基本就是： 
服务器 → build.nvidia.com/api 节点

之间的网络和服务响应情况，不包含回国的延迟。 
▋ 结果的影响因素 
𝟭. 服务器出口网络质量 / 路由 / ip信誉 
𝟮. nvidia 后端不同地区/集群/模型调度差异 
▋ 服务器测试结果： 

latency_ms = 延迟
daily_calls = 过去30天内的日均API调用，判断模型是否热门
ctx = contextWindow 上下文长度，sub2api里部署测得
max_out = maxTokens 最大输出token，sub2api里部署测得

⚠ 插一点关于 con...