@Royo 在 三个地区不同服务器调用Nvidia api的比较 中发帖
穷的没有token用,打起了老黄的主意。用脚本测试了老黄家一些热门模型。
本次测试北京时间周一早上4点,三台服务器测试时间差不超过10分钟。
▋ 这些测试脚本是在三台服务器本机上跑的,latency_ms/timeout基本就是:
服务器 → build.nvidia.com/api 节点
之间的网络和服务响应情况,不包含回国的延迟。
▋ 结果的影响因素
𝟭. 服务器出口网络质量 / 路由 / ip信誉
𝟮. nvidia 后端不同地区/集群/模型调度差异
▋ 服务器测试结果:
latency_ms = 延迟
daily_calls = 过去30天内的日均API调用,判断模型是否热门
ctx = contextWindow 上下文长度,sub2api里部署测得
max_out = maxTokens 最大输出token,sub2api里部署测得
⚠ 插一点关于 con...