判断网络延迟主要看RTT、抖动(jitter)和丢包率。常用工具有ping、mtr、traceroute。对同一欧盟区域内服务,RTT 30ms通常被认为比较快;跨洲访问(如亚洲→欧洲)RTT 100ms以内可接受。抖动稳定且丢包低于1%是高可用的标志。结合traceroute分析链路跳数与所在骨干ISP,可定位是否为路由或互联问题。
重点看带宽利用率(tx/rx)、TCP吞吐量、丢包与重传次数。用iperf3做端到端吞吐测试,观察实际可达的Mbps/Sustained throughput。若业务需要高并发传输,稳定持续带宽接近标称带宽且丢包/重传极少,才算真正“快”。还要注意网卡(虚拟网卡)是否启用了GRO/TSO,及宿主机是否存在网络限速或QoS策略。
关键指标包括CPU利用率、steal(被抢占时间)、iowait与磁盘延迟(ms)、IOPS、缓存命中率。若出现高steal或持续性iowait(>10%),即使网络快,响应也会变慢。用top、vmstat、iostat、fio等工具检测:磁盘延迟小于1ms(NVMe)或可接受的SLA范围内,IOPS满足峰值负载,才能保证整体性能。
推荐用响应时间的分位数(p50/p95/p99)来量化。例如HTTP请求p95 200ms、p99 500ms可以作为在线业务参考;同时设置延迟、丢包、错误率和可用性报警阈值(如丢包>1%、错误率>1%、响应时间超阈比例>5%)。结合SLA指标(可用性99.9%等)和试验流量来验证是否持续达标。
误区包括只看峰值带宽而忽略延迟/抖动,只测单次ping而不看p95/p99,以及忽视宿主机资源争用(steal)。优化建议:选择靠近目标用户的欧洲节点、启用SSD/NVMe、调整内核网络参数(如TCP窗口、拥塞控制BBR)、开启HTTP缓存/CDN、合理拆分服务并使用负载均衡、定期通过mtr/iperf3/fio做回归测试并把关键指标纳入监控面板与报警策略。
