Neo 在 今天这是还得是机房背锅 中发帖
这是甩锅吗,不是的,真的是机房搞砸了一切,且听我细细道来 :tieba_025:
首先我们看首次告警的时间,是整点,这就很难让人不起疑是不是程序/机房出问题了:
[image]
我上服务器把几台机器都看了一遍,负载都不高。我给他们 ping 了一遍发现了问题,其他机器都是 0.x ms:
[image]
到某台数据库从库的时候,一下来到了 6、7ms,差了几十倍:
[image]
上主库一查,跟这台从库的同步差了7个多G:
[image]
隔了一会再看,不但没少,奖池还在累积:
[image]
显然这台服务器出了问题,我当机立断把这台从库给切掉了,服务虽然有所降级,但恢复了正常,这进一步印证问题。
给机房发工单,一通搞下来问题解决,catchup 变 streaming 稳稳同步:
[image]
你就说是不是机房搞砸了一切?
大概就是这样,并非...