【MySQL运维】记一次线上主从延迟故障
一、事件背景
一个平时没有请求量和负载的边缘数据库反复出现主从延迟告警,延迟会瞬间恢复,过2秒又再次延迟,一直反复。通过show full processlist也没有看到任何SQL在运行。同服务器上另一个实例进行一个大事务操作后,从库卡了几个小时也一直没有同步
二、排查过程
1、登陆从库执行show slave status\G命令,查找是哪条position对应的事务导致了延迟
2、在从库中使用show relaylog events命令查看日志中所记录的具体事件
show relaylog events in 'relay-bin.000730' from 368066588 limit 10 \G
3、找到具体事务后和开发人员沟通,怀疑是定时任务导致的锁表,产生了延迟。于是把这个定时任务暂停,发现问题依然存在。并且该服务器上另一个实例上也出现同样的主从延迟情况。尝试各种办法想在从库上解决问题,结果都没有效果。后来打算重做从库,在进行备份文件拷贝的时候发现传输速度异常,内网环境传输速率只有几十K每秒。最后发现是聚合网卡中的其中一块网卡发生故障,拔掉对应网卡的光纤线后瞬间恢复。所以主从故障时,除了服务本身的问题,还需要检查网络。
版权声明:本文章版权归数据库运维网(www.ywdba.cn)所有。如需引用本站内容,请注明来源及作者。
评论