RDS链路卡慢问题的诊断

  • 时间:
  • 浏览:9
  • 来源:uu快3分析_uu快3APP_计划

(1)    当DNS链路服务再次再次出现问提:

用户端的APPàRDS测试:(DNS连接)

用户应用线程池池池从深更深更半夜0:05左右一直后后后后刚开始 英语 再次再次出现连接RDS超时,RDS,ECS的cpu,网络,io负载都在高,或多或少影响用户的正常使用,用户的报错截图:

最后建议用户从业务上去排查是是是不是发生异常,最终定位应用异常原因 。

(2)    当VIP 链路再次再次出现问提:

都才能看一遍无论从用户本地的app环境去连接RDS,还是从大家 本人的vm去连接RDS,都在非常快的,没有再次再次出现过超时:就说链路上是没有问提的;

用户在3台不同的vm上去连接测试RDS,发现都再次再次出现了一定量的连接时间高或多或少超时,证明了RDS的链路上确实发生了问提,或多或少事先让人提工单进行反馈;进一步去探测DB节点的RT,结果发现在后端的DB服务器上再次再次出现了异常,最终定位问提在后端的物理服务器上硬件再次再次出现了问提,在替换硬件后问提得以解决。

(3)    正常具体情况下的链路表现:

当大家 测试出DNS的连接比较耗时,而使用vip连接正常的事先,则表明DNS解析比较耗时,此时的问提则再次再次出现在了DNS服务上端,或多或少事先都才能尝试换用其它的DNS服务器,或多或少启用DNS缓存服务,或多或少暂时在hosts文件中绑定DNS和IP地址,等DNS服务恢复正常后在撤出 绑定(大家 强烈建议在正常具体情况下不须绑定RDS的DNS和IP地址,或多或少直接使用IP地址进行访问,或多或少RDS的IP地址或多或少会发生改变,绑定ip或多或少直连ip的土最好的办法会原因 RDS访问出错);

为了验证用户所说的APP连接RDS再次再次出现连接超时的具体情况,大家 必须部署监控,看看监控中是是是不是与应用中的超时时间一致,于是在用户app以及大家 的一台vm上部署sqlping,用于实时探测用户的rds是是是不是发生连接超时的具体情况:

当大家 测试超出DNS连接比较耗时,同时使用vip连接也比较耗时的事先,则表明RDS的VIP链路再次再次出现了异常,或多或少事先都才能提交RDS的工单,让后端的人员进行排查。

第一步:获取链路RT

一直会收到用户反馈在使用RDS的过程中再次再次出现卡慢,闪断地具体情况,当再次再次出现此类问提的事先,首先大家 要进行一下测试,看看问提再次再次出现在哪另2个阶段,RDS给到用户的是另2个DNS地址,确实他包括另2个阶段:DNS–>VIP–>DB

案例分析一:

正常具体情况下,通过DNS或多或少vip的土最好的办法去连接RDS,RT应该在20ms以下。

       大家 都才能在本地的应用服务器(VM)上通过简单的ping命令,或多或少数据库的客户端去不断的连接测试RDS,来获取每次连接RDS的响应时间(RT)。在正常具体情况下RT应该小于20ms以内,或多或少超出10ms,则表明了RDS的网络链路再次再次出现了异常,或多或少事先大家 就必须去排查一下是在哪里再次再次出现了问提:

案例分析二:

用户反馈实例再次再次出现写入带宽过慢.写入带宽不如正常具体情况下1/10.

在大家 本人vm上部署的探测测试:(DNS连接)

排查用户的RDS,ECS的cpu,io负载都在高,但在数据库中发现了有network io的等待的图片 ,是都在网络再次再次出现了异常,就说或多或少事先必须测试正常的一次连接RDS必须消耗多久的时间,通过SQLping发现了重要线索: