-
Notifications
You must be signed in to change notification settings - Fork 556
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
agent_monitor线程死锁问题 #146
Comments
请问这个问题有没有复现的方法呢? |
暂时没有重现方法,但我们用的是比较旧的版本,有没有可能是这个bug的原因? 修复了一个重大BUG,某些编译环境下会导致单调时间获取不正确,从而使得设置了CLOCK_MONOTONIC的condition工作不正常,表现为运行卡死,Master无法选举等。如出现类似现象的,建议立即更新此版本。 |
我也不确定是不是版本问题,复现不了的话有点难查。。你现在用的版本是多少? |
具体哪个版本不清楚,是在phxpaxos更新这个bug之前的一个版本, |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
大概情况为:
三台机子,一台由于末知原因一直追同步不上。然后剩下两台选不出主(主信息过期,一直选不出)。集群不工作。
调查发现剩下的两台机子的agent_monitor线程都hang住了
一台估计hang在
估计在bool bHasLock = m_oWaitLock.Lock(m_iTimeoutMs, iLockUseTimeMs);这一句
是取不到锁
hang住前日志如下:
hang住前有个 DoQuery[mysql] mysql_query fail 1, Lost connection to MySQL server during query, command show status like 'Slave_running';
在15号04:23,然后就没日志了,其中xxx.xxx.xxx.xxx是自己,然后15号白天重启过一次,mysql一直卡在so的2017-11-16 02:35:52 24033 [Note] get last send gtid failed, svrid [61a0f7cd-c47b-11e7-996a-246e960fda64] ret -1启不来, agent_monitor一直连不上mysql报错。然后是在1116 02:35:54左右可以了,选出了主。因为重启了hang后日志就不发了?
另一台hang在
Committer :: NewValueGetIDNoRetry的GetResult中
是在等提交吧,
hang住前日志如下:
然后是过了快一天,
hang住后日志如下:
卡了一天最终返回 14 PaxosTryCommitRet_Conflict 是一个冲突了
请问是什么原因会导致这种死锁?
The text was updated successfully, but these errors were encountered: