记一次etcd全局锁使用不当导致的事故|天天最新

2023-07-01 19:31:13 来源: 博客园

1、背景介绍

前两天，现场的同事使用开发的程序测试时，发现日志中报etcdserver: mvcc: database space exceeded，导致 etcd 无法连接。很奇怪，我们开发的程序只用到了 etcd 做程序的主备，并没有往 etcd 中写入大量的数据，为什么会造成 etcd 空间不足呢？赶紧叫现场的同事查了下 etcd 存储数据的目录以及 etcd 的状态，看看是什么情况。

(资料图片仅供参考)

查看 etcd 状态：

./etcdctl endpoint status --write-out=table --endpoints=localhost:12380

看到这里就很奇怪了，为什么 RAFT APPLYEND INDEX会这么大呢？这完全是不正常的。

想到程序中有主备，程序启动时，会去 etcd 中 trylock相应的锁，获取不到时，则会定期去 trylock，会不会是这里的备节点定期去 trylock导致 RAFT APPLYEND INDEX持续增长从而导致 etcd 空间不足呢？

后面测试了一下，不启动备节点时，RAFT APPLYEND INDEX是不会增大的。那么问题的原因找到了，问题也就比较好解决。

虽然 etcd 提供了 compact 的能力，但是对于我们这个现象，是治标不治本的，所以最好还是从源头解决问题比较好。当然也可以使用 compact 来压缩 etcd 的历史数据，但是需要注意的是 compact 时，etcd 的性能是会收到影响的。

2、场景复现

etcd client 版本

go.etcd.io/etcd/client/v3 v3.5.5

etcd server 版本

etcd-v3.5.8-linux-amd64

模拟代码如下：

package mainimport ("context""fmt"clientv3 "go.etcd.io/etcd/client/v3""go.etcd.io/etcd/client/v3/concurrency""time")var TTL = 5var lockName = "/TEST/LOCKER"func main() {config := clientv3.Config{Endpoints:   []string{"192.168.91.66:12379"},DialTimeout: 5 * time.Second,}// 建立连接client, err := clientv3.New(config)if err != nil {fmt.Println(err)return}session, err := concurrency.NewSession(client, concurrency.WithTTL(TTL))if err != nil {fmt.Println("concurrency.NewSession failed, err:", err)return}gMutex := concurrency.NewMutex(session, lockName)ctx, _ := context.WithCancel(context.Background())if err = gMutex.TryLock(ctx); err == nil {fmt.Println("gMutex.TryLock success")} else {if err = watchLock(gMutex, ctx); err != nil {fmt.Println("get etcd global key failed")return}}// 启动成功，做具体的业务逻辑处理fmt.Println("todo ..............")select {}}func watchLock(gMutex *concurrency.Mutex, ctx context.Context) (err error) {ticker := time.NewTicker(time.Second * time.Duration(TTL))for {if err = gMutex.TryLock(ctx); err == nil {// 获取到锁return nil}select {case <-ctx.Done():return ctx.Err()case <-ticker.C:continue}}}

将上述代码编译成可执行文件 main.exe、main1.exe 后，先后执行上面两个可执行文件，然后通过下面的命令查看 etcd 中的 RAFT APPLYEND INDEX，会发现，RAFT APPLYEND INDEX每隔五秒钟就会增长，长时间运行就会出现 etcdserver: mvcc: database space exceeded。

3、如何解决

上面我们已经复现了RAFT APPLYEND INDEX，其实解决起来也比较简单，主要思路就是不要在 for 循环中使用 trylock 方法。具体代码如下：

package mainimport ("context""fmt"clientv3 "go.etcd.io/etcd/client/v3""go.etcd.io/etcd/client/v3/concurrency""time")var TTL = 5var lockName = "/TEST/LOCKER"func main() {config := clientv3.Config{Endpoints:   []string{"192.168.91.66:12379"},DialTimeout: 5 * time.Second,}// 建立连接client, err := clientv3.New(config)if err != nil {fmt.Println(err)return}session, err := concurrency.NewSession(client, concurrency.WithTTL(TTL))if err != nil {fmt.Println("concurrency.NewSession failed, err:", err)return}gMutex := concurrency.NewMutex(session, lockName)ctx, _ := context.WithCancel(context.Background())if err = gMutex.TryLock(ctx); err == nil {fmt.Println("gMutex.TryLock success")} else {if err = watchLock(client, gMutex, ctx); err != nil {fmt.Println("get etcd global key failed")return}}// 启动成功，做具体的业务逻辑处理fmt.Println("todo ..............")select {}}func watchLock(client *clientv3.Client, gMutex *concurrency.Mutex, ctx context.Context) (err error) {watchCh := client.Watch(ctx, lockName, clientv3.WithPrefix())for {select {case <-ctx.Done():return ctx.Err()case <-watchCh:if err = gMutex.TryLock(ctx); err == nil {// 获取到锁return nil}}}}

将上述代码编译成可执行文件 main.exe、main1.exe 后，先后执行上面两个可执行文件，然后通过下面的命令查看 etcd 中的 RAFT APPLYEND INDEX，不会出现RAFT APPLYEND INDEX持续增长的现象，也就是从源头解决了问题。

4、TryLock 源码分析

以下是自己的理解，如果有不对的地方，请不吝赐教，十分感谢

那下面一起看看 TryLock方法里面做了什么操作，会导致 RAFT APPLYEND INDEX持续增长呢。

TryLock 方法源码如下：

func (m *Mutex) TryLock(ctx context.Context) error {resp, err := m.tryAcquire(ctx)if err != nil {return err}// if no key on prefix / the minimum rev is key, already hold the lockownerKey := resp.Responses[1].GetResponseRange().Kvsif len(ownerKey) == 0 || ownerKey[0].CreateRevision == m.myRev {m.hdr = resp.Headerreturn nil}client := m.s.Client()// Cannot lock, so delete the key    // 这里的 client.Delete 会走到 raft 模块，从而使 etcd 的 raft applyed index 增加 1if _, err := client.Delete(ctx, m.myKey); err != nil {return err}m.myKey = "\x00"m.myRev = -1return ErrLocked}

tryAcquire 方法源码如下：

// 下面主要是使用到了 etcd 中的事务,func (m *Mutex) tryAcquire(ctx context.Context) (*v3.TxnResponse, error) {s := m.sclient := m.s.Client()    // m.myKey = /TEST/LOCKER/326989110b4e9304m.myKey = fmt.Sprintf("%s%x", m.pfx, s.Lease())    // 这里就是定义一个判断语句，创建 myKey 时的版本号是否 等于 0cmp := v3.Compare(v3.CreateRevision(m.myKey), "=", 0)// put self in lock waiters via myKey; oldest waiter holds lock    // 往 etcd 中写入 myKeyput := v3.OpPut(m.myKey, "", v3.WithLease(s.Lease()))// reuse key in case this session already holds the lock    // 查询 myKeyget := v3.OpGet(m.myKey)// fetch current holder to complete uncontended path with only one RPCgetOwner := v3.OpGet(m.pfx, v3.WithFirstCreate()...)    // 这里是重点，判断 cmp 中的条件是否成立，成立则执行 Then 中的语句，否则执行  Else 中的语句    // 这里的语句肯定是成功的，因为我们测试的环境是执行两个不同的 session    // 简单的可以理解为两个不同的程序，实际上是 两个不同的会话就会不同    // 所以我们这里的场景是 会执行 v3.OpPut 操作。所以这里会增加一次 revision    // 即 etcd 的 raft applyed index 会增加 1    resp, err := client.Txn(ctx).If(cmp).Then(put, getOwner).Else(get, getOwner).Commit()if err != nil {return nil, err}m.myRev = resp.Header.Revisionif !resp.Succeeded {m.myRev = resp.Responses[0].GetResponseRange().Kvs[0].CreateRevision}return resp, nil}

下面这张图是 debug 时，先启动一个可执行文件，然后使用 debug 方式启动的程序，程序执行完 tryAcquire 方法后，截取的一张图，这也作证了上面的分析。304 这个 key 是之前启动程序就存在的 key,下面 30f 的 key 是 debug 期间生成的 key。

大家如果有不清楚的地方，亲自去调试下，看看代码，就会明白上面说的内容了。

5、思考

其实，这并不是难以考虑到的问题，代码中出现这个问题，主要是自己对 etcd 的了解程度不够，不清楚 TryLock的原理，以为像简单的查询Get那样，不会导致 revision 的增长，但实际上并不是这样。而是生产中出现了问题才去看为什么会这样，然后再去解决问题，这是一种不太好的方式，希望以后在编码的时候，尽量多考虑考虑，减少问题出现。

还好问题是在同事测试的时候发现的，并没有导致什么损失，幸好幸好。

记一次etcd全局锁使用不当导致的事故|天天最新

每日热点

记一次etcd全局锁使用不当导致的事故|天天最新

经开区国际人才社区1号地块项目主体结构6月30日正式封顶！

周末刷屏！江西一化工厂突发火灾，曾因安全管理问题被罚！行业影响几何？最新解读来了！ 世界百事通

潘功胜同志任中国人民银行党委书记

《逆水寒手游》百炼装备获得方法攻略

天天看点：蔚来6月交付量达1.07万辆

全球热头条丨重庆万州发生山体滑坡致6人遇难

湖北九宫山：要建有人情味的品质景区

斗罗大陆：霍雨浩进入史莱克学院，王冬儿登场，蓝发瓜子脸 世界热文

世界讯息：东风汽车： 公司发展定位是聚焦轻卡、发展VAN车、推进LCV新能源可持续增长

热消息：突发！江西贵溪一工厂发生火灾 暂无人员伤亡

华彬红牛利用“50年协议”的诉讼请求被全部驳回

环球微速讯：离岸人民币兑美元跌破7.28 刷新去年11月来新低

2023年全国铁路暑期运输今日启动！

养老金调整补发开始了?2023年企业退休职工一次性能补发2000元工资吗 世界报道

热火将奥拉迪波交易至雷霆-环球热闻

环球快资讯丨特斯拉官宣：现车大降价

合肥地铁又无法扫码进站？应急措施：1.8元通乘所有站点 环球快看

江西贵溪市一化工厂发生爆炸 全球即时看

二次闯关IPO，液冷电机撑不起绿源的上市梦|全球热点

市场竞争白热化，同程旅行陷收入增长迷局 每日热讯

《佩妮大逃脱》游戏背景介绍-环球观速讯

全球今热点：蔚来开启 NOP+ 增强领航辅助正式版订阅 还有免费权益

张近东与海信集团董事长贾少谦会面，共探家电行业新机遇_环球关注

掌握好人生的秘诀：进退自如，丰俭随意 世界速递

CMA 搁置 Figma 收购案，要求 Adobe 五天内提交新提案 世界快报

“踩坑”之后，小米印度大规模裁员？官方回应来了！

今日讯！宝宝健康的护花使者

时速453公里！ CR450动车组研制取得阶段性成果|全球观速讯

当前关注：老鼠斑图片 老鼠斑

csgo开箱子良心网站那个好 十大最稳定csgo国外开箱子网站排行|天天视点

【全球新视野】醉酒驾车调解律师怎么收费

要闻速递：证监会批复了！涉及多家房企！

又一万亿元大市场？！马上就来！

第八批国家组织药品集采今起在全国落地实施 平均降幅56%

法国公共债务首次突破3万亿欧元-焦点快看

2023年医保药品目录调整方案，有哪些亮点？

看热讯：cba中国男子篮球职业联赛直播 腾讯视频cba联赛直播

科目一学车口诀_学车口诀_天天快讯

天天热点！阿斯巴甜“致癌”传闻搅动代糖板块 多家上市公司回应

历史性一刻！今起正式实施 焦点热门

格力电器2022年度股东大会 高分红、汽车能源产业布局、接班人等问题获正面回应

投资逾4500万元设立两家子公司 捷荣技术跨界储能为自救？ 天天热门

参观新规开始施行 故宫不会限制观众正常拍照

电气设备商明阳电气登陆创业板 全球微头条

天天热讯:白敬亭宋轶是不是忘记官宣了 基本情况讲解

服装跟单实务_对于服装跟单实务简单介绍

今日观点!帕瓦股份：连续4日融资净偿还累计559.07万元（06-30）

小份菜防范外卖餐饮浪费_全球观点

【新视野】36元“小彩礼”推动移风易俗大改变

【环球报资讯】绿色沿着钢轨向前延伸

2023年医保药品目录调整方案 有哪些亮点？

倍增发展先进材料产业 中信国安发布5年战略规划 世界快播

环球今日讯！中央气象台：浙江沿岸海域将有雷暴大风

【全球快播报】6月30日外汇市场行情走势分析：欧洲核心通胀上升，头条新闻下降

环球观焦点：读书笔记老人与海好句_老人与海好句

“踩坑”之后，小米印度大规模裁员？官方回应来了！

【环球速看料】翘首以“盼”②｜逛展，偶遇泰坦尼克号“海洋之心”同款宝石！

泩的同音字_泩 天天热消息

全球动态:美团众包官网首页登录 美团众包官网首页

海西教育信息网_海西教育网首页-视焦点讯

天天快讯:全国首创！成都可以用数字人民币搭乘出租车

翻生武林_关于翻生武林介绍

甘肃林业职业技术学院开设专业有什么 甘肃林业职业技术学院优势专业是什么 天天动态

2023年文山幼儿园招生计划一览-天天热头条

全球热议:快手星芒短剧2023暑期片单公布，50+“夏日气象剧“营造暑期追剧狂欢

当前热讯：中华田园犬智商排名排第几_中华田园犬智商排名

环球速讯：新柴股份：6月29日袁立涛减持公司股份合计10000股

当前最新：[路演]赛维时代：2022年公司开发新品数量超3,364件 其中爆品率为1.90%

精彩看点：辉丰股份回复2022年大亏原因等问询 投资者索赔进行中

31宗地块收金超850亿元！北京上半年土拍结束，“马甲”拿地再现江湖 时快讯

环球报道:中国基金网002132_中国基金网

热推荐：奥飞娱乐：6月29日公司高管蔡东青减持公司股份合计53万股

全球热头条丨博世科：6月29日宋海农、杨崎峰增持公司股份合计166.8万股

科顺股份：6月29日公司高管叶吉增持公司股份合计5400股

聚焦新跃升 展示新成果 市文联开展主题文艺创作采风活动|世界聚看点

随要随买随到 火爆的即时零售前景几何？_天天实时

今年前5个月全国港口吞吐量超67亿吨 世界观察

周末刷屏！江西一化工厂突发火灾，曾因安全管理问题被罚！行业影响几何？最新解读来了！世界百事通

斗罗大陆：霍雨浩进入史莱克学院，王冬儿登场，蓝发瓜子脸世界热文

世界讯息：东风汽车：公司发展定位是聚焦轻卡、发展VAN车、推进LCV新能源可持续增长

热消息：突发！江西贵溪一工厂发生火灾暂无人员伤亡

养老金调整补发开始了?2023年企业退休职工一次性能补发2000元工资吗世界报道

合肥地铁又无法扫码进站？应急措施：1.8元通乘所有站点环球快看

江西贵溪市一化工厂发生爆炸全球即时看

市场竞争白热化，同程旅行陷收入增长迷局每日热讯

全球今热点：蔚来开启 NOP+ 增强领航辅助正式版订阅还有免费权益

掌握好人生的秘诀：进退自如，丰俭随意世界速递

CMA 搁置 Figma 收购案，要求 Adobe 五天内提交新提案世界快报

当前关注：老鼠斑图片老鼠斑

csgo开箱子良心网站那个好十大最稳定csgo国外开箱子网站排行|天天视点

第八批国家组织药品集采今起在全国落地实施平均降幅56%

看热讯：cba中国男子篮球职业联赛直播腾讯视频cba联赛直播

天天热点！阿斯巴甜“致癌”传闻搅动代糖板块多家上市公司回应

历史性一刻！今起正式实施焦点热门

格力电器2022年度股东大会高分红、汽车能源产业布局、接班人等问题获正面回应

投资逾4500万元设立两家子公司捷荣技术跨界储能为自救？天天热门

参观新规开始施行故宫不会限制观众正常拍照

电气设备商明阳电气登陆创业板全球微头条

天天热讯:白敬亭宋轶是不是忘记官宣了基本情况讲解

2023年医保药品目录调整方案有哪些亮点？

倍增发展先进材料产业中信国安发布5年战略规划世界快播

泩的同音字_泩天天热消息

全球动态:美团众包官网首页登录美团众包官网首页

甘肃林业职业技术学院开设专业有什么甘肃林业职业技术学院优势专业是什么天天动态

当前最新：[路演]赛维时代：2022年公司开发新品数量超3,364件其中爆品率为1.90%

精彩看点：辉丰股份回复2022年大亏原因等问询投资者索赔进行中

31宗地块收金超850亿元！北京上半年土拍结束，“马甲”拿地再现江湖时快讯

聚焦新跃升展示新成果市文联开展主题文艺创作采风活动|世界聚看点

随要随买随到火爆的即时零售前景几何？_天天实时

今年前5个月全国港口吞吐量超67亿吨世界观察

航天南湖：截止6月20日，公司的股东人数为26855人|天天消息

新亚制程或将面临投资者诉讼律师提出预计可索赔区间

世界观察：湘电股份：公司电机类产品暂时未能应用于人形机器人相关领域

世界快讯:亚通精工：公司一直在关注新能源汽车领域，与国内外的头部新能源车企也有接触，近年开始承接部分业务

天德钰：公司未涉及这部分的业务

马钢股份：公司2023年度进口矿长协资源，经由宝武原料统筹对口中国矿产资源集团代理谈判

九联科技：目前公司光芯片供应正常。敬请投资者谨慎决策，注意防范投资风险|环球快资讯

当前聚焦：艾隆科技：公司产品可以帮助医院进行管理体系的革新与成本的精细化控制

百奥赛图拟回A股IPO：三年亏15亿，“千鼠万抗”进展如何？世界独家

法兰泰克：公司深耕重载物料搬运行业，以稳健的风格持续做好产业经营环球信息

生物制品板块走强智翔金泰大幅上涨超7%-当前焦点

【互动掘金】金通灵：公司氢燃料电池空气压缩机已进入小批次试产及送样检测阶段天天播资讯

电气风电：目前公司部分半直驱风机产品在齿轮箱部分行星轮处采用滑动轴承技术-世界要闻

引导茶叶适度包装安徽发布倡议书-独家

复旦张江：公司暂未开通微博、抖音等新媒体平台。公司微信公众号可搜索：复旦张江官方公众号-世界观天下

全球看热讯：中国电建：公司董事会高度重视市值维护工作，2019年公司开展了股份回购工作

城通网盘能赚钱吗城通网盘怎么样_全球速讯

储备产能福斯特(603806.SH)拟约7.02亿元实施年产2.5亿平方米高效电池胶膜项目

资源型城市如何创新发展京东鹤壁模式打造产业样板当前报道

更小间距LED产品频亮相厂家拟力推“家用巨幕”-观速讯

聚焦数字经济赋能农业未来京东云助力河南探索农业发展新路径-头条焦点

中国柔性OLED出货占比首次超过韩国

四川路桥（600039）6月30日主力资金净卖出1408.14万元当前资讯

东方证券：公司在符合监管规定的前提下，持续推进金融科技赋能业务发展

中国电建：公司的经营情况稳定，主要经营指标，如新签合同、营业收入、利润总额历年稳步增长_环球聚焦

小先生北京科技有限公司

翰森制药入选标普全球首期《可持续发展年鉴（中国版）》位列行业最佳1%

北京一央企子公司整体搬迁至雄安新区环球通讯