orchestrator raft leader频繁变化问题

setse 2020-07-05

最近在使用orchestrator的过程中，遭遇了严重的问题。
最初上线的几个月里，raft leader非常稳定。
但随着时间的推移，raft leader 频繁变化的问题就爆发了。

leader的变化，直接原因，就是leader没有按时发送heartbeat，从而触发了选举机制。

第一个怀疑的原因，就是网络抖动，出现丢包。但是，通过查看监控数据，发现没有丢包迹象。接着，通过tcpdump抓包，也证实没有数据丢失。

第二个怀疑的是，raft的代码实现有问题。查看github仓库，已经很长时间没有release了。翻看issue，找到2个相似的，但这些issue没有追查询下去，最后没有什么具体结论就关闭了。

第三个怀疑的是，系统负载和内存使用。
从监控数据看，16核机器，负载在1左右徘徊。16G内存，空闲率在30%-50%，偶尔某台机器低于10%。
从这些数据看，无法确切判定，就是机器资源耗尽导致的。

接着使用pprof查看goroutine、内存情况，并抓trace，发现snapshot操作出现大量堆积，多的时候有9000+goroutine。
在内存使用上，snapshot也是消耗最多的。
由于频繁申请大量内存，GC次数和耗时出现严重增加。
这样，就影响了goroutine的调度，尤其是对时间敏感的goroutine，例如hearbeat，导致其发送时间延后。

关于snapshot的为什么消耗内存，下次再具体介绍。

: setse

相关推荐

Raft算法原理剖析

简单理解的话，可以想象成是一组服务器，每个服务器是一个状态机，服务器的运行状态只能通过一行行的命令来改变。每一个状态机存储一个包含一系列指令的日志，严格按照顺序逐条执行日志中的指令，如果所有的状态机都能按照相同的日志执行指令，那么它们最终将达到相同的状态。

setse 0喜欢 / 0评论 2020-07-04

raft算法总结

分布式系统除了提升整个体统的性能外还有一个重要特征就是提高系统的可靠性。提供可靠性可以理解为系统中一台或多台的机器故障不会使系统不可用。保证系统可靠性的关键就是多副本，一旦有多副本，那么久面临多副本之间的一致性问题。业界最著名的一致性算法就是大名鼎鼎的Pa

setse 0喜欢 / 0评论 2020-05-04

raft

最近工作中讨论到了Raft协议相关的一些问题，正好之前读过多次Raft协议的那paper，所以趁着讨论做一次总结整理。分布式系统除了提升整个体统的性能外还有一个重要特征就是提高系统的可靠性。提供可靠性可以理解为系统中一台或多台的机器故障不会使系统不可用。一

遗世紫丁香 0喜欢 / 0评论 2020-04-30

对标Eureka的AP一致性，Nacos如何实现Raft算法

Raft 适用于一个管理日志一致性的协议，相比于 Paxos 协议 Raft 更易于理解和去实现它。为了提高理解性，Raft 将一致性算法分为了几个部分，包括领导选取、日志复制、安全，并且使用了更强的一致性来减少了必须需要考虑的状态。Follower被动响

86103155 0喜欢 / 0评论 2020-02-16

Paxos算法为什么说是Raft,Zab协议的鼻祖，及原理解析

paxos算法在分布式领域具有非常重要的地位。但是Paxos算法有两个比较明显的缺点：1.难以理解 2.工程实现更难。网上有很多讲解Paxos算法的文章，但是质量参差不齐。看了很多关于Paxos的资料后发现，学习Paxos最好的资料是论文《Paxos Ma

abun 0喜欢 / 0评论 2020-01-16

Raft ABC之二

基于Raft 的分布式一致性协议是构建很多分布式服务的基础，某种程度上它充当了心脏的角色，为此有必要对Raft 的一些难点进行深入理解。如果前者还小，拒绝这次vote 请求，否则投赞成票。为了避免同时有两个节点变更正在进行，在有未committed的cha

遗世紫丁香 0喜欢 / 0评论 2020-01-11

Hyperledger Fabric动态配置Raft节点

最近看官方文档发现新的共识算法etcdRaft允许动态添加或删除排序节点，所以也花了一天时间操作了以下，写篇文章把整个过程记录一下。初始网络本文设置了4个Orderer节点，1个Peer节点,然后动态添加第五个Orderer节点。第二部分是更新Fabric

ShiShuo 0喜欢 / 0评论 2019-12-31

基于 raft 协议的 RocketMQ DLedger 多副本日志复制设计原理

上一篇源码分析 RocketMQ DLedger(多副本) 之日志复制(传播) ，可能有不少读者朋友们觉得源码阅读较为枯燥，看的有点云里雾里，本篇将首先梳理一下 RocketMQ DLedger 多副本关于日志复制的三个核心流程图，然后再思考一下在异常情

MojitoBlogs 0喜欢 / 0评论 2019-12-17

RocketMQ 多副本前置篇：初探raft协议

Raft协议是分布式领域解决一致性的又一著名协议，主要包含Leader选举、日志复制两个部分。通常情况下，三个节点中会有一个节点的计时器率先到期，节点状态变为 Candidate ，候选者状态下的节点会发起选举投票。我们先来考虑只有一个节点变为Candid

86103155 0喜欢 / 0评论 2019-12-05

Zab Paxos raft

《分布式系统理论进阶 - Paxos》介绍了一致性协议Paxos，今天我们来学习另外两个常见的一致性协议——Raft和Zab。通过与Paxos对比，了解Raft和Zab的核心思想、加深对一致性协议的认识。Paxos偏向于理论、对如何应用到工程实践提及较少。

abun 0喜欢 / 0评论 2016-12-05

常用共识算法总结（Paxos，Raft，PBFT，PoW，PoS，DPoS，Ripple）

共识算法看了又忘，一直觉得理解的不够到位，特此记录，出错处望指正，不胜感激。先说结论不同共识算法的特点：PoW 拼命搬砖PoS 股份制谁股份多谁牛xDPoS 人大代表制度Paxos，Raft，PBFT 队列操练，通过相互间的消息与口令达成步调的一致，

兒戲BLOG 0喜欢 / 0评论 2019-11-04

分布式配置服务etcd VS 分布式协调服务zookeeper

etcd是一个高可用的键值存储系统，主要用于共享配置和服务发现。etcd是由CoreOS开发并维护的，灵感来自于 ZooKeeper 和 Doozer，它使用Go语言编写，并通过Raft一致性算法处理日志复制以保证强一致性。Google的容器集群管理系统K

阿义 0喜欢 / 0评论 2017-03-10

分布式一致性协议之Raft（一）

Raft算法解决的核心问题是在分布式环境下如何保持集群状态的一致性，简而言之就是一组服务，给定一组操作，最后得到一致的结果。Raft算法通过选举领导人，由领导人复制日志到跟随者，跟随者执行日志指令来达到最后集群状态的一致，整个算法也分成了两部分，领导人如何

setse 0喜欢 / 0评论 2019-09-08

SOFAJRaft-RheaKV MULTI-RAFT-GROUP 实现分析 | SOFAJRaft 实现原理

SOFAStackScalable Open Financial Architecture Stack是蚂蚁金服自主研发的金融级分布式架构，包含了构建金融级云原生架构所需的各个组件，是在金融场景里锤炼出来的最佳实践。SOFAJRaft 是一个基于 Raft

MinerAG 0喜欢 / 0评论 2019-09-06

Raft

面向多个决策达成一致的问题,分解了Leader选举,日志复制和安全方面的考虑,并通过约束减少了不确定的状态空间。一个Raft集群通常包含5个服务器,允许系统有两个故障服务器.服务器处于leader,follower和candidate这三个状态之一.

hhahaa 0喜欢 / 0评论 2018-12-25

raft协议——分布式一致性协议

　　下面将看论文时我认为的重要点进行记录。选出 Leader 后，Leader 通过定期向所有 Follower 发送心跳信息维持其统治。这个阶段 Leader 挂掉，数据属于未提交状态，Client 不会收到 Ack 会认为超时失败可安全发起重试。所以拥

来信了上校 0喜欢 / 0评论 2018-07-25

阿里云InfluxDB® Raft HybridStorage实现方案

背景阿里云InfluxDB®是阿里云基于开源版InfluxDB打造的一款时序数据库产品，提供更稳定的持续运行状态、更丰富强大的时序数据计算能力。

兒戲BLOG 0喜欢 / 0评论 2019-07-11

编写你的第一个 Java 版 Raft 分布式 KV 存储

本文旨在讲述如何使用 Java 语言实现基于 Raft 算法的，分布式的，KV 结构的存储项目。该项目的背景是为了深入理解 Raft 算法，从而深刻理解分布式环境下数据强一致性该如何实现；该项目的目标是：在复杂的分布式环境中，多个存储节点能够保证数据强一致

exzhulw 0喜欢 / 0评论 2019-07-04

TiKV 源码解析（六）raft-rs 日志复制过程分析

在《TiKV 源码解析（二）raft-rs proposal 示例情景分析》中，我们主要介绍了 raft-rs 的基本 API 使用，其中，与应用程序进行交互的主要 API 是：。本文将对数据冗余复制的过程进行详细展开，特别是关于 snapshot

setse 0喜欢 / 0评论 2019-07-01

raft算法学习记录

分布式系统中考虑得最多的一个问题：节点崩溃raft算法中节点分三类： leader、follower、candidate。其中最复杂的问题都和leader节点崩溃有关，follower和candidate简单直观。任期大者，更新任期相同者，index大者更

setse 0喜欢 / 0评论 2019-07-01

蚂蚁金服开源 SOFAJRaft：生产级 Java Raft 算法库

SOFAJRaft 是从百度的braft移植而来，做了一些优化和改进，感谢百度 braft 团队开源了如此优秀的 C++ Raft 实现。Raft是一种更易于理解的分布式共识算法，核心协议本质上还是师承 Paxos 的精髓，不同的是依靠 Raft 模块化的

MinerAG 0喜欢 / 0评论 2019-07-01

基于hashicorp/raft的分布式一致性实战教学

本文通过实现一个简单的分布式缓存系统来介绍使用hashicorp/raft来构建分布式应用程序的方法。这三种模型的一致性强度逐渐递增，实现代价也越来越大。通常弱一致性和最终一致性可以异步冗余，强一致性则是同步冗余，而同步也就意味着影响性能。

uk8692 0喜欢 / 0评论 2019-07-01

分布式系统的Raft算法

Raft作为Paxos的简化版本，在工程领域有着更加广泛的应用。本文转载的几篇文章对Raft的工作原理、实现方式进行了详细的介绍。

setse 0喜欢 / 0评论 2019-07-01

The Way to TiDB 3.0 and Beyond (下篇)

本文为我司 Engineering VP 申砾在 TiDB DevCon 2019 上的演讲实录。在上篇中，申砾老师重点回顾了 TiDB 2.1 的特性，并分享了我们对「如何做好一个数据库」的看法。本篇将继续介绍 TiDB 3.0 Beta 在稳定性、易用

RebornLee 0喜欢 / 0评论 2019-07-01

一致性协议浅析：从逻辑时钟到Raft

前言春节在家闲着没事看了几篇论文，把一致性协议的几篇论文都过了一遍。在看这些论文之前，我一直有一些疑惑，比如同样是有Leader和两阶段提交，Zookeeper的ZAB协议和Raft有什么不同，Paxos协议到底要怎样才能用在实际工程中，这些问题我都在这些

MinerAG 0喜欢 / 0评论 2019-07-01

TiKV 源码解析系列文章（二）raft-rs proposal 示例情景分析

本文为 TiKV 源码解析系列的第二篇，按照计划首先将为大家介绍 TiKV 依赖的周边库 raft-rs 。raft-rs 是 Raft 算法的 Rust 语言实现。Raft 是分布式领域中应用非常广泛的一种共识算法，相比于此类算法的鼻祖 Paxos，具有

MinerAG 0喜欢 / 0评论 2019-06-30

Zab Paxos raft

《分布式系统理论进阶 - Paxos》介绍了一致性协议Paxos，今天我们来学习另外两个常见的一致性协议——Raft和Zab。通过与Paxos对比，了解Raft和Zab的核心思想、加深对一致性协议的认识。Paxos偏向于理论、对如何应用到工程实践提及较少。

quyilie 0喜欢 / 0评论 2016-12-05

Raft leader 选举

当servers启动，首先成为followers。只要server收到来自leader或candidate的有效RPCs消息，就一直保持follower的状态。Leaders定期给所有的followers发送heartbeat，以维护它的统治。在选举之前，

setse 0喜欢 / 0评论 2019-06-30

Raft协议的一些概念

一些概念相比于其他一致性算法的优势更简单，更容易理解描述得很完备被开源项目实现并且被一些公司采用安全性得到了证明有效性可与其他算法相比拟。最关键的优势还是更容易理解。如果candidate或者leader发现自己的term号过期，则马上退回到followe

setse 0喜欢 / 0评论 2019-06-30

编写你的第一个 Java 版 Raft 分布式 KV 存储

前言本文旨在讲述如何使用 Java 语言实现基于 Raft 算法的，分布式的，KV 结构的存储项目。该项目的背景是为了深入理解 Raft 算法，从而深刻理解分布式环境下数据强一致性该如何实现；该项目的目标是：在复杂的分布式环境中，多个存储节点能够保证数据强

hcinfo 0喜欢 / 0评论 2019-06-30

一文带你了解 Raft 一致性协议的关键点

欢迎访问网易云社区，了解更多网易技术产品运营经验。Raft 协议的发布，对分布式行业是一大福音，虽然在核心协议上基本都是师继 Paxos 祖师爷的精髓，基于多数派的协议。但是 Raft 一致性协议的贡献在于，定义了可易于实现的一致性协议的事实标准。把一致

hcinfo 0喜欢 / 0评论 2019-06-29

线性一致性和 Raft

在讨论分布式系统时，共识算法和一致性通常是讨论热点，两者的联系很微妙，很容易搞混。一些常见的误解：使用了 Raft[0]或者 paxos 的系统都是线性一致的，其实不然，共识算法只能提供基础，要实现线性一致还需要在算法之上做出更多的努力。以 TiKV 为例

mengdc 0喜欢 / 0评论 2019-06-28

【go共识算法】-Raft

介绍Raft 状态一个 Raft 集群包含若干个服务器节点；通常是 5 个，这允许整个系统容忍 2 个节点的失效，每个节点处于以下三种状态之一：。如果没收到leader消息则会变成 candidate状态。candidate：会向其他结点“拉选票”，如果得

setse 0喜欢 / 0评论 2019-06-28

TiKV 是如何存取数据的（上）

本文会详细的介绍 TiKV 是如何处理读写请求的，通过该文档，同学们会知道 TiKV 是如何将一个写请求包含的数据更改存储到系统，并且能读出对应的数据的。本文分为上下两篇，在上篇中，我们将介绍一些基础知识，便于大家去理解后面的流程。TiKV 使用 Raft

setse 0喜欢 / 0评论 2019-06-28

raft简单介绍

一致性算法 - RaftRaft 状态一个 Raft 集群包含若干个服务器节点；通常是 5 个，这允许整个系统容忍 2 个节点的失效，每个节点处于以下三种状态之一：。如果没收到 leader消息则会变成 candidate状态。candidate（候选人）

setse 0喜欢 / 0评论 2019-06-28

Raft论文读书笔记

Raft是当前分布式领域最重要的一致性算法之一，今天我们就来好好研究研究这个算法的论文, 还有对应网站, 动画, 不想看英文的也有中文的翻译，所以我这边就不翻译了，主要还是记录一下论文重点和自己的心得。减少状态空间的状态，相比于Paxos，Raft减少了非

quyilie 0喜欢 / 0评论 2019-06-27

Paxos与Raft的简明比较

而是通过一个直接 commit，让更早的 entry 被间接 commit 。独立，无顺序关系。2) Commit 时的后向依赖：leader 当选后，直到有 currentTerm 的 log 被 commit,才会让其当选前未 commit 的 ent

abun 0喜欢 / 0评论 2019-06-27

raft--选举和朝代替换

前段时间和师傅一起搞了个双机备份的定制，打打杂，但是听他们讨论感觉还挺好玩的，就上网找了点东西玩下，纯属个人多动按奈不住找点东西装个酷，让自己爱上自己，当然也作为我们这群大波屌丝的饭后消遣活动。他的伯乐是一向财大气粗，好玩高科技的google。发出请求的f

兒戲BLOG 0喜欢 / 0评论 2019-06-26

TiKV 源码解析系列 - Raft 的优化

目的是使得开发者阅读之后，能对 TiKV 项目有一个初步了解，更好的参与进入 TiKV 的开发中。本文是本系列文章的第六章节。重点介绍 TiKV 中 Raft 的优化。在分布式领域，为了保证数据的一致性，通常都会使用 Paxos 或者 Raft 来实现。L

welldum 0喜欢 / 0评论 2019-06-21

TiKV 源码解析系列 - Lease Read

本系列文章主要面向 TiKV 社区开发者，重点介绍 TiKV 的系统架构，源码结构，流程解析。目的是使得开发者阅读之后，能对 TiKV 项目有一个初步了解，更好的参与进入 TiKV 的开发中。本文是本系列文章的第五章节。Leader 等待自己的状态机执行，

MinerAG 0喜欢 / 0评论 2019-06-21

老司机带你用 Go 语言实现 Raft 分布式一致性协议

老司机带你用 Go 语言实现 Raft 分布式一致性协议随着大型网站的各种高并发访问、海量数据处理等场景越来越多，如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。上车Raft 通过选举一个领导人，然后给予他全部的管理复制日志的责任来实现一

Finnnnnnn 0喜欢 / 0评论 2019-06-21

TiKV 源码解析系列——如何使用 Raft

概述本文档主要面向 TiKV 社区开发者，主要介绍 TiKV 的系统架构，源码结构，流程解析。目的是使得开发者阅读文档之后，能对 TiKV 项目有一个初步了解，更好的参与进入 TiKV 的开发中。需要注意，TiKV 使用 Rust 语言编写，用户需要对 R

thisisid 0喜欢 / 0评论 2019-06-21

分布式理论：一致性协议Raft

前言Raft 也是一个一致性算法，和 Paxos 目标相同。但它还有另一个名字 - 易于理解的一致性算法。Paxos 和 Raft 都是为了实现一致性产生的。这个过程如同选举一样，参选者需要说服大多数选民 (服务器) 投票给他，一旦选定后就跟随其

abun 0喜欢 / 0评论 2019-05-31

很短 | 图解 Raft 算法

分布式一致性想象一下，我们有一个单节点系统，且作为数据库服务器，然后存储了一个值。只要服务器接受到这个值即可，这个值在单节点上的一致性非常容易保证：。重新选举选举过程中，如果Leader节点出现故障，就会触发重新选举。需要说明的是，每个选举期只会选出一个L

来信了上校 0喜欢 / 0评论 2019-05-23

分布式一致性协议Raft，以及难搞的Paxos

Raft这玩意，网上已经有好多解读文章了，大概比Paxos还要多一些，所以，这篇，不求细节，但求核心思想方面，追一下本源，然后，给自己做个笔记。Raft是什么，它想解决什么问题？Raft是一个分布式一致性协议／算法，是Replicated And Faul

ptmagic 0喜欢 / 0评论 2019-05-14

图解Raft：最容易理解的分布式一致性算法

想象一下，我们有一个单节点系统，且作为数据库服务器，然后存储了一个值。只要服务器接受到这个值即可，这个值在单节点上的一致性非常容易保证：。重新选举选举过程中，如果Leader节点出现故障，就会触发重新选举。那么节点A将成为新的Leader节点，并且Term

分布式云计算实践 0喜欢 / 0评论 2019-05-17

很短 | 图解 Raft 算法

分布式一致性一些概念Leader选举日志复制两个超时重新选举网络分区分布式一致性想象一下，我们有一个单节点系统，且作为数据库服务器，然后存储了一个值。只要服务器接受到这个值即可，这个值在单节点上的一致性非常容易保证：。那么节点A将成为新的Leader节点，

兒戲BLOG 0喜欢 / 0评论 2019-05-21

开源一个千万级多组Raft库-Dragonboat

向大家介绍Dragonboat，一个开源的Go实现的多组Raft库，项目已Apache2协议下开源。这避免了因个别机器当机或网络故障而造成数据、服务不可用，提高系统可用性。基于Raft协议的共识库已经应用于很多互联网后台系统。接触了很多用户以后，普遍反馈的

setse 0喜欢 / 0评论 2019-01-16

蚂蚁金服开源 SOFAJRaft：生产级 Java Raft 算法库

SOFAJRaft 是一个基于 Raft 一致性算法的生产级高性能 Java 实现，支持 MULTI-RAFT-GROUP，适用于高负载低延迟的场景。使用 SOFAJRaft 你可以专注于自己的业务领域，由 SOFAJRaft 负责处理所有与 Raft 相

Miraclema 0喜欢 / 0评论 2019-03-15