0%

Redis 面试知识点总结（下）

发表于 2021-03-29 更新于 2021-05-13 分类于 Redis 阅读次数： Valine：

Redis 事务机制

参考：
    1. [从面试被问到吐血，Redis事务的问题个个触及知识盲区，脸都绿了](https://zhuanlan.zhihu.com/p/156889090)

1. multi —— 开启事务
2.命令入队列
    之后所有的命令都会放入事务队列中，并不会立刻执行。
    如果客户端发送的命令为 EXEC，DISCARD 的其中一个，服务器会立刻执行这个命令。
    对于其它命令，服务器并不会立刻执行，而是将这个命令放入一个事务队列中，然后向客户端返回 QUEUED 回复
3. exec —— 执行事务
4. DISCARD —— 放弃执行

Redis 的事务机制可以保证一致性和隔离性（watch 机制）。
持久性取决于是否开启持久化以及持久化机制，极端情况下还是无法保证。
原子性的情况比较复杂：
    1. 命令入队时就报错，会放弃事务执行，保证原子性
    2. 命令入队时没报错，实际执行时报错，不保证原子性
    3. EXEC 命令执行时实例故障，如果开启了 AOF 日志，可以保证原子性
      （使用 redis-check-aof 工具检查 AOF 日志文件，这个工具可以把未完成的事务操作从 AOF 文件中去除。
       使用 AOF 恢复实例后，事务操作不会再被执行，从而保证原子性。
    只有当事务中使用的命令语法有误时，原子性得不到保证，在其它情况下，事务都可以原子性执行。

Redis 主从同步机制

参考：
    1. [极客时间《Redis核心技术与实战》06 | 数据同步：主从库如何实现数据一致？](https://time.geekbang.org/column/article/272852)
    2. [一文让你明白Redis主从同步](https://zhuanlan.zhihu.com/p/55532249)

主从模式是最简单的实现高可用的方案，核心就是主从同步。
Redis 的主从库同步的基本原理，总结来说，有三种模式：全量复制、基于长连接的命令传播，以及增量复制。

全量同步的原理如下：

1. 从服务器向主服务器发送 sync 命令
2. 收到 sync 命令后，主服务器执行 bgsave 命令，用来生成 rdb 文件，并在一个缓冲区中记录从现在开始执行的写命令。
3. bgsave 执行完成后，将生成的 rdb 文件发送给从服务器，用来给从服务器更新数据
4. 主服务器再将缓冲区记录的写命令发送给从服务器，从服务器执行完这些写命令后，此时的数据库状态便和主服务器一致了。

上面写的命令是 sync，但是在 Redis 2.8 版本之后已经使用 psync 来替代 sync 了，
原因是 sync 命令非常消耗系统资源，而 psync 的效率更高（可以根据需要增量同步）。

长连接复制：
    长连接复制是主从库正常运行后的常规同步阶段。在这个阶段中，主从库之间通过命令传播实现同步。

增量复制：
    当主从库断连后，主库会把断连期间收到的写操作命令，写入 replication buffer，
    同时也会把这些操作命令也写入 repl_backlog_buffer 这个缓冲区。
    repl_backlog_buffer 是一个环形缓冲区，主库会记录自己写到的位置，从库则会记录自己已经读到的位置。
    随着主库不断接收新的写操作，它在缓冲区中的写位置会逐步偏离起始位置，通常用偏移量来衡量这个偏移距离的大小，
    对主库来说，对应的偏移量就是 master_repl_offset。
    主库接收的新写操作越多，这个值就会越大。
    同样，从库在复制完写操作命令后，它在缓冲区中的读位置也开始逐步偏移刚才的起始位置，
    此时，从库已复制的偏移量 slave_repl_offset 也在不断增加。
    正常情况下，这两个偏移量基本相等。
    主从库的连接恢复之后，从库首先会给主库发送 psync 命令，并把自己当前的 slave_repl_offset 发给主库，
    主库会判断自己的 master_repl_offset 和 slave_repl_offset 之间的差距。
    在网络断连阶段，主库可能会收到新的写操作命令，所以，一般来说，master_repl_offset 会大于 slave_repl_offset。
    此时，主库只用把 master_repl_offset 和 slave_repl_offset 之间的命令操作同步给从库就行。

主从模式下，当主服务器宕机后，需要手动把一台从服务器切换为主服务器，这需要人工干预，费事费力，还会造成一段时间内服务不可用。
这种方式并不推荐，实际生产中，优先考虑哨兵模式。

优缺点：
   优点：
       1. 支持主从复制，主机会自动将数据同步到从机，可以进行读写分离
       2. Slave 同样可以接受其他 Slaves 的连接和同步请求，这样可以有效地分载 Master 的同步压力
   缺点：
       1. Redis 不具备自动容错和恢复功能，主从不可以自动切换
       2. 主机宕机，宕机前有部分数据未能及时同步到从机，切换 IP 后还会引入数据不一致的问题，降低了系统的可用性
       3. 较难支持在线扩容

Redis 哨兵

参考：
    1. [极客时间《Redis核心技术与实战》07 | 哨兵机制：主库挂了，如何不间断服务？](https://time.geekbang.org/column/article/274483)

哨兵其实就是一个运行在特殊模式下的 Redis 进程，主从库实例运行的同时，它也在运行。
哨兵与哨兵之间通过 pub/sub 建立联系。
哨兵主要负责的就是三个任务：监控、选主（选择主库）和通知。

监控：
    哨兵进程会使用 PING 命令检测它自己和主、从库的网络连接情况，用来判断实例的状态。
    如果哨兵发现主库或从库对 PING 命令的响应超时了，那么，哨兵就会先把它标记为“主观下线”。
    如果检测的是从库，那么，哨兵简单地把它标记为“主观下线”就行了，因为从库的下线影响一般不太大，集群的对外服务不会间断。
    但是，如果检测的是主库，那么，哨兵还不能简单地把它标记为“主观下线”，开启主从切换，因为主从切换开销很大，防止误判。
    只有 N/2 + 1 的哨兵实例，都判断主库已经“主观下线”了，主库才会被标记为“客观下线”。
选主：
    主库挂了以后，在多个从库中，先按照一定的筛选条件，把不符合条件的从库去掉。
    然后，再按照一定的规则，给剩下的从库逐个打分，将得分最高的从库选为新主库。
    筛选过程除了要检查从库的当前在线状态，还要判断它之前的网络连接状态。
    在 down-after-milliseconds 毫秒内，主从节点都没有通过网络联系上，就可以认为主从节点断连了。
    如果发生断连的次数超过了 10 次，就说明这个从库的网络状况不好，不适合作为新主库。
    打分过程分别按照三个规则依次进行三轮打分，这三个规则分别是从库优先级、从库复制进度以及从库 ID 号。

    由哪个哨兵执行主从切换：
        任何一个实例只要自身判断主库“主观下线”后，就会给其他实例发送 is-master-down-by-addr 命令。
        接着，其他实例会根据自己和主库的连接情况，做出 Y 或 N 的响应，Y 相当于赞成票，N 相当于反对票。
        一个哨兵获得了仲裁所需的赞成票数后，就可以标记主库为“客观下线”。
        这个所需的赞成票数是通过哨兵配置文件中的 quorum 配置项设定的。
        例如，现在有 5 个哨兵，quorum 配置的是 3，那么，一个哨兵需要 3 张赞成票，就可以标记主库为“客观下线”了。
        这 3 张赞成票包括哨兵自己的一张赞成票和另外两个哨兵的赞成票。
        此时，这个哨兵就可以再给其他哨兵发送命令，表明希望由自己来执行主从切换，并让所有其他哨兵进行投票。
        这个投票过程称为“Leader 选举”。在投票过程中，任何一个想成为 Leader 的哨兵，要满足两个条件：
        第一，拿到半数以上的赞成票；
        第二，拿到的票数同时还需要大于等于哨兵配置文件中的 quorum 值。
        以 3 个哨兵为例，假设此时的 quorum 设置为 2，那么，任何一个想成为 Leader 的哨兵只要拿到 2 张赞成票，就可以了。
通知：
    在执行通知任务时，哨兵会把新主库的连接信息发给其他从库，让它们执行 replicaof 命令，和新主库建立连接，并进行数据复制。
    同时，哨兵会把新主库的连接信息通知给客户端，让它们把请求操作发到新主库上。
    每个哨兵实例会提供 pub/sub 机制，客户端可以从哨兵订阅消息。
    哨兵提供的消息订阅频道有很多，不同频道包含了主从库切换过程中的不同关键事件。
    客户端读取哨兵的配置文件后，可以获得哨兵的地址和端口，和哨兵建立网络连接。
    然后就可以在客户端执行订阅命令，来获取不同的事件消息。

优缺点：
   优点：
       1. 主从模式的所有优点
       2. 主从可以自动切换，系统更健壮，可用性更高
   缺点：
       除了支持主从自动切换外的主从模式的所有缺点

Redis 集群

参考：
    1. [【原创】为什么Redis集群有16384个槽](https://www.cnblogs.com/rjzheng/p/11430592.html)

从 Redis 3.0 开始，官方提供了一个名为 Redis Cluster 的方案，用于实现切片集群。
Redis Cluster 采用哈希槽（Hash Slot），来处理数据和实例之间的映射关系。

在 Redis Cluster 中，一个切片集群共有 16384 个哈希槽，这些哈希槽类似于数据分区，每个键值对都会根据它的 key，被映射到一个哈希槽中。

为什么采用 16384？

    1. 在 Redis 节点发送心跳包时需要把所有的槽放到这个心跳包里，以便让节点知道当前集群信息。
       如果槽位为 65536，这块的大小是 65536÷8÷1024=8kb，发送心跳信息的消息头达 8k，发送的心跳包过于庞大。
       作者认为这样做不太值得。
    2. 并且一般情况下一个 Redis 集群不会有超过 1000 个 master 节点，所以 16384 的槽位是个比较合适的选择。

具体的映射过程分为两大步：
    1. 首先根据键值对的 key，按照 CRC16 算法计算一个 16bit 的值
    2. 然后，再用这个 16bit 值对 16384 取模，得到 0~16383 范围内的模数，每个模数代表一个相应编号的哈希槽

哈希槽和实例的对应：
    部署 Redis Cluster 时，可以使用 cluster create 命令创建集群，此时，Redis 会自动把这些槽平均分布在集群实例上。
    也可以使用 cluster meet 命令手动建立实例间的连接，形成集群，再使用 cluster addslots 命令，指定每个实例上的哈希槽个数。
    当 16384 个 slot 都有节点在处理时，集群处于上线状态，反之只要有一个 slot 没有得到处理都会处理下线状态。

客户端如何定位数据？
    当客户端请求键值对时，会先计算键所对应的哈希槽，然后给相应的实例发送请求。
    在定位键值对数据时，它所处的哈希槽是可以通过计算得到的，这个计算可以在客户端发送请求时来执行。
    知道哈希槽后，客户端如何知道哈希槽分布在哪个实例上？
        Redis 实例会把自己的哈希槽信息发给和它相连接的其它实例，来完成哈希槽分配信息的扩散。
        当实例之间相互连接后，每个实例就有所有哈希槽的映射关系了。
        客户端和集群实例建立连接后，实例就会把哈希槽的分配信息发给客户端。客户端收到哈希槽信息后，会把哈希槽信息缓存在本地。

Redis 集群间通信参用什么协议？
    gossip 协议通信

在集群中，实例和哈希槽的对应关系并不是一成不变的，最常见的变化有两个：
    1. 在集群中，实例有新增或删除，Redis 需要重新分配哈希槽
    2. 为了负载均衡，Redis 需要把哈希槽在所有实例上重新分布一遍。
此时，实例可以通过相互传递消息，获得最新的哈希槽分配信息，但是，客户端是无法主动感知这些变化的。
这就会导致，它缓存的分配信息和最新的分配信息不一致。

Redis Cluster 采取重定向机制解决这个问题。
当客户端把一个键值对的操作请求发给一个实例时，如果这个实例上并没有对应的哈希槽，会给客户端返回 MOVED 响应结果，
结果中包含了新实例的访问地址。
如果此时，旧实例中的数据只有一部分迁移到了新实例，还有部分数据没有迁移，客户端会收到一条 ASK 报错信息。
代表这个哈希槽正在迁移。此时，客户端需要先给新实例发送一个 ASKING 命令（代表破例执行关于槽的命令一次）。
然后，客户端再向新实例发送 GET 命令，以读取数据。

故障发现和转移：
    如果节点 A 向节点 B 发送 ping 消息，节点 B 没有在规定的时间内响应 pong，那么节点 A 会标记节点 B 为 pfail 疑似下线状态，
    同时把 B 的状态通过消息的形式发送给其他节点，如果超过半数以上的节点都标记 B 为 pfail 状态，B 就会被标记为 fail 下线状态，
    此时将会发生故障转移。
    优先从复制数据较多的从节点选择一个成为主节点，并且接管下线节点的 slot，整个过程和哨兵非常类似，都是基于 Raft 协议做选举。
    但是如果下线的主节点没有从节点，整个集群还是处于不可用的状态。

Redis Cluster 并不能保证数据的强一致性，在实际中集群在特定的条件下可能会丢失写操作，原因是集群采用异步复制。

Redis 中，sentinel 和 cluster 的区别和适用场景是什么？

哨兵是解决了 Redis 的高可用，而 cluster 则是解决了 Redis 的高并发。

本文作者： Yxd
本文链接： https://yxudong.github.io/Redis-面试知识点总结（下）/
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！