1.雪崩

如果使用分布式系统,必然会存在一定的问题,由于网络的不稳定性,决定了任何一个服务的可用性都不是 100%的。

当网络不稳定的时候,作为服务的提供者,自身可能会被拖死,导致服务调用者阻塞,最终可能引发雪 崩连锁效应

当缓存服务器重启或者大量缓存集中在某一个时间段失效,这样在失效的时候,也会给后端系统(比如 DB)带来很大压力,造成数据库后端故障,从而引起应用服务器雪崩。

这一段文字描述,实际上就出现了两个概念,缓存雪崩和服务器雪崩。

2.缓存雪崩

缓存中数据大批量到过期时间,而查询数据量巨大,引起数据库压力过大甚至down机

原因

缓存雪崩的原因可能有以下几个方面:

数据量过大:当缓存中存储的数据量过大时,过期时间被触发的概率也会增加,导致大量数据到达过期时间而需要被处理。

访问量过大:当缓存服务器接收到的访问请求量过大时,会导致缓存服务器的负载过高,从而可能引发雪崩。

数据同步问题:如果缓存服务器和数据库之间的数据同步出现问题,例如数据同步延迟或数据传输失败,也可能导致缓存服务器压力过大而崩溃。

负载均衡策略:如果缓存服务器的负载均衡策略不合理,例如将过多的请求分配给单个缓存实例,也可能导致缓存服务器压力过大而崩溃。

硬件故障:如果缓存服务器的硬件出现故障,例如磁盘故障、内存错误等,也可能导致缓存服务器压力过大而崩溃。

3.服务器雪崩

服务器雪崩是指在服务器上运行的应用程序出现故障,导致服务器无法正常处理请求,从而使得服务器的性能和可用性受到影响。这种情况通常会导致整个服务器系统的崩溃,进而影响到整个应用程序生态系统中的其他服务。

缓存雪崩服务器雪崩导致的原因也是不一样的。

原因:

服务器雪崩可能由多种原因引起,例如应用程序错误、网络故障、系统资源不足、硬件故障等。当服务器上的应用程序出现故障时,可能会导致请求无法被处理,从而使得服务器的负载增加,最终导致服务器出现雪崩现象。

在服务器雪崩的情况下,整个服务器系统可能会受到影响,包括与该服务器相关的其他服务。如果服务器雪崩严重,可能会导致整个应用程序生态系统的崩溃,进而影响到整个互联网生态系统的稳定性和可用性。因此,对于服务器系统管理员来说,及时发现和解决服务器雪崩问题是非常重要的。

4.如何解决雪崩问题

解决缓存雪崩的方案其实非常对,主要就是围绕下面的几项内容来实现的:

1.使用分布式缓存:将缓存系统部署为分布式系统,利用多个节点来缓存数据,增加系统的可靠性和容错性。

  1. 设置合理的缓存大小和过期时间:缓存的大小和过期时间应该根据系统的需求和实际情况进行设置,以避免缓存数据量过大或者过期时间过短导致的性能下降。

3.使用限流降级组件:在缓存层和存储层之间添加限流降级组件,当某个组件出现故障时,可以自动降级,保证系统的可用性。

4.使用缓存雪崩分析工具:缓存雪崩分析工具可以帮助诊断缓存雪崩的原因,并提供解决方案。常见的缓存雪崩分析工具包括Redis Sentinel、Memcached Metrics、ClickHouse Export等。

5.优化数据库性能:如果数据库是导致缓存雪崩的原因之一,可以通过优化数据库性能,例如调整数据库的查询语句、优化索引等,来减少数据库的负载,提高系统的性能。

6.分区数据:如果系统的数据量过大,可以将数据分区,使用多个节点来缓存数据,提高系统的可靠性和容错性。

7.定期清理缓存:定期清理缓存可以释放一些缓存空间,并回收一些缓存数据,以保持缓存的响应性能。

其实这些,我们最经常用到的这些内容,比较简单实现的就是设置过期时间不要统一设置为所有的缓存都在同一个时间点失效,因为如果同一时间都失效的话,接下来所有的请求都会直接落库查询,接下来导致的就是数据库没抗住了。

而且面试的时候,很多时候的回答就是给不同的缓存设置不同的失效时间,还有一个比较多的就是使用熔断机制和降级机制。

其实说这个熔断机制和降级机制的话,那肯定就不单单的生活缓存了,而是整个微服务了,那么,什么是服务熔断呢?

服务熔断:当下游的服务因为某种原因突然变得不可用或响应过慢,上游服务为了保证自己整体服务的可用性,不再继续调用目标服务,直接返回,快速释放资源。如果目标服务情况好转则恢复调用。

需要说明的是熔断其实是一个框架级的处理,那么这套熔断机制的设计,基本上业内用的是断路器模式。

需要注意的是,熔断措施只是一种紧急处理措施,不能替代完善的运维管理和预防性措施。在采取熔断措施时,应充分考虑各种因素,包括服务类型、容量、性质、用户规模和地理位置等,以确保采取的熔断措施是合理、公平、可行和可持续的。同时,还需要加强运维管理,提高服务质量,预防服务故障的发生,以减少熔断措施的使用。

那么什么是微服务的降级呢?

微服务降级是指在微服务架构中,当某个服务出现故障或问题时,微服务提供商会采取的一种紧急处理措施,将该服务的运行状态降低到一个更低的级别,以减少故障对整个系统的影响。

其实有些人喜欢说熔断和降级实际上航就是一回事,确实是的,因为从实现上来说,熔断和降级必定是一起出现。因为当发生下游服务不可用的情况,这个时候为了对最终用户负责,就需要进入上游的降级逻辑了。因此,将熔断降级视为降级方式的一种,也是可以说的通的!