标题里面的三个术语,很容易混淆,专业人员有时也会用错。
本文就用图片解释它们有何区别。
容错
容错(fault tolerance)指的是, 发生故障时,系统还能继续运行。
飞机有四个引擎,如果一个引擎坏了,剩下三个引擎,还能继续飞,这就是"容错"。同样的,汽车的一个轮子扎破了,剩下三个轮子,也还是勉强能行驶。
容错的目的是,发生故障时,系统的运行水平可能有所下降,但是依然可用,不会完全失败。
高可用
高可用(high availability)指的是, 系统能够比正常时间更久地保持一定的运行水平。
汽车的备胎就是一个高可用的例子。如果没有备胎,轮胎坏了,车就开不久了。备胎延长了汽车行驶的可用时间。
注意,高可用不是指系统不中断(那是容错能力),而是指一旦中断能够快速恢复,即中断必须是短暂的。如果需要很长时间才能恢复可用性,就不叫高可用了。上面例子中,更换备胎就必须停车,但只要装上去,就能回到行驶状态。
灾备
灾备(又称灾难恢复,disaster recovery)指的是, 发生灾难时恢复业务的能力。
上图中,飞机是你的 IT 基础设施,飞行员是你的业务,飞行员弹射装置就是灾备措施。一旦飞机即将坠毁,你的基础设施就要没了,灾备可以让你的业务幸存下来。
灾备的目的就是,保存系统的核心部分。一个好的灾备方案,就是从失败的基础设施中获取企业最宝贵的数据,然后在新的基础设施上恢复它们。注意,灾备不是为了挽救基础设置,而是为了挽救业务。
总结
上面三个方面可以结合起来,设计一个可靠的系统。
- 容错:发生故障时,如何让系统继续运行。
- 高可用:系统中断时,如何尽快恢复。
- 灾备:系统毁灭时,如何抢救数据。
参考文献
(完)
WangNianyi2001 说:
飞行员:就是我把用户名设置成 null 的,嘿嘿!
2019年11月17日 23:25 | # | 引用
DeathGhost 说:
错过了周五,来个周日,了解了解...
2019年11月17日 23:28 | # | 引用
木匠 说:
好文, 谢谢分享.
咱最近在学习系统升级, 这下概念清晰了.
2019年11月18日 02:19 | # | 引用
丢火车 说:
简单明了。。。
2019年11月18日 09:21 | # | 引用
石樱灯笼 说:
因为这三个术语在目前的技术实现上可以一起实现,所以会经常被搞混。
2019年11月18日 09:30 | # | 引用
柯广的博客 说:
简单明了!
2019年11月18日 10:09 | # | 引用
你大爷 说:
很棒,一看就懂
2019年11月18日 10:23 | # | 引用
littlePuppy 说:
容错 = 降频
高可用 = 重启
灾备 = 重装系统
2019年11月18日 11:26 | # | 引用
lalala 说:
还是看英文名字明了
2019年11月18日 14:23 | # | 引用
noname 说:
容错:异常控制
高可用:模块化、版本控制
容灾:备份、镜像
2019年11月19日 16:48 | # | 引用
北梦小神 说:
那我的plus手机比正常的手机使用时间更长一点,算是高可用了对把
2019年11月21日 11:41 | # | 引用
andy 说:
还有监控
2019年11月22日 09:24 | # | 引用
轻舞飞扬 说:
容错:允许“低可用”,但是要“可用”;
高可用:必须“高可用”
容灾:“灾难发生,依然可用”
2020年1月29日 15:20 | # | 引用
BruceFu 说:
容错和灾备一起构成了高可用。飞行员的弹出,和换胎是一样的。一个换的是胎,一个换的是飞机。
2020年2月11日 23:02 | # | 引用
叫哥也不行 说:
1、汽车三个轮子能继续运行 2、汽车备胎 3、汽车+安全气囊、侧气帘+人 这三个例子更直观哈
2020年3月10日 22:13 | # | 引用
Lily 说:
这波补得形象生动!
2020年3月21日 14:23 | # | 引用
Lily 说:
高可用方案是包含容错和灾备的吧。比如说集群,宕掉一个节点,系统还能继续运行,算容错。另外,使用集群也让系统能够比正常时间更久地保持一定的运行水平,即使导致系统中断,也能在短时间内恢复,所以也算是高可用。灾备的话,也是为了保存核心,尽快“东山再起”嘛,发生灾难后,系统恢复时间越短,可用性越高。
借用百度百科里一段话:
高可用的工作方式有:
(1)主从方式 (非对称方式)
工作原理:主机工作,备机处于监控准备状况;当主机宕机时,备机接管主机的一切工作,待主机恢复正常后,按使用者的设定以自动或手动方式将服务切换到主机上运行,数据的一致性通过共享存储系统解决。
(2)双机双工方式(互备互援)
工作原理:两台主机同时运行各自的服务工作且相互监测情况,当任一台主机宕机时,另一台主机立即接管它的一切工作,保证工作实时,应用服务系统的关键数据存放在共享存储系统中。
(3)集群工作方式(多服务器互备方式)
工作原理:多台主机一起工作,各自运行一个或几个服务,各为服务定义一个或多个备用主机,当某个主机故障时,运行在其上的服务就可以被其它主机接管。
2020年3月21日 15:44 | # | 引用
桔子有点酸 说:
高可用很形象
2020年3月22日 19:15 | # | 引用
muhan 说:
理解意味着什么?理解意味着自己也可以举一个例子。灾备的一个例子:电脑突然死机,可能烧了主板,可能系统崩溃。之前在电脑进行的工作突然无法继续进行,换电脑也不行,因为你的数据(硬盘资料,上网查询记录等等)并没有在另一台电脑上。这个例子中电脑数据就是你的业务,电脑则是你的基础设施。你无法从失败的基础设施中获取企业最宝贵的数据,然后在新的基础设施上恢复它们,这说明你不具备灾备意识,更不用说有灾备方案
2020年4月 6日 22:29 | # | 引用
belong 说:
很清晰 期待此专题的后续
2020年5月 1日 16:51 | # | 引用
Hunk 说:
这三个术语之所以容易混淆,个人觉得主要是因为这个三术语多少都与冗余有关系(或者说常见的解决方案大多都是通过冗余来实现的)。
2020年12月10日 13:19 | # | 引用