可靠性测试相关
https://blog.csdn.net/weixin_34037515/article/details/90683937
服务中断 (Outage)
上面公式引入的Outage的 概念,一般翻译为服务中断。按照产生原因可以分为3类, 通常在系统设计中只关注第1类即产品因素导致的outage:
由产品因素导致 – 包括: 系统设计, 硬件, 软件, 系统组件缺陷; 系统设计中包括的必要的计划内的服务中断; 由于执行例行维护导致的
客户因素导致 – 主要包括:流程问题或错误; 服务环境因素:电源,地线,温度,湿度,安全问题等
外部因素导致 –包括:自然灾难,如飓风,洪水,地震等; 由与客户无关的第三方因素,如挖掘机
TL9000 标准中定义了2类Outage类型:
服务完全中断 (Total Outage): 系统内的所有主要功能无法工作
服务部分中断 (Partial Outage): 系统的服务能力下降一定比例(如20%),或系统内部分组件或功能无法工作
到了异地多活,这里还想在对Geo-Redundancy 和 Fault Tolerance & Disaster Recovery再多说几句。容灾策略可以分为:
无容错 (No FT or DR):系统不考虑Error Detection和 Failover Recovery,出了问题只能重启或者干脆无法服务
主从备份(Active-StandBy): 正常情况下只有主服务工作,备份服务不工作,在主服务出现故障时,备份服务可以立即启用,通常是1+1 的方式,这种策略备份服务在很多时候可能都是冗余,但又是必须,所以资源使用率不高。
双活(Active-Active): 系统有2个服务集群,这2个集群同时提供服务,可以根据不同策略将服务转发到其中1个集群。当其中一个集群中全部或者部分节点/组件服务中断时,另一个集群可以立刻接管。这种策略资源使用率比Active-Standby高,但对系统架构与设计的要求也高,如需要支持数据实时备份与同步。同时如果由于设计不当,可能会导致在Failover 后系统的服务能力下降,具体请看下面的N+K部分。
异地双活(Active-Active with Geo-Redundancy): 和双活类似,区别在2个服务集群部署在不同的地理位置,中间通过高速网络连接。这种策略优势明显:可以抵抗单一地区的突发事故,包括自然灾害,但是需要有跨长距离的高速网络连接,成本提高
文件系统可靠性相关:
=============================================================================================================
可靠性相关:
容错能力:即系统对于自身出现的错误具有一定的屏蔽或处理能力。常见的容错手段包括如下几点:
①、失败重试机制;
②、多机备份自动切换;
③、设置合理的TimeOut(超时);
④、服务解耦,微服务模式;
⑤、权重选举,服务降级;
6、故障检测机制;
故障恢复能力:(自愈能力)
①、硬件及有关设备故障;
②、软件系统故障;
③、数据故障;
④、网络故障;
容灾能力:
①、系统需要具有自我诊断、故障报告及指示处理方法的能力,以及具备冗余及自动切换能力;(冗余设计&主备倒换等)
②、监控到故障发生时,系统需要具备及时隔离、服务降级、服务快速切换的能力;(故障隔离,服务切换)
③、主从热备,多机冷备,异地多活等措施(架构设计上的措施:提前设计成主备部署)
=============================================================================================================
可靠性:3个子特性分别为:成熟性(Maturity)、容错性(Fault tolerance)、可恢复性(Recoverability)。
其中容错性是指与在软件错误或违反指定接口的情况下,维持指定的性能水平的能力有关的软件属性。
而可恢复性是指在故障发生后,重新建立其性能水平并恢复直接受影响数据的能力,以及为达到此目的所需的时间和努力有关的软件属性。
https://blog.csdn.net/xiaokuang513204/article/details/8629415
可恢复测试通常需要关注恢复所需的时间以及恢复的程度。
容错测试一般是输入异常数据或进行异常操作,以检验系统的保护性。如果系统的容错性好的话,系统会给出提示或内部消化掉,而不会导致系统出错甚至崩溃。
而可恢复测试是通过各种手段,让软件强制性地发生故障,然后验证系统已保存的用户数据是否丢失、系统和数据是否能很快恢复。因此,可恢复测试和容错测试是互补的关系,可恢复测试也是检查系统的容错能力的方法之一,但不能只重视其中之一。
可恢复包含几种:
1)硬件设备故障;
2)数据故障;(观察数据的恢复情况)
3)软件系统故障:遇到故障是否能重新恢复正常;对故障是否具备自动检测与诊断;
4)通信故障;(是否纠正错误通信的传输、是否能回复到故障前的通信)
故障模式库:
https://blog.csdn.net/weixin_34014277/article/details/93205232