分布式学习(一)

① 分布式到底是什么

分布式也就是微服务中的一种体系结构,分布式结构就是一个完整的系统,按照业务功能,拆分成一个个独立的子系统,在分布式结构中,每个子系统就被称为“服务”。这些子系统能够独立运行在Web容器中,他们之间通过RPC方式通信。

  • 分布式模式
    • 数据并行/数据分布式模式(任务执行时间短,数据规模大、类型相同且无依赖)
    • 任务并行/任务分布式模式(任务复杂、执行时间长,且任务可拆分为多个子任务)

② 分布式系统的指标

  • 性能:

    • 完成时间

    • 响应时间

    • 吞吐量:系统在一定时间内可以处理的任务数,常见的性能指标有:

      QPS:用于衡量一个系统每秒处理的查询数,如果应用主要是读操作,那么需要重点考虑如何提高QPS
      TPS:用于衡量一个系统每秒处理的事务数,如果应用主要是写操作,那么需要重点考虑如何提高TPS
      BPS:用于衡量一个系统每秒处理的数据量
      
  • 资源占用

    • 资源占用:一个系统提供正常能力需要占用的硬件资源,比如 CPU、内存、硬盘等
  • 可用性(系统在面对各种异常时可以正确提供服务的能力)

    • 可用性可以用系统停止服务的时间与总的时间之比衡量,也可以用某功能的失败次数与总的请求次数之比来衡量
  • 可扩展性(分布式系统通过扩展集群机器规模提高系统性能、存储容量、计算能力的特性)

    • 常见指标是加速比,即一个系统进行扩展后相对扩展前的性能提升

③ CAP理论(Consistency、Availability、Partition tolerance)

  • 分区容错 (Partition tolerance)

    • 由于分布式系统通过网络进行通信,网络是不可靠的。当任意数量的消息丢失或延迟到达时,系统仍会继续提供服务,不会挂掉。换句话说,分区容忍性是站在分布式系统的角度,对访问本系统的客户端的再一种承诺:我会一直运行,不管我的内部出现何种数据同步问题,强调的是不挂掉。
  • 一致性(Consistency)

    • 任何客户端的请求都能得到响应数据,不会出现响应错误。换句话说,可用性是站在分布式系统的角度,对访问本系统的客户的另一种承诺:我一定会给您返回数据,不会给你返回错误,但不保证数据最新,强调的是不出错。
  • 可用性(Availability)

    • 对于客户端的每次读操作,要么读到的是最新的数据,要么读取失败。换句话说,一致性是站在分布式系统的角度,对访问本系统的客户端的一种承诺:要么我给您返回一个错误,要么我给你返回绝对一致的最新数据,不难看出,其强调的是数据正确。

CAP如何取舍(CP系统、CA系统)

1.一个分布式系统最多只能同时满足一致性、可用性和分区容错性这三项中的两项。对于一个分布式系统而言,P是前提,必须保证
2.而根据一致性和可用性的选择不同,开源的分布式系统往往又被分为 CP 系统和 AP 系统
  • 当一套系统在发生分区故障后,客户端的任何请求都被卡死或者超时,但是,系统的每个节点总是会返回一致的数据,则这套系统就是 CP 系统,经典的比如 Zookeeper。(追求CP: 用户请求支付,等待支付订单生成以及库存系统数据更新,再给用户返回结果 追求强一致性 缺点:用户体验差)

  • 如果一套系统发生分区故障后,客户端依然可以访问系统,但是获取的数据有的是新的数据,有的还是老数据,那么这套系统就是 AP 系统,经典的比如 Eureka。(追求AP: 用户请求支付,立即给用户响应结果,异步处理库存系统 放弃强一致性,采用最终一致性)

CAP误区

  • 误解一:分布式系统因为 CAP 定理放弃了 C 或者 A 中的其中一个

    解释:P发生分区问题的概率比较低,没有分区问题的时候,系统就应该有完美的数据一致性和可用性。
    
  • 误解二:C和A之间的选择是针对整个分布式系统的,只能整体考虑C和 A之间的选择

    解释:不同业务模块需要具体问题具体分析,财务流水是强一致性选C,会员的名字、支付设置可以选择可用性A,不是全部选A或者C
    

全部评论

相关推荐

三年之期已到我的offer快到碗里来:9硕都比不上9本
点赞 评论 收藏
分享
10-11 15:42
皖西学院 Java
青鱼LINK:我硕士,也是java0面试,吾道不孤
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务