简单聊聊什么是CAP
微信公众号:大黄奔跑
关注我,可了解更多有趣的面试相关问题。
本篇收录于《计算机核心知识串讲》,属于该系列第一篇,后面持续更新中…………
写在之前
谈到非关系型数据库,很多人第一反应是Redis
,但其实这只是其中一种非关系型数据库,其他的有很多,比如Redis
、MongoDB
、Apache Cassandra
等等。
WHAT
什么是非关系型数据库?
非关系型数据库指的是非关系型、分布式、不提供ACID (数据库事务处理的四个基本要素)的数据库。
为了弥补关系型数据的缺点而提出的一种数据库的补充。
非关系型数据库主要有四类
- 其存储结构为列式存储。(不同于关系型数据的行式存储) 列式存储相对于行式存储具有更高的扩展性。比如
Hbase
Key-value
:面向高性能并发读/写的缓存存储,其结构类似于数据结构中的Hash
表。比如Redis、memcache
- 面向文档:面向海量数据访问的文档存储,类似于K-V但是存储模式,但是
value
是json
或者xml
格式的。比如MongoDB
- 图关系数据库。比如:
Neo4J
,InfoGrid
非关系型数据特点
上面说了非关系型数据库不具备ACID
特点。其自身具有CAP
特性。何为CAP
特性呢?
C(Consistency)
强一致性
一致性是指更新操作成功并返回客户端完成后,所有节点在同一时间的数据完全一致。与ACID的C完全不同A(Availability)
可用性
可用性是指服务一直可用,而且是正常响应时间。P(Partition tolerance)
分区容错性
分区容错性是指分布式系统在遇到某节点或网络分区故障的时候,仍然能够对外提供满足一致性和可用性的服务。
非关系型数据库理论而言只能满足其中两项特性,对于一个分布式系统来说,分区容错是基本需求,否则不能称之为分布式系统,如果没有了分区,则只能完一些单机游戏,显然不符合要求。因此需要在C
和A
之间寻求平衡。
在绝大多数情况话会保证系统的可用性(A
)。因为对于分布式系统而言,保证可用性比强一致性更好,因为很多时候数据不需要保证强一致性,只需要保证最终一致性即可。
假设一下,如果是一个网站,是愿意承担网站崩溃呢,还是愿意忍受数据在某一个时间段不一致呢?举一个很常见的例子,双十一淘宝的量很大,你觉得页面上展示的销量实时更新重要呢还是用户是否能下单重要呢,不能下单第二天妥妥的微博热搜。
下面是各个情况的表现:
CA
- 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大。CP
- 满足一致性,分区容忍必须的,否则不能称为分布式,通常性能不是特别高。AP
- 满足可用性,分区容忍是必须的,否则不能称为分布式,通常可能对一致性要求低一些。
总结
本意想借着文章的机会给大家分享所学所得,无奈知识浅薄,文章难免很有很多纰漏,如果你发现了错误的地方,可以私信我