MySQL的MVCC是什么?
首先看一下什么是数据库事务
事务就是为了保证一组数据库操作,要么全部成功,要么全部失败。
事务的四大特性
-
原子性(Atomicity)
一个事务中的多组操作,要么全部成功,要么全部失败。在事务提交(commit)成功之后,所有的操作都生效,提交失败,所有的操作都会回滚。
-
持久性(Durable)
事务一旦提交,对数据库的变更就会持久化到磁盘,即使数据库发生异常重启,数据也不会丢失。
-
隔离性(isolation)
事务在执行过程中,是与外界完全隔离的,即使数据库发生了变更,事务中也获取不到。A 事务对数据库做的变更,在事务未提交之间,数据库中也看不到,B 事务中也看不到。
-
一致性(consistent)
一个事务执行之前和执行之后数据库都必须处于一致性状态。在事务执行的过程中,只要事务未提交,就不会改变数据库的状态。提交之后事务已完成,此时数据库状态发生变化。
事务隔离级别
-
读未提交(Read Uncommitted RU)
一个事务还未提交时,它做的变更就可以被别的事务看到。
-
读已提交(Read Committed)
事务提交以后,它做的变更才能被其它事务看到。但是在这个事务未提交之前,数据库中发生的变更,当前事务也能看见。
-
可重复读(Repeatable Read)
事务总是只能看见在启动的那个时刻,数据库的状态。事务未提交之前做的变更,其它事务看不见。事务执行期间,数据库中已经发生的变更,这个事务也看不见。只能看见事务刚启动时刻,数据库的状态。
-
串行化(Serializable)
事务对某一行的操作会加锁,“写”会加“写锁”,“读”会加“读锁”,在锁释放掉之前,其它的事务都无法都这一行的记录进行操作。必须等之前的事务执行完毕,释放锁。后面的事务又会重新加锁。
事务并发会带来什么问题
-
脏读
脏读就是指当一个事务正在访问数据,并且对数据进行了修改,而这种修改还没有提交到数据库中,这时,另外一个事务也访问 这个数据,然后使用了这个数据。
-
不可重复读
是指在一个事务内,多次读同一数据。在这个事务还没有结束时,另外一个事务也访问该同一数据。那么,在第一个事务中的两 次读数据之间,由于第二个事务的修改,那么第一个事务两次读到的的数据可能是不一样的。这样就发生了在一个事务内两次读到的数据是不一样的,因此称为是不 可重复读。
-
幻读
是指当事务不是独立执行时发生的一种现象,例如第一个事务对一个表中的数据进行了修改,这种修改涉及到表中的全部数据行。同时,第二个事务也修改这个表中的数据,这种修改是向表中插入一行新数据。那么,以后就会发生操作第一个事务的用户发现表中还有没有修改的数据行,就好像 发生了幻觉一样。
MySQL里的三种log
-
bin log记录数据库表结构和表数据变更的二进制日志,主要用于复制(主从)和数据恢复。
-
redo log用于恢复在内存更新后,还没来得及刷到磁盘的数据。
-
undo log用于实现回滚和多版本控制。
什么是当前读和快照读?
在学习MVCC多版本并发控制之前,我们必须先了解一下,什么是MySQL InnoDB下的当前读和快照读?
-
当前读像select lock in share mode(共享锁),select for update, update,insert,delete(排他锁)这些操作都是一种当前读,为什么叫当前读?就是它读取的是记录的最新版本,读取时还要保证其他并发事务不能修改当前记录,会对读取的记录进行加锁
-
快照读像不加锁的select操作就是快照读,即不加锁的非阻塞读;快照读的前提是隔离级别不是串行级别,串行级别下的快照读会退化成当前读;之所以出现快照读的情况,是基于提高并发性能的考虑,快照读的实现是基于多版本并发控制,即MVCC,可以认为MVCC是行锁的一个变种,但它在很多情况下,避免了加锁操作,降低了开销;既然是基于多版本,即快照读可能读到的并不一定是数据的最新版本,而有可能是之前的历史版本
什么是MVCC
MVCC全称是多版本并发控制 (Multi-Version Concurrency Control),只有在InnoDB引擎下存在。MVCC机制的作用其实就是避免同一个数据在不同事务之间的竞争,提高系统的并发性能。
它的特点如下:
-
允许多个版本同时存在,并发执行。
-
不依赖锁机制,性能高。
-
只在读已提交和可重复读的事务隔离级别下工作。
为什么使用MVCC
在早期的数据库中,只有读读之间的操作才可以并发执行,读写,写读,写写操作都要阻塞,这样就会导致MySQL的并发性能极差。
采用了MVCC机制后,只有写写之间相互阻塞,其他三种操作都可以并行,这样就可以提高MySQL的并发性能。
说白了MVCC就是为了实现读-写冲突不加锁,而这个读指的就是快照读, 而非当前读,当前读实际上是一种加锁的操作,是悲观锁的实现。
注意MVCC仅仅在纯select时有效(不包括select for update,lock in share mode等加锁操作,以及updateinsert等)。
MVCC带来的好处
多版本并发控制(MVCC)是一种用来解决读-写冲突的无锁并发控制,也就是为事务分配单向增长的时间戳,为每个修改保存一个版本,版本与事务时间戳关联,读操作只读该事务开始前的数据库的快照。所以MVCC可以为数据库解决以下问题
-
在并发读写数据库时,可以做到在读操作时不用阻塞写操作,写操作也不用阻塞读操作,提高了数据库并发读写的性能
-
同时还可以解决脏读,幻读(快照读),不可重复读等事务隔离问题,但不能解决更新丢失问题。
MVCC机制的原理
在讲解MVCC机制的原理之前首先要介绍几个概念。
ReadView
ReadView可以理解为数据库中某一个时刻所有未提交事务的快照。ReadView有几个重要的参数:
-
m_ids:表示生成ReadView时,当前系统正在活跃的读写事务的事务Id列表。
-
min_trx_id:表示生成ReadView时,当前系统中活跃的读写事务的最小事务Id。
-
max_trx_id:表示生成ReadView时,当前时间戳InnoDB将在下一次分配的事务id。
-
creator_trx_id:当前事务id。
所以当创建ReadView时,可以知道这个时间点上未提交事务的所有信息。
隐藏列
InnoDB存储引擎中,它的聚簇索引记录中都包含两个必要的隐藏列,分别是:
-
trx_id:事务Id,每次一个事务对某条聚簇索引记录进行改动时,都会把该事务的
事务id
赋值给trx_id
隐藏列。 -
roll_pointer:回滚指针,每次对某条聚簇索引记录进行改动时,都会把旧的版本写入到
undo log
中,然后这个隐藏列就相当于一个指针,可以通过它来找到该记录修改前的信息。
事务链
每次对记录进行修改时,都会记录一条undo log信息,每一条undo log信息都会有一个roll_pointer属性(INSERT操作没有这个属性,因为之前没有更早的版本),可以将这些undo日志都连起来,串成一个链表。事务链如下图一样:
原理
我们都知道,MySQL事务隔离级别有四种,分别是读未提交(Read Uncommitted,简称RU)、读已提交(Read Committed,简称RC)、可重复读(Repeatable Read,简称RR)、串行化(Serializable),只有RC和RR才跟MVCC机制相关,RU和Serializable都不会使用到MVCC机制。因为在读未提交(RU)级别下是直接返回记录上的最新值,Serializable级别下则会对所有读取的行都加锁。
RC和RR隔离级别的实现就是通过版本控制来完成,核心处理逻辑就是判断所有版本中哪个版本是当前事务可见的处理,通过什么判断呢?就是上文讲到的ReadView,ReadView包含了当前系统活跃的读写事务的信息,判断的逻辑如下:
-
如果被访问版本的trx_id属性值小于ReadView的最小事务Id,表示该版本的事务在生成 ReadView 前已经提交,所以该版本可以被当前事务访问。
-
如果被访问版本的trx_id属性值大于ReadView的最大事务Id,表示该版本的事务在生成 ReadView 后才生成,所以该版本不可以被当前事务访问。
-
如果被访问版本的trx_id属性值在m_ids列表最小事务Id和最大事务Id之间,那就需要判断一下 trx_id 属性值是不是包含在 m_ids 列表中,如果包含的话,说明创建 ReadView 时生成该版本的事务还是活跃的,所以该版本不可以访问;如果不包含的话,说明创建 ReadView 时生成该版本的事务已经被提交,该版本可以被访问。
我们下面举例说明RC和RR隔离级别的区别,假如有一条user数据,初始值name="刘德华",然后经过下面的更新,时间点如下:
RC隔离级别的MVCC:
RC隔离级别的事务在每次查询开始时都会生成一个独立的 ReadView。
在T4时间点时,版本链如下所示:
在T4时间点的Select语句执行时,当前时间系统正在活跃的事务有trx_id为100和200都未提交,所以此时生成的ReadView的事务列表是[100,200],因此查询语句会根据当前版本链中小于事务列表中的最大的版本数据,即查询到的是刘德华。
在T6时间点时,版本链如下所示:
在T6时间点的Select语句执行时,当前时间系统正在活跃的事务有trx_id为200未提交,所以此时生成的ReadView的事务列表时[200],因此查询语句会根据当前版本链中小于事务列表中的最大的版本数据,即查询到的是古天乐。
在T8时间点时,版本链如下所示:
在T6时间点的Select语句执行时,当前时间系统正在活跃的事务都已经提交,所以此时生成的ReadView的事务列表为空,因此查询语句会直接查询当前数据库最新数据,即查询到的是麦长青。
由于每次查询都会生成新的ReadView,所以有可能出现不可重复读的问题。
RR隔离级别的MVCC:
RR隔离级别的事务在第一次读取数据时生成ReadView,之后的查询都不会再生成,所以一个事务的查询结果每次都是一样的。
因为三次查询都是在同一个事务tx_300中。
所以在第一次查询,也就是T4时间点时会生成ReadView,事务列表为[100,200],所以当前可见版本的查询结果为刘德华。
第二次查询,T6时间点不会生成新的ReadView,所以查询结果依然是刘德华。
第三次查询,T8时间一样,不会生成ReadView,沿用T4时间点生成的ReadView,所以查询结果依然是刘德华。
由于在同一个事务中,RR级别的事务在查询中只会生成一个ReadView,所以能解决不可重复读的问题。
总结
要理解MVCC机制,关键在于要理解ReadView、隐藏列、事务链三者在其中的作用。还有就是只有RC和RR的隔离级别才会使用MVCC机制,两者最大的区别在于生成ReadView的时机的不同,RC级别生成ReadView的时机是每次查询都会生成新的ReadView,而RR级别是在当前事务第一次查询时生成,并且生成的ReadView会一直沿用到事务提交为止,保证可重复读。