SQL优化 硬控面试官半小时

SQL优化可以串联 MySQL 90%的知识点,讲的好的话,可以让面试官眼前一亮,是很加分的,特别是对于那些本身就很懂MySQL的面试官,基本这次面试就稳了

这里我总结了一些SQL优化的思路,供大家参考,基本覆盖99%的场景了。

PS: 如果对你有用的话,请不要吝啬你的花花,这是我分享的动力

如何定位慢SQL(场景)

  • 业务场景执行时间非常久,触发网关超时
  • 使用以下命令分析慢SQL日志:`mysqldumpslow /path/to/your/slow-query.log`

优化思路

增删查改

  • 对于插入可以把多个语句合并成一个语句批量处理。
  • 对于删除,因为删除是假删除(减少B+树合并访问磁盘的开销),如果有太多地方没有使用,B+树层数虚高,增加了访问磁盘的速度,并且全表扫描也会扫描到很多无用数据,可以在数据库空闲的时候通过alter table来重建表使数据排列更紧凑
  • 对于频繁修改的数据
  • 利用最左匹配原则减少索引数量
  • 如果有唯一索引可以考虑改成普通索引,避免修改时为了维护唯一性导致change buffer失效。
  • 对于查询:
  • 使用缓存, 早期mysql开启查询缓存,mysql8.0没有查询缓存,业务层可以使用缓存例如redis;或者可以把一些特殊的语句定期执行然后保存,后面查保存的数据,不用执行sql,比如我之前做的一个预测成本的功能,每月只需要预测一次,那就可以写一个定时任务每个月定时预测一次保存到另一张表,后续查询直接查这张表就可以了,就不用执行复杂SQL了。
  • 对于大数据量的场景,可以读写分离,分库分表

分析执行计划

EXPLAIN分析SQL语句的执行计划,主要关注以下几个字段

  • 如果typeALL,说明进行了全表扫描,考虑是否可以通过增加索引来优化。
  • 分析possible_keys (可能使用到的索引)key(实际使用的索引),确保相关的列上建立适当的索引并且正确选取索引。
  • 使用覆盖索引来避免回表
  • 使用复合索引来提高多条件查询的性能(索引下推)。
  • 利用最左匹配原则尽可能的建立更少的索引
  • 分析有没有没有正确选取索引:
  • 可能会错误的使用全表扫描的场景:
  • 对字段使用了函数:将函数写在判断条件上面,避免对字段使用函数。
  • 字段隐式类型转换( str->int, 字段使用了utf8但是字符是utf8mb4),需要保证查询目标与字段类型一致
  • 如果没有出现上述问题,还有一种解决思路:使用force index强制使用索引 | order by .. limit 1。
  • 因为选取索引是优化器的工作,优化器会分析选取索引的扫描行数加上回表的代价是否比主键全表扫描少,这里采用采样分析,因为全表分析代价太大,在多个事务的时候,因为是假删除而且多个事务的时候MVCC多版本数据在undo-log里面,这个时候采样分析会把已经删除的数据也考虑到总量里面去,比如实际上总量是1000行,考虑成了2000行导致考虑的扫描行数翻倍。所以采样分析针对高并发和大数量的场景是非常不准的
  • MySQL临时表, CTE会破坏索引结构(例如group后使用了临时表):想办法优化掉临时表,或者减少临时表的查询、JOIN操作
  • rows字段,表示查询的结果集行数。我们要尽可能的减少rows的数量,以下是一些思路
  • 确保查询条件尽可能具体, 例如在WHERE子句中使用更严格的条件。
  • 对于确定的数量(例如只需要查询一个结果)使用limit
  • in 替换成 exists,in 是 双重匹配,exists匹配到了一个后就会提前返回
  • count字段看可不可以替换成count( * ), count(1)
  • Extra字段,记录一些额外信息
  • 如果有Using filesort,表示使用了文件排序。
  • 可以考虑给需要排序的字段加上索引,因为索引使用的B+树本来就是排序好的,可以减少排序时间。 或者可以把单次排序的内存sort_buffer_size设置大一点,因为排序是取磁盘里的部分数据到内存进行排序最后合并, 把单次排序内存设置大一点这样减少IO次数
  • 如果有Using Join Buffer, 说明Join没有使用索引。没有索引join会用到Block Nested-Loop Join算法,时间复杂度很高,可以看作两层遍历,实际上更复杂一点,考虑到数据很多不能全读到内存里,mysql使用了join_buffer来存一部分数据,可能会因为 join_buffer 不够大,需要对被驱动表做多次全表扫描。
  • 在需要Join的字段加上索引

其它思路

  • 对于某些语句正常执行的时候很快,偶尔执行时间会很长,很难复现
  • 这是因为触发了flush操作,我们应该尽可能的去减少flush操作触发的次数。如果频繁触发flush操作,可能是脏页比例过高,可以查看脏页比例,脏页比率控制策略主要与redo-log大小和写盘速度(innodb_io_capacity)有关,我们需要设置合理的redo_log大小以及符合实际的预期写盘速度(可以通过 fio 这个工具来测试)。我们也可以想办法减小单次flush操作的时间,InnoDB有个策略是刷某一页时发现这一页旁边的页也是脏页也会去刷旁边的页,这样连带着一片都刷进去,导致一次flush操作可能会耗费很长的时间,我们可以通过innodb_flush_neighbors来控制这个行为,值为 1 的时候会有上述的“连坐”机制,值为 0 时表示不找邻居,自己刷自己的。
  • 设计表的时候, 使索引的长度尽可能小,页的大小是固定的,根据索引长度计算B+树阶数,阶数越小,每页的节点数越多,B+数深度越小,访问磁盘次数越少;
  • 对于事务,使修改的顺序尽可能靠后,因为修改会持有行锁,会等事务提交后再释放锁,这样可能会阻塞其他事务,修改靠后就可以更晚的持有这些锁,这样就可以减少阻塞,也可以减少死锁发生的概率。
  • 大数据量分页查询的优化,改成使用id:分页的原理是查询到第一个满足条件的数据行后往后一页一页遍历,如果改成id的话,就可以使用索引进行优化,直接定位到需要查询的那一页
  • CTE物化问题,部分数据库(如MySQL)将CTE处理为临时表时不会保留原表索引, 解决方法:修改逻辑避免使用CTE/使用临时表替换CTE, 并在临时表上加索引(空间换时间)

CTE(Common Table Expression 公共表表达式) 是一种在 SQL 查询中定义临时结果集的方法。它通过 WITH 子句创建,可以:

  • 简化复杂查询的可读性
  • 支持递归查询
  • 多次引用同一结果集 基础语法
WITH cte_name (column1, column2, ...) AS (
  -- 子查询
  SELECT ...
)
SELECT * FROM cte_name;

我的面试思路

一般结合一两个点来讲

比如 Join 没有使用索引,耗时很长,但是后续分析发现Join字段上建立了索引,为什么Join没有选取索引呢?最终分析发现了以下原因:

  • 临时表破坏了原表的索引结构
  • CTE物化问题破坏了原表的索引结构

再针对上述问题讲解一些优化思路。

PS: 此文章适合有一定SQL优化基础的人进阶使用,对于小白可能不是很友好,如果你有什么疑问的话,可以在评论区我们相互交流一下。(因为每个知识点都要展开讲的话基本覆盖了90%MySQL知识点了,篇幅太长)

最后,如果对你有用的话,一定不要忘记送个花花呀,这么高质量又免费的帖子很少了

全部评论
“对于删除,因为删除是假删除”啥意思,我们删除难道不是真删除吗
3 回复 分享
发布于 03-14 14:41 香港
佬可以试试贝壳呢,主页有~
2 回复 分享
发布于 03-18 23:53 北京
mark
1 回复 分享
发布于 04-09 10:35 重庆
mark
点赞 回复 分享
发布于 04-29 18:43 广西
mark
点赞 回复 分享
发布于 04-28 16:33 山西
mark
点赞 回复 分享
发布于 04-19 14:57 黑龙江
mark
点赞 回复 分享
发布于 04-11 20:41 澳大利亚
mark
点赞 回复 分享
发布于 04-11 07:10 广东
mark
点赞 回复 分享
发布于 04-09 18:44 江苏
mark
点赞 回复 分享
发布于 04-08 15:53 安徽
mark
点赞 回复 分享
发布于 04-08 11:54 江西
mark
点赞 回复 分享
发布于 04-07 21:02 河北
mark
点赞 回复 分享
发布于 04-07 17:51 江苏
mark
点赞 回复 分享
发布于 04-05 13:12 江西
mark
点赞 回复 分享
发布于 04-04 17:57 安徽
mark
点赞 回复 分享
发布于 04-04 01:02 陕西
能看看我帖子的简历吗,数据分析方向的,不求大厂只求一个普通中小厂的数据运营可以吗
点赞 回复 分享
发布于 04-03 08:20 湖南
mark
点赞 回复 分享
发布于 04-02 19:09 陕西
mark
点赞 回复 分享
发布于 04-02 09:45 四川
优化思路很实用
点赞 回复 分享
发布于 04-01 23:38 江苏

相关推荐

面试官人很好,态度和蔼可亲,没答出来时也会引导你去思考。由于是晚上面的,导致我白天一天都有点紧张,面的时候状态也不是很好,正常可能面试官提问完应该思考几秒再答,而我就像抢答一样一口气把所有会的都说出来,这样就导致逻辑比较混乱,东一句西一句的。首先是自我介绍,先把会的技术大致讲一下,由于我八股背的多所以着重讲了一下,Java,go,jvm,MySQL,Redis,计网,操作系统这些,然后一小部分闲聊,然后先问了一下项目,面试官问我这个项目是否落实之类的,直接坦言说是写的练手的,包括之前也写过IM通讯,外卖之类的。然后面试官就把提问的重点放在了八股上。先问了Java:类加载器(答:3种+自定义类加载器、tomcat、原因+双亲委派+好处)JVM参数(答:xmx,xms,newsize这些,问我是如何设定的,我回答是把内存分一半给堆,再把堆分一半给新生代,这方面确实不太了解)然后问了一下并发相关的:线程池(答:线程池的7个参数(忘了线程工厂和阻塞时间了),3个重要参数,还有线程如何启用,为什么要设计最大线程数之类的,提到Java栈默认分配1MB运行时不可以更改)AQS(答:先讲clh是自旋锁+list,然后是AQS在这个基础上做的两个优化,然后举了一下reentrantlock根据state如何获取资源)CAS(答:使用三个字段,aba问题,然后将通常搭配自旋锁实现,面试官问通常会自旋多少次,这个不太了解,答的100,然后问100次大概多少秒,回答微秒级,然后面试官讲了一下怎么做资源可能没用完,意识到可能还需要进行阻塞操作)然后考虑一下Linux命令(top,ps,如何使用管道符过滤线程和使用Linux启动线程没答出来)然后问Redis:持久化机制(答:三种aof,rdb,混合,aof的三个参数刷盘策略,rdb以快照保存,使用bgsave会使用子线程来保存不会阻塞,而aof虽然会阻塞但是只在写完数据后追加一条命令,不会太影响,然后是他俩的优缺点,还有混合是怎么保存数据的)集群模式(答:三种,主从复制到缺点再到哨兵机制,正常使用三个哨兵互相监督,主节点挂了投票选主哨兵然后选主节点,然后额外讲一下脑裂的问题,主节点进行数据更新然后把命令写入aof来同步从节点,最后cluster集群,如何实现,使用16383个哈希槽(艹答成16384了),先根据哈希码取余,再根据节点数取余决定放在哪个节点上,然后问了一下我会怎么选集群模式,首先是cluster的问题,会让管道操作之类的失效,然后哨兵会导致整个集群结构变得复杂,使用小项目可能会考虑哨兵,大的考虑cluster,然后考了一下cluster如果一个节点挂了怎么办,根据节点数重新取余然后数据转移,面试官说这么转移比较慢,有没有别的办法,我隐约记得使用一个类似环形数组的方式,想不起来了)然后考了一下MySQL的b+树(这方面的知识点太多了,导致我什么都想讲逻辑就比较乱,讲了一下聚簇索引,树的叶子节点对应着一张页16KB,MySQL有一个区的概念,把这些页放在同一个区中,这样叶子节点的双向链表遍历时速度更快,然后b+树的扇出比较大(非常二,说成扇度之类的,面试官以为说的是扇区)这样层数就比较小,一行1kb数据的话3层可以放心2000w数据)其他的暂时想不起来了算法是lru,面试官问要不要提示,我说写个,然后写了10分钟左右,说大概写好了,但是面试官指出了2个小错误,第一个马上就改回来了,第二个一直没看出来(大脑这时候已经停止工作了)反问:问学习建议,说根据实际的项目进行深入,考虑应该怎么做,还问了一下组里面是做Java的吗?面试官说他是做go的,组里什么语言都有,语言影响不大,连忙补充了一句我对go的底层有深入源码的学习)结束。总体感觉答得不太好,没有太体现出深度,细节也不够全面。
下一个更好呗:佬,我投完云智一直没消息,多久约的一面啊
查看14道真题和解析
点赞 评论 收藏
分享
评论
295
1535
分享

创作者周榜

更多
牛客网
牛客企业服务