2022-08-17 09:54 湖南师范大学 Java 发布于湖南

关注

惊了：《记一次数据库CPU使用率100%排查》

1.背景：

在监控线上数据库的运行是否安全、正常的过程中，cpu 使用率是一个重要的指标，一旦cpu使用率飙升至90%+甚至达到100%，必然会对数据库的正常工作产生影响。

在排查数据库的cpu 飙升的问题前，我们先看下cpu 飙升的原因有哪些。

2.cpu使用率飙升的原因

首先直观的，cpu使用率过高可能和流量和慢查询有一定的关系

进一步查阅相关资料，得到公式：单位时间 CPU 资源 = 查询执行的平均成本 x 单位时间执行的查询数量

显然，cpu使用率与【查询执行的平均成本】和【单位时间执行的查询数量】线性相关，而这两项就是我们常说的慢sql以及数据库QPS。

所以：一般而言，cpu使用率飙升可归纳为以下两点：

大量的慢sql占用了cpu资源，拖垮了数据库，这类的慢sql常常表现为：查询的数据量过大，全表扫描、锁抢占甚至死锁、复杂查询等
QPS过高，本质上是数据库的承载的流量过大

3.如何解决

3.1 定位问题

定位是否为qps原因:

例如以下案例：

首先，查看当前cpu曲线：

发现此时的cpu已经解决100%在运行，再查看此时的qps曲线，

会发现此时的qps曲线基本和cpu曲线保持一致，此时我们可断定cpu飙升必然存在qps过高的原因。为了验证是否有慢sql的存在，再查看慢sql曲线：

发现此案例中完全不存在慢sql。因此责任可100%归为qps过高，如果我们对该库所在实例开通的sql审计的功能，我们可查看过去一个月的qps记录，判断是由哪台机器发出的高频请求，以及请求的Top调用量的sql。

如果我们没开通sql审计功能的话，阿里云也可查看当前对库的实时请求记录，或者我们可以以root用户登陆数据库，执行‘SHOW PROCESSLIST’命令查看。

最后定位了具体sql或者接口后就可以针对性的解决问题：降级或者限流。

定位是否为慢sql原因

案例1 CPU峰刺

例如以下案例：

首先，查看当前cpu和qps曲线：

从上图我们可看出，cpu和qps的整体的整体走势是基本一致的，但是上图中相对qps曲线，cpu有好几次的抖动，甚至峰值达到80%，我们需要排查出这些峰刺点。

由于此时的cpu抖动和qps曲线不一致，可推测是慢sql引起的，观察下图抖动时间段内的慢sql，确定是否有慢sql，以及慢sql的具体信息。

观察上图发现该时间段内一些慢sql在库上使得cpu曲线发生了抖动，此时可采取kill+id的方法定制该sql的执行。

案例2 CPU明显飙升

有时，我们会发现cpu和qps的曲线不够吻合，此时我们有较大的把握推测出原因就是慢sql引起的。如以下情况：

红框内的cpu使用率在上升，但qps却在下降，观察以下慢sql监听：

说明这段时间内的异常是100%是由慢sql引起的，可采取kill+id的方法定制该sql的执行。

4 总结

4.1 慢sql优化思路

慢sql的优化思路较多，本文不打算赘述，仅提供以下几个方面优化思路。

1.扫描数据库记录数较多。

考虑表是否设置了合理的索引，表字段是否设置了合理的数据类型，sql是否有效的利用了索引等。

2.sql中是否有做了大量的聚合、计算？

考虑将sql简化，把逻辑操作上浮到业务中去做。

3.sql返回的记录数过多。
考虑分页实现，通过limit将一次请求转为多次请求。
4.表中是否冗余字段过多？
表若为宽表，包含大量冗余字段，可考虑分表。
5.库中是否有很多张表？
此时可考虑将表拆分到多个库中，分库。
6.若库的读写较多，锁争抢激励，甚至死锁。
可考虑多库做读写分离。
7.机器的本身性能较低，不符合业务需求。
可考虑机器升级了。

4.2 qps过高优化思路。

1.qps过高时，考虑是否可以使用缓存。
2.使用批量操作，将多个操作合并为一次请求，但此种方式需要考虑是否可以一次批量的数据有多大，避免造成慢sql。
3.考虑分库、读写分离，减少对一个机器的访问压力。
4.机器升级，没什么是钱解决不了的。

#java##数据库##程序员#

全部评论

推荐最新楼层

月落参横

天津理工大学 C++

100%，这么凶猛啊

点赞回复分享

发布于 2022-08-18 20:52 陕西

04-01 19:09

已编辑

门头沟学院前端工程师

影刀AI前端一面，惨不忍睹

背景4年前端，有AI行业的工作经历多的不说了，纪念一下吧，感觉啥都没答上来，面试官能和我聊四五十分钟也是难为他了正文为什么会有给ai用的sandbox，它的出现是为了解决什么问题？有没有用过sandbox？llm playground深挖sse和socket的区别，为什么用sse做流式而不是socket假设你现在在用这个playgroun和ai进行对话，发送按钮点击了，此时模型在不断的一个字一个字的蹦出来，在这个流式输出的过程中，我刷新了页面或者切了一下对话再切回来，这个时候作为用户我肯定希望对话是继续的，这种场景你是怎么处理的？后续面试官补充：sse不是socket，在断掉之后，是没有重连这...

查看21道真题和解析

点赞评论收藏

昨天 08:00

蚌埠坦克学院嵌入式软件开发

海康威视嵌入式软件二面面经

1. 在你做过的嵌入式项目中，请详细描述系统整体架构是如何设计的，各个模块之间是如何解耦和通信的？答案：一般我会采用分层架构设计，把系统拆成三个层次：驱动层（Driver/HAL）封装 SPI、I2C、UART、GPIO 等硬件操作对上提供统一接口，屏蔽具体芯片差异服务层（Service）对驱动进行二次封装，例如：传感器服务通信协议解析负责数据处理和逻辑封装应用层（Application）实现具体业务逻辑不直接操作硬件解耦方式：使用**消息队列（Queue）**传递数据使用回调函数处理事件模块之间只通过接口通信，不直接访问内部数据核心原则：“高内聚、低耦合”尽量避免全局变量共享2. 在嵌入式系...

嵌入式面试八股文全集

点赞评论收藏

03-26 17:30

门头沟学院活动运营

AI面真的不建议瞎说

除非你不想要这个offer，因为AI面也是有真人会抽查的。。。 你胡说八道一通，AI当下虽然在迎合你，但回传的AI面试报告里会记录你的缺陷发言，大模型一直在进步，今年AI面给回馈的报告真的很全面详细了，如果大家不想面试的话，可以不参加AI面，也没必要浪费自己的时间瞎说一通

AI面会问哪些问题？

点赞评论收藏

03-15 13:10

已编辑

淮阴师范学院 Java

鼠鼠找到工作了，但很紧张

鼠鼠是二本学历，学的是java，面的是软件工程师，面试的时候没问什么技术，就问了一些项目经验，我就把之前公司的项目经验说了一下，但是复盘面试的时候发现讲的很多东西都不会甚至有的根本没听过（mes，仿真，ai）。虽说面试官说了有学习的机会，进去以后先从mes学起，如果学习能力强会调去ai，但鼠鼠还是很紧张，可以说是不自信吧，也可以说是被打压太久了反而没有信心了😭

查看1道真题和解析

点赞评论收藏

04-02 21:58

滨州科技职业学院 Java

快手日常面经~二面已挂

发面经攒后面的人品，我攒我攒一面：1.组内业务介绍2.自我介绍3.上下文压缩怎么做的4.压缩的时候信息丢失怎么做5.这样上下文工程还有什么，比如引入长期记忆，讲了讲mem06.openclaw的记忆系统怎么设计的7.openclaw的多智能体协作是怎么做的反转链表---二面：自我介绍说一下最深的点，感觉有点为了表现自己说错了，是自己做的最深的点，我说的是最近比较关注的深入研究的点(hhh查询的接口，问我数据量到底有多少?我不知道啊！确实是扣分点Agent范式是怎么做的？混合查询怎么做的？组合总数---感觉还是自己太菜了

查看12道真题和解析

点赞评论收藏

招聘动态

蚂蚁集团

2026春季校园招聘

阿里巴巴集团

2027届实习生校园招聘

正浩创新EcoFlow

2026届春季校园招聘

AI网申助手

网申字段一键填写

招商银行数字金融训练营

火热报名中

新华三

2026届春季校园招聘

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

携程集团

2026年春季校园招聘

全站热榜

创作者周榜

正在热议

# 面试被问到不会的问题，你怎么应对？ #

28574次浏览 740人参与

# 你都用vibe coding做过什么？ #