2020-11-22 06:22 已编辑顺丰科技有限公司_Java开发

关注

【面试干货】故障问题排查思路

第一次写，如果有写的不好的地方，欢迎指出

线上故障排除分四个层次的问题

Java服务层

这是一个很基础的层面，很多都是从Java服务层面去解决问题。

一、debug

到实习中，我用到最多的功能就debug，idea的debug功能也挺好用的，如果那还不会，或者你正要去某家公司做Java公司实习，查“IDEA debug”学习一下。

这里简单介绍一下

1、点debug启动、打断点、调用sever

左下角是项目调用的堆栈信息

下面的Variables是变量信息

2、点击step over/ step into /step out

step over ，我的理解就是在当前方法上，进行下一步，执行当前行代码，如果当前行是一个方法调用，会直接得到方法的返回值，而不会进入到这个方法。

step into（蓝色）和force step into（红色）

进入当前代码行的底层，查看他的具体实现，不同是如果当前行是一个方法调用，会进入这个方法的实现。

蓝色与红色的区别：

Force Step Into（红色）会进入到JDK实现的方法中。

step out

跳出当前方法，举例子，如果你执行了step into觉得这方法没啥问题，就点击step out，返回上一层

这个是跳过断点

有两句话我很赞成

1、debug是程序员的基本功之一

2、单单会写代码的人其实很普通，更深的层次是能定位问题与解决问题。

二、线上日志

有些项目，他不是我们debug就能解决的。

比如公司的线上项目，他都有很长的一个链路，有些项目你连代码权限都没有，你怎么在你本地跑起来，况且，要是像有些项目3、4个G，你确定你电脑吃得消吗？

因此一般情况我们只能在项目里面导入log4j等日志（java代码是：logger.error（“catch a exception”，e） /log.warn/log.info）

然后在dockers机器里面看线上日志。

这就考察我们面试过程中被问到的“你熟悉哪写linux命令啊？”

cat、more、less、grep、tail等等都是看日志可以用的

此外dockers也提供了很多其他的命令，如：

$ docker logs [OPTIONS] CONTAINER
Options:
--details        显示更多的信息
-f, --follow         跟踪实时日志
--s***ring   显示自某个timestamp之后的日志，或相对时间，如42m（即42分钟）
--tail string    从日志末尾显示多少行日志， 默认是all
-t, --timestamps     显示时间戳
--until string   显示自某个timestamp之前的日志，或相对时间，如42m（即42分钟）

强调：

调试的时候多打日志！多打日志！

如果没有日志，很多时候出个bug，你都不知道从哪弄起。

此外，推荐一款日志工具idea 的grep-console 插件日志变色

idea setting - > plugins 查grep-console 就有，

在自己调试的时候，看的日志可以根据日志等级，区分颜色

这个工具给日志加颜色，要不然你看到的可能就都是黑底白字的日志，有了这个可以快速定位问题

三、JVM指令

不得不说Java真的博大精深，单一个虚拟机就可以衍生出很庞大的知识体系。

你可以通过jstack定位出错的线程、通过jmap、jstat去排查内存问题，等等。

说起来这又是一个面试题：你都用哪jvm命令？用这些命令，怎么查的问题的？

jps

（JVM Process Status tool，虚拟机进程状况工具）它的功能和 Linux 中的 ps 命令比较类似。

我自己再测试环境经常就jps查看进程然后就kill -9 <进程号>干掉进程号，你们千万别学我。

建议用 kill -2或者kill -15

Kill-2:功能类似于Ctrl+C是程序在结束之前,能够保存相关数据,然后再退出。

Kill -15 默认的kill方式，相对于给一个信号。

系统会发送一个SIGTERM的信号给对应的程序。当程序接收到该signal后，将会发生以下的事情。

大部分程序接收到SIGTERM信号后，会先释放自己的资源，然后在停止。但是也有程序可以在接受到信号量后，做一些其他的事情，并且这些事情是可以。如果程序正在等待IO，可能就不会立马做出相应。也就是说，SIGTERM多半是会被阻塞的、忽略。

jinfo

查看参数的，看到info就记得和参数有关系，我是这么记的。

jinfo -flags 45129

这个命令可以查看进程号45129的参数配置。

jmap

用于查询堆的快照信息。

jmap -heap 45129：这个命令直接就显示堆的信息信息。在当前出口

但是一般会和下面的jhat结合执行

jhat

启动一个 web 站点来分析 jmap 生成的快照文件。

jmap -dump :file = <路径> 进程号

jhap ***.dump

jstat

监控信息工具，jstat 常用的查询参数有：

-class，查询类加载器信息；
-compiler，JIT 相关信息；
-gc，GC 堆状态；
-gcnew，新生代统计信息；
-gcutil，GC 堆统计汇总信息。

jstack

容易和上面记混，应该是stack就是和栈有关。

所以该命令是：查看当前虚拟机的线程快照，用它可以排查线程的执行状况，例如排查死锁、死循环等问题。

打印一下当前线程的快照信息。

你是如何做的？

1、除了分析日志，找出问题

2、在容器里面使用linux内存使用情况查看：top、free等

3、使用jvm自带的命令，jmap +jhat 做dump文件分析

4、定位问题可能是某个连接长时间没有释放、某个代码不合理进行重构、内存大小设置不合理

（mysql慢查询排查也有这样的类似流程，一步步排查出来的）

四、业务问题排查利器-Arthas

arthas是一个Java开源诊断神器。

自测了一下~这个安装也不会很麻烦。就跑一个java程序，用jps查看一下进程号，就能跑起来了

功能是真的多，命令也很多

可以提供看性能看板，包括线程、cpu、内存等信息（下图演示为 dashboard——当前系统的实时数据面板）
输出jvm的各种信息，如gc算法、jdk版本、ClassPath等（下图演示为 jvm——查看当前 JVM 的信息）

真的挺香的，显示的数据也很详细。有些情况下他比看日志那些管用。

再介绍一个命令arthas trace——方法内部调用路径，并输出方法路径上的每个节点上耗时

显示的日志大概这样：

中间件层面

你总不能数据库出点问题，马上就去问DBA，怎么回事吧？

出问题还是要靠自己排问题先

常用的linux命令

1、查看内存（指的是物理运行内存，不是硬盘内存）

free 可选参数 -m（以mb为单位） -g（以G为单位）

2、查看网络是否连通

ping www.baidu.com

3、查看端口是否开启

ping www.baidu.com -p 80

（面试题：ping命令底层——ICMP协议）

还有好多好多个 top、netstat（netstat -nat 查看TCP各个状态的数量）、df -h -sh 等

另外推荐一个特别强大的工具：Perf

Perf是Linux自带的性能分析工具

eg：使用perf record记录一下在cpu运行的进程和相关的堆栈是什么

甚至可以，加一些辅助工具，生产火焰图，大概张这样

横轴：cpu使用时间

纵轴：方法运行的堆栈

有了他，可以迅速定位哪个方法占用的时间长，分析问题~

网络、操作系统层面的问题

这里介绍一个:tcpdump

用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。

tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。

它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。

再这个层面我可能没有那么多场景，

不过我相信，校招每次面试官问操作系统、计算机网络都不是白问的，

在你到工作中真的遇到的时候，你能够根据你学到知识解决问题。能解决问题！！

这里举例我遇到过的两个问题吧：

1、jdk1.7、1.8对TLS的支持是不一样的，导致https请求调不通

我们知道https = http+ssl/tls

某次我换了jdk版本，发现一个https请求一直调用不通（使用的是CloseableHttpAsyncClient工具类），一直显示“connect close”

后面再dockers里面查看，发现是DK1.7与JDK1.8的SSL协议兼容问题

虽然JDK1.7也支持TLSv1.2 但默认是不启用的，使用后面调整了代码

2、TCP连接异常断开

我上次出现问题的原因是服务器压根扛不高峰的压力，后面用消息队列做了削峰，当然也请教过很多同事大佬

总体分析过来，就是需要基础扎实，还要就是带着脑子耐心分析吧

可以参考下面两个文章：

https://www.cnblogs.com/ultranms/p/9625550.html

https://www.cnblogs.com/yuxingfirst/archive/2013/07/03/3170333.html

全部评论

推荐最新楼层

牛客0063号

社区规范更新号

感谢参与牛客创作者计划！欢迎更多牛友来写干货，瓜分5000元奖励~~技术场活动链接：https://www.nowcoder.com/link/czztlqjs

点赞回复分享

发布于 2020-11-23 15:54

Lucas_xu

华为_软件开发工程师

arthas真的可，实习的时候部门周会还专门技术分享了

点赞回复分享

发布于 2020-11-22 17:35

#java小白

门头沟学院 Java

太强了，学到了

点赞回复分享

发布于 2020-11-22 17:24

寄~

滴滴_国际化_后台研发

tql

点赞回复分享

发布于 2020-11-22 08:53

映客内推官

映客直播_后台开发工程师

秒赞你怕了吗

点赞回复分享

发布于 2020-11-22 00:50

映客内推官

映客直播_后台开发工程师

爱了爱了

点赞回复分享

发布于 2020-11-22 00:49

07-08 14:19

武汉理工大学热设计工程师

好小众的工作时间

练习生懒羊羊：开飞机把这个公司创飞吧

点赞评论收藏

昨天 15:12

门头沟学院 Java

实习很闲是正常现象吗？

别人在上班，我就在工位上看看视频啥的，这正常吗？

程序员小白条：实习就是摸鱼，只是公司指标，把你进来了，可能那时候客户很多，但等你进来的时候，已经是淡季了，根本没多少需求，或者说根本不适合实习生去完成，因此你就每天干坐着就行，可能1,2个月都没需求

实习生的蛐蛐区

点赞评论收藏

06-09 23:07

已编辑

湖北工程学院新技术学院运营

求捞一手

有没有哥哥姐姐捞一手啊，我一周内想去北京发展｡°(°¯᷄◠¯᷅°)°｡

我在牛客求捞

点赞评论收藏

06-10 11:37

已编辑

陕西理工大学 Java

东软

有点抽象，面了7分钟，然后就过了。真点击即送。问了下体重啥的，然后让我用日语介绍了下，讲了下项目，就没了。？？？

阿14：在东软摸鱼算不算抗日

东软集团开奖3人在聊

点赞评论收藏

07-08 10:21

西安交通大学硬件开发

实习到毕业不转正

这算盘打的

程序员小白条：都这样的，都是潜规则，你自己说可以实习一年就行了，实习可以随便跑路的

点赞评论收藏

113

全站热榜

创作者周榜

正在热议