2024-08-31 20:18 华为_2012实验室_Java工程师

发布于上海

关注

Netty堆外内存泄露排查

关注我，紧跟本系列专栏文章，咱们下篇再续！

作者简介：魔都架构师，多家大厂后端一线研发经验，在分布式系统设计、数据平台架构和AI应用开发等领域都有丰富实践经验。

各大技术社区头部专家博主。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。

负责：

中央/分销预订系统性能优化

活动&券等营销中台建设

交易平台及数据中台等架构和开发设计

车联网核心平台-物联网连接平台、大数据平台架构设计及优化

LLM Agent应用开发

区块链应用开发

大数据开发挖掘经验

推荐系统项目

目前主攻市级软件项目设计、构建服务全社会的应用系统。

参考：

编程严选网

0 导读

Netty 是一个异步事件驱动的网络通信层框架，用于快速开发高可用高性能的服务端网络框架与客户端程序，简化 TCP 和 UDP 套接字服务器等网络编程。

Netty 底层基于 JDK 的 NIO，为啥不直接基于 JDK 的 NIO 或其他NIO框架：

JDK NIO 需了解太多概念，编程复杂
Netty 底层 IO 模型随意切换，只需微改
Netty自带拆包解包，异常检测等机制，让我们从 NIO 细节解脱，专注业务逻辑
Netty解决JDK 很多包括空轮询在内Bug
Netty底层对线程，Selector 做了很多小优化，精心设计 Reactor 线程可非常高效的并发处理
自带各种协议栈，处理任何一种通用协议都无需亲手
Netty社区活跃，有问题随时邮件列表或issue
Netty经各大RPC框架（Dubbo），消息中间件（RocketMQ），大数据通信（Hadoop）框架验证，健壮性毋庸置疑

1 背景

做基于 Websocket 的长连中间件，服务端使用实现了 Socket.IO 协议（基于WebSocket协议，提供长轮询降级能力）的 netty-socketio 框架，该框架为 Netty 实现，对比同样实现了 Socket.IO 协议的其他框架，Netty 的口碑都要更好，因此选这框架作为底层核心。

任何开源框架避免不了Bug，使用这开源框架时，就遇到一个堆外内存泄露Bug。

2 告警

某早突然收到告警，Nginx 服务端出现大量5xx：

使用 Nginx 作为服务端 WebSocket 的七层负载，5xx通常表明服务端不可用。由于目前 Nginx 告警没有细分具体哪台机器不可用，接下来，就到 CAT 检查整个集群的各项指标，发现两个异常：

某台机器在同一时间点爆发GC，且在同一时间，JVM 线程阻塞：

3 排查过程

阶段1：怀疑log4j2

因为线程被大量阻塞，先想到定位哪些线程被阻塞，最后查出来是 Log4j2 狂打日志导致 Netty NIO 线程阻塞（由于没及时保留现场，截图缺失）。

NIO 线程阻塞后，因服务器无法处理客户端请求，所以对Nginx来说就是5xx。

接下来，查看 Log4j2 配置文件：

打印到控制台的这个 appender 忘记注释，初步猜测：因为项目打印日志过多，而 Log4j2 打印到控制台是同步阻塞打印，所以导致这问题。

接下来，把线上所有机器这行注释，以为“大功告成”，但没想到仅几天，5xx告警又来。看来，问题没想象那么简单。

阶段2：可疑日志浮现

查日志，特别是故障发生点前后的日志，又发现可疑地方：

极短时间内，狂打 failed to allocate 64(bytes) of direct memory(...)日志（瞬间十几个日志文件，每个日志文件几百M），日志里抛一个 Netty 自己封装的OutOfDirectMemoryError：堆外内存不够用，Netty 一直在“喊冤”。

堆外内存泄露，这问题排查就像 C 语言内存泄露一样难，先想到，OOM 爆发前，有无异常。然后查遍 CAT 上与机器相关所有指标，查遍 OOM 日志之前的所有日志，均未发现任何异常！……

阶段3：定位OOM源

一筹莫展之际，突然一闪而过，OOM 下方几行日志变得耀眼（为啥之前就没想认真查看日志？估计是被堆外内存泄露吓怕了），这几行字是 ....PlatformDepedeng.incrementMemory()...。

原来，堆外内存是否够用，是 Netty 自己统计，是否可找到统计代码，看 Netty 堆外内存统计逻辑？翻代码，找到这段 PlatformDepedent 类里

已使用堆外内存计数的操作，计数器为 DIRECT_MEMORY_COUNTER，若发现已使用内存大于堆外内存的上限（用户自行指定），就抛出一个自定义 OOM Error，异常里面的文本内容正是我们在日志里面看到的。

验证这个方法是否在堆外内存分配时调用。

Netty 每次分配堆外内存之前，都会计数。思路开始清晰。

阶段4：反射进行堆外内存监控

CAT上关于堆外内存的监控没有任何异常（应该是没有统计准确，一直维持在 1M），又确认堆外内存已快超过上限，并已知 Netty 底层用的哪个字段统计。

那接下来就是反射拿到这字段，然后自己统计 Netty 使用堆外内存的情况。

堆外内存统计字段是 DIRECT_MEMORY_COUNTER，反射拿到这字段，定期 Check 值，就可监控 Netty 堆外内存增长：

拿到字段，每隔一秒打印。

前面分析，爆发大量 OOM 现象前，没有任何可疑现象。那只有两种情况：

突然某瞬间分配大量堆外内存导致OOM
堆外内存缓慢增长，到达某点后，最后一根稻草将机器压垮

这段代码加上后，打包上线。

阶段5：缓慢增长 or 瞬间飙升？

代码上线后，初始内存 16384k（16M），因为线上使用池化堆外内存，默认一个 chunk 16M：

没一会，内存开始缓慢飙升，且没有释放迹象，二十几min后内存使用：

猜测可能是第二种情况：内存缓慢增长造成OOM，由于内存实在增长太慢，于是调整机器负载权重为其他机器两倍，但仍以数K级别持续增长。过个周末再看，周一tail -f查看日志：

不出所料，内存一直缓慢增长，一周末时间，堆外内存已飙到快1G。虽然堆外内存以几个K的速度在缓慢增长，但只要一直持续下去，总有把内存打爆的时候（线上堆外内存上限设置2G）。

内存为啥缓慢增长，伴随啥而增长？因为应用是面向用户端的WebSocket，会不会每次有用户进来，交互后离开，内存都会增长些，然后不释放？

阶段6：线下模拟

本地起好服务，把监控堆外内存的单位改为以B为单位（因为本地流量较小，打算一次一个客户端连接），另外，本地也使用非池化内存（内存数字较小，容易看出问题），在服务端启动之后，控制台打印信息：

在没有客户端接入的时候，堆外内存一直是0，意料之中。打开浏览器，输入网址，开始模拟流程：

新建一个客户端链接
断开链接
再新建一个客户端链接
再断开链接

如上图，一次 Connect 和 Disconnect 为一次连接的建立与关闭，绿框日志分别是两次连接的生命周期。

内存每次都是在连接被关闭时暴涨 256B，然后不释放。问题进一步缩小，肯定是连接被关闭时，触发框架Bug，而且这Bug在触发之前分配了 256B 内存，随Bug被触发，内存也没释放。

开始“撸源码”！

阶段7：线下排查

将本地服务重启，开始线下排查。目光定位 netty-socketio 框架的 Disconnect 事件（客户端WebSocket连接关闭时会调用到这里），基本上可以确定，在 Disconnect 事件前后申请的内存没有释放。

debug 时，要选择只挂起当前线程，这样单步跟踪时，控制台仍可看到堆外内存统计线程在打印日志。

客户端连接后然后关闭，断点进入 onDisconnect 回调，特意在此多停留一会，发现控制台内存并没有飙升（7B这个内存暂时没分析，只需知道，客户端连接断开后，我们断点hold住，内存还未开始涨）。接下来，神奇一幕出现，将断点放开，让程序跑完：

Debug 松掉后，内存立马飙升！Debug 时，挂起的是当前线程，那么肯定是当前线程某个地方申请了堆外内存，然后没有释放，继续“快马加鞭“，深入源码。

每次单步调试，都会观察控制台的内存飙升情况。很快，来到这：

这行没执行前，控制台内存依然263B。执行完该行，立刻从263B涨到519B（涨256B）：

Bug 范围进一步缩小。将本次程序跑完，客户端再来一次连接，断点打在 client.send() ，关闭客户端连接，之后直接进入这方法，随后过程长，因为与 Netty 的时间传播机制有关。

最后，跟踪到handleWebsocket：

上图断点上一行，调用 encoder 分配一段内存，调完后，控制台立马彪256B。怀疑肯定是这里申请的内存没释放，它这里接下来调用 encoder.encodePacket() 方法，猜想把数据包内容以二进制写到这段256B的内存。

追踪到这段 encode 代码，单步执行后，定位到：

把 packet 里面一个字段值转换为一个 char。用 idea 预执行时，却抛NPE！即框架申请到一段内存之后，在 encoder GG，还给自己挖个NPE深坑，导致内存无法释放（最外层有堆外内存释放逻辑，现在无法执行到了）。而且越攒越多，直到被“最后一根稻草”压垮，堆外内存爆了。

阶段8：Bug解决

只需解决这NPE。让这个 subType 字段不为空。先通过 idea 的线程调用栈，定位到这 packet 在哪定义：

debugger 面板盯 packet 对象，然后上线移动光标，便光速定位到。原来，定义 packet 对象这个地方在我们前面的代码其实已经出现过，查看 subType 字段，果然 null。接下来，解决 Bug 就很容易了。

给这字段赋值即可，由于这里是连接关闭事件，所以给他指定名为 DISCONNECT 的字段（改天深入研究 Socket.IO 协议），反正这 Bug 是在连接关闭时触发，就粗暴了！

解决 Bug 过程

将框架源码下载本地，然后加上这行，最后重新 Build，pom 里改下名字，推送公司仓库。项目就可直接使用。

改完 Bug 后，去 GitHub找到引发这段 Bug Commit：

为啥这位 dzn commiter 会写出这么一段如此明显的 Bug，时间就在今年3月30号，项目启动前夕！

阶段9：线下验证

进行本地验证，在服务起来之后，我们疯狂地建立连接，疯狂地断开连接，并观察堆外内存的情况：

Bingo！不管我们如何断开连接，堆外内存不涨了。至此，Bug Fix，最后把代码推到线上验证。

阶段10：线上验证

这次线上验证，避免了较土的打日志方法，把堆外内存这指标“喷射”到 CAT，再观察一段时间的堆外内存情况：

过完一段时间，堆外内存已稳定不涨。

总结

遇到堆外内存泄露别怕，耐心分析，总能找到思路，多看日志，多分析。

若用 Netty 堆外内存，可自行监控堆外内存的使用情况，无需借助第三方工具，“反射”拿到堆外内存情况。

逐渐缩小范围，直到 Bug 被找到。当我们确认某个线程的执行带来 Bug 时，可单步执行，可二分执行，定位到某行代码之后，跟到这段代码，然后继续单步执行或者二分的方式来定位最终出 Bug 的代码。这个方法屡试不爽，最后总能找到想要的 Bug。

熟练掌握 idea 调试。最常见调试方式是预执行表达式和通过线程调用栈，死盯某个对象，就能够掌握这个对象的定义、赋值之类。

参考：

全部评论

推荐最新楼层

01-12 11:32

南京邮电大学 Java

华为OD投递避坑指南

1、部门的选择投递1）. 可投递部门清单•ICT ：数据通信、计算、无线、数据存储、云核心、光、公开等•云计算：全球生态、EI、云存储、安全服务产品等•2012 ：中硬、中软、中媒、可信、星光等•消费者 BG：硬功、软工、云服务等•其他核心部门：BPIT（业务支撑）、上海海思（芯片相关）、Carbu（智能汽车）、GTS（全球技术服务）、数字能源（新能源赛道）等PS：最后不想一个个写了，都写一起吧，想了解更详细的，可以留言或者问自己的HR哈，最好问自己的HR，只有他了解你的简历情况的,更有正对性哦。2）. 部门选择建议•按自身需求排序：若想快速入职，选 “流程快” 的部门；若看重薪资，可侧重 “...

点赞评论收藏

01-12 14:01

文远知行_数据中心系统工程师(准入职员工)

得物内推，得物内推码

得物测开一面面经，摘自优秀牛油面试时间：24/10/19面试时长：30 min1. 自我介绍； 2. 为什么找测试岗位； 3. 讲一下测试的一般流程； 4. 设计测试用例的常用方法； 5. 如果需要测试一个接口，去测试一个并发场景，应该如何去做； 6. 如何去设置多线程； 7. 10万级别的接口访问量，如何去模拟； 对零经验很友好！1.💰待遇 薪资是一天150，包晚饭，有双休，基本不加班，有茶水间小零食无限吃🍪，健身房、员工折扣店，晚上10点后打车免费，过节活动礼包🎁2.👗工作 服装运营岗，主要技能需要会用Excel、vlookup 工作内容有点像对接商家的客服👩🏻‍💻并且帮助你...

点赞评论收藏

不愿透露姓名的神秘牛友

2025-12-18 11:21

投实习被自己学校拒了

找实习找得魔怔了，刷到学校的保安处招人，要求写的是本科生，抱着死马当活马医的心态投了简历。结果直接被拒，理由就是学历不够。大专生的小丑时刻不过如此了😭

优秀的大熊猫在okr...：叫你朋友入职保安，你再去送外卖，一个从商，一个从政，你们两联手无敌了，睁开你的眼睛看看，现在是谁说了算（校长在背后瑟瑟发抖）

选实习，你更看重哪方面？

点赞评论收藏

2025-11-29 10:37

字节跳动_国际电商_后端开发工程师(准入职员工)

双非上岸字节，给27届+的建议

1. 多做一劳永逸的事情。很多事情一次学会基本可以大学四年都不再为这类事情发愁。小的比如学会markdown，记笔记就变得方便快捷；大的比如自己经常要发布上线服务，就花几天搭建一个集群。2. 时刻具备3-7天掌握一项技能的心理准备。无论是学科竞赛、期末考试，还是准备实习、秋招，很多时候当你需要快速运用某项技能做事的时候，不会有那么多时间给你准备，这时候就需要速成。3. 加入/组建一个技术团体，社团/面试群/社群/技术博主的圈子，并且养成水群习惯。只有你参与并融入你正在追求的事业的氛围里，你才能保持动力去做一件事。推荐一个博主【程序员牛肉】的圈子：https://pd.qq.com/s/daelsgft54. 尽早明确自己距离目标还差什么。很多人学习的非常努力，但是方向不明确。最简单的例子，很多我帮忙找实习秋招的朋友，简历都过不了，却花大把时间在背八股上。面试的过程是阶段性的，要考虑的先是有面试机会、再是怎么面试。5. 思维不要被约束。后端语言java、c++可以，golang也可以；项目苍穹外卖、黑马点评可以，github上的高star项目也可以；数据库用mysql、redis可以，用postgresql也可以；项目里的ai模块用rag、mcp可以，最简单的function call也可以。帮很多人看简历问题的时候，很多东西都是硬写上去的，项目是自己的，不是非要和网上大流一致才是好项目。

想进开水团喝开水：杭电也是双非是吧

点赞评论收藏

01-14 14:09

网易游戏_游戏研发工程师(准入职员工)

网易互娱内推，网易互娱内推码

网易**不管问你啥，记住一个话术原则小小的提醒下各位留子：**时不要直来直去有啥说啥；千万得多思考别说太满给自己留个思考或回旋的余地・1、被问 “有没有接触过网易的产品”（哪怕了解不多）别直接说 “没有”（容易显得缺乏兴趣）试试：“之前用过网易云音乐和网易新闻，对产品的界面设计和功能逻辑有过留意。虽然没有深入研究，但能感受到网易产品注重用户体验的特点，入职后会系统学习相关产品知识”・2、被问 “能接受高强度的项目加班吗”别勉强说 “没问题”（后续可能难以承受）试试：“我理解互联网行业项目推进时需要集中精力，在关键节点愿意配合团队加班。但也会注重提升工作效率，合理规划时间，尽量在正常工作时间完成...

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 被说“做题家”，你的反应是_____？ #

1251次浏览 48人参与

# 如果让你发明个APP，你会想做什么 #