yes的练级攻略

2021-07-14 13:32 门头沟学院 Java

关注

我是小R，昨晚我好像把B站搞崩了！

我是小 R，每天晚上我都会去逛 B 站。

看可爱的贝贝子吃播。

由于来来回回千百次了，对于去 B 站的路，我非常熟悉。

说到去 B 站的路，我依稀记得第一次去的时候，那拐的山路十八弯都给我绕晕了。

首先我从浏览器出发，经过域名解析(DNS)，拿到了一个 CNAME ，我一看 xxx.cdn.ababa就知道 B 站是上了 CDN 啦，很正常这么大的网站不上 CDN 是不可能的。

拿到这个 CDN 的网址后，我就去访问了这个 CDN 服务商的权威 DNS，CDN 厂商根据我的地理位置等其他负载策略返回了一个最合适我的 CDN 缓存节点的 IP，之后我就一直去请求这个 IP 啦。

当然，我是一个有学问的小 R ，我知道如果我的访问不命中 CDN 缓存的话，CDN 服务器就会去源站(B站)请求得到响应，然后缓存并返回。

所以本质上 CDN 节点就是一个缓存，它减轻了源站(B站)的负载，并且由于 CDN 节点遍布全国，所以挑选距离我们最近、最佳的节点供我们服务，也提高了响应速度。

不扯 CDN 了，咱们继续说说去 B 站的路。

B 站当然不会只有一个数据中心，根据前端负载均衡我被划到了上海的数据中心。

而数据中心内部，又有一个负载均衡器，它的作用主要是均匀的将请求分发给后面的服务、并且识别异常的服务、进行节点的扩容，减少错误，提高可用性。

据我所知，这个负载均衡的算法，B站也颇有研究。

他们发现 CPU 忙时、闲时占用率过大，对每个请求来说，不同请求的成本是不一样的，有些请求耗时，有些请求很轻量，所以即便做了均衡的流量分发，但是从负载的角度来看，实际上还是不均匀的。

并且又有物理机环境上的差异，因为 B 站通常都是分年采购服务器，新买的服务器通常主频 CPU 会更强一些，所以服务器本质上很难做到强同质。

画外音：别问我为什么知道，这是B站总监和我说的，嘻嘻。

所以 B 站使用 the choice-of-2 算法，随机选取的两个节点进行打分，选择更优的节点：

图来自B站高可用用架构实践

就这样通过负载均衡算法的分配，我来到了一个服务里，我发现它们还实现了一个叫quota-server的分布式限流！

这个服务的负责人跟我说，“无论负载均衡策略如何高效，系统某个部分总会过载，所以他们会先考虑优雅降级，返回低质量的结果，提供有损服务。在最差的情况，妥善的限流来保证服务本身稳定。”

我想了想，确实有道理！这个负责人还说，他们这个分布式限流服务是基于过去时间的滑动窗口内的 inflight (就理解为最近的请求量历史值)来做配额，每次服务会向 quota-server 申请一批配额到本地，这样客户端请求的时候可以直接消费服务本地的配额，而不用每次都去 quota-server 申请。并且在算法层面，采用了最大最小公平算法，解决某个大消耗者导致的饥饿。

我听了直呼666，心中默默的给 B 站比了个大拇指。

没想到这个服务的负责人好像一下子打开了话匣子。

“我们客户端还做了截流，因为当服务出现限流的时候，客户端可能会一直请求，使得服务端还得忙着返回限流啦，限流啦。所以为了进一步减轻服务端的负载，我们对客户端截流，使之在限流时请求发不到网络层，具体是参考 Google SRE里一个有意思的公式，max(0, (requests- K*accepts) / (requests + 1))，客户端直接发生请求，当达到限制，直接进行概率截流，怎么样是不是很厉害？”

这次，我直接给了他两个大拇指。

“想必你还不知道我们是如何开启限流的吧？我们是基于 CPU 的负载来判断压力的，我们将 CPU的滑动均值（CPU > 800 ）作为启发阈值，一旦触发就进入到过载保护阶段。算法为：(MaxPass * AvgRT) < InFlight。其中MaxPass、AvgRT都为触发前的滑动时间窗口的统计值。”

“我们还使用了冷却时间，防止限流生效短时间内的CPU下降，导致大量请求被放行，瞬间又打满CPU的情况。”

这次，我直接给了他两个大拇指，外加一个脚拇指，考虑的真周到！

“当然，基于限流或者其他错误，我们还是有重试的，为了防止重试对已经过载的服务造成更大的压力，我们限制重试的次数，并采用周期性的重试时间，逐渐递增。比如100ms重试一次不行，等300ms再重试一次，还是不行再等500ms重试一次这样。”

“对了，还有服务间的超时也很重要。特别是高并发下，如果有高延迟服务，因为下游延时长，导致请求堆积，引发线程阻塞，而请求流量还在不断涌入，最终引发故障，导致雪崩，然后服务全面***，3.25打在公屏上。”

“所以出现这种情况，应该要采用 Fail-fast，不要拖着等待，直接快速失败，这样请求就不会堆积，保证了整体服务的稳定。”

“所以可以定义一个全局的时间，然后每个服务调用前判断一下剩余的时候够不够消费，如果不够直接返回，切断下游的继续调用，节省资源。”

说了之后，负责人看了我一眼。我心领神会，直接给了他两个大拇指，外加两个脚拇指！

负责人满意的点了点头，我再给你汇总一下咯。

图来自B站高可用用架构实践

第一次去B站，负责人就给我盘了这么多。你看，B站的路确实不好走吧，需要经历这么多管制，B站不愧是个大公司呢！

好了，不跟你们说了，我要去看贝贝子吃播啦~

我去也！！

？？？

我去也！！！

怎么回事，我家网络坏了？等我重启下电脑！

好了，路由器重新插拔了，电脑也重启了，我去也！！！！！

wtf？？？那个负责人，你说说到底咋回事？不是天衣无缝了嘛！！

还我一天大会员！！！

这篇文章于7.14号午休期间匆忙BB而出，如有错误还请包涵和指正。

本人不是B站员工，也不了解 B 站的架构，以上故事，参考 B 站技术总监毛剑老师在「云加社区沙龙online」的分享整理。

网址如下：https://cloud.tencent.com/developer/article/1618923

故事瞎编，如有雷同，纯属你抄我。其中的调侃也是为了剧情需要，我还是很热爱 B 站的，每天都看。

故事说完了，我再来瞎分析一波。

一开始是 502 错误，我估计是 CDN 厂商出了问题，导致流量都打到 B 站去，这时候网关拦了，开始降级限流等。

但是晚上那个时候应该是流量高峰期，大家都下班回家看视频，导致一下子流量洪峰过高，并且由于 B 站挂了，大家都想去瞅一瞅，这下更雪上加霜，B站一下子 hold 不足，然后瞬间网关也挂了，产生雪崩，后面都挂了，于是导致了后面的404，服务直接找不到了。

由于级联挂的太多，服务又很多，盘子太大，所以启动没这么快，所以导致很久都没恢复，期间我估计事情扩散，又有很多人去访问...所以就比较难。

至于火灾的话，上海消防局辟谣了，没有发生火灾。

说断电的，机房不可能没备用电源（发电机）。

据网友反馈，国外的也看不了，我觉得很奇怪。

异地多活，我觉得 B 站应该有的，但是好像这次是全国各地都访问不了？我也不知道具体的....

官方的是这样回复的，所以啥都看不出来，坐等着 B站的技术人员来一波分析？

我估计这个事情一出，又会有大厂面试题：你如何看待7.13日晚 B 站挂了的情况？

所以下篇我再借着 B 站挂了的情况，从面试的角度来讲讲，关注我等着哈。

关于面试题，这里推荐有个仓库，汇总了好多面试题

还有很多我的文章汇总，有兴趣可以看看。

我是yes，我们下篇见。

全部评论

推荐最新楼层

社区规范更新号

感谢参与【创作者计划3期·技术干货场】！欢迎更多牛油来写干货，瓜分总计20000元奖励！！技术干货场活动链接：https://www.nowcoder.com/link/czz3jsgh3（参与奖马克杯将于每周五结算，敬请期待~）

点赞回复分享

发布于 2021-07-15 15:34

字节跳动_飞书_后台开发

牛

点赞回复分享

发布于 2021-07-16 23:09

字节干饭选手

字节跳动_TikTok_iOS客户端

现在发学习贴都这么卷了吗

点赞回复分享

发布于 2021-07-22 20:20

今天 00:18

门头沟学院 C++

对于Cpp选手

对于Cpp选手，基本都是背完八股，复盘完项目实习然后就开始秋招了秋招能找到啥工作然后就在其中选一个自己比较想去的感觉Cpp实际上并不太能说出一个具体方向，而是看自己秋招能找到什么方向的工作，而每个方向上其实差别还是非常大的，通常会涉及到不同的技术，最典型的代表就是学的后端，面试面的客户端，或者嵌入式

秋招相关文章牛客创作赏金赛如果再来一次，你还会选择这个工作吗？

点赞评论收藏

分享

11-22 00:42

广东工业大学 C++

爽啦，校招今天收到了三个offer！

不过，心里也有些小失落，因为有些面试结果并不理想。比如金山办公的C++开发工程师岗位，结果显示我与职位不匹配，虽然他们说会把我的简历放入人才库，但还是有点沮丧。还有其他公司也给了我类似的反馈，虽然感谢他们的关注，但我还是希望能找到更合适的机会。希望接下来的面试能有更好的结果！

offer小狗：转人工

牛客创作赏金赛

点赞评论收藏

分享

10-14 23:01

已编辑

中国地质大学（武汉） Java

完全找不到实习啊

怎么办啊，求大佬指点

CUG芝士圈：虽然是网上的项目，但最好还是包装一下，然后现在大部分公司都在忙校招，十月底、十一月初会好找一些。最后，boss才沟通100家，别焦虑，我去年暑假找第一段实习的时候沟通了500➕才有面试

，校友加油

点赞评论收藏

分享

11-27 00:27

华中科技大学 C++

华为开奖？

疑似给hr聊成降温了😓😓感觉要准备春招了 #华为开奖那些事#  #华子oc时间线#   #华为求职进展汇总#

offerboyyyy：感觉也不是降温，你这个hr还挺老实和你说真实情况的，最怕碰到捧杀的

华为开奖那些事华子oc时间线

点赞评论收藏

分享

11-25 00:34

华东理工大学硬件开发

拿到小米的offer了！秋招结束了！

小米的录用通知书让我很激动，经过严格的筛选和考核，我的教育背景、实习经历和面试表现都得到了认可，终于从众多候选人中脱颖而出。希望大家也能早日拿到属于自己的offer！

牛客创作赏金赛

点赞评论收藏

分享

评论

2

9

招聘动态

字节跳动

2025校园招聘

阿里云管培生

2025届校园招聘

快手Star

2025届招聘

快手

销售类投递专区

富士通（西安）

2025校园招聘

全站热榜

正在热议

# 25届秋招总结 #

383752次浏览 3823人参与

# ai智能作图 #

13067次浏览 201人参与

# 阿里云管培生offer #

53861次浏览 1546人参与

# 地方国企笔面经互助 #

6206次浏览 14人参与

# 我的实习求职记录 #

6110493次浏览 83867人参与

# 发工资后，你做的第一件事是什么 #

5349次浏览 22人参与

# 北方华创开奖 #

65107次浏览 526人参与

# 硬件兄弟们甩出你的华为奖状 #

76565次浏览 621人参与

# 如果再来一次，你还会选择这个工作吗？ #

104896次浏览 1055人参与

# 哪些公司校招卡第一学历 #

31715次浏览 91人参与

# 如果有时光机，你最想去到哪个年纪？ #

27228次浏览 566人参与

# 如果你有一天可以担任公司的CEO，你会做哪三件事？ #

9245次浏览 189人参与

# 你觉得第一学历对求职有影响吗？ #

16079次浏览 131人参与

# 华为工作体验 #

109628次浏览 853人参与

# 中兴求职进展汇总 #

467009次浏览 2435人参与

# 还记得你第一次面试吗？ #

30411次浏览 428人参与

# 牛客租房专区 #

4008次浏览 114人参与

216850次浏览 2544人参与

# 腾讯求职进展汇总 #

206217次浏览 1690人参与

# 产运销实习日记 #

27891次浏览 323人参与

# 阿里求职进展汇总 #

71958次浏览 786人参与

# 上班到公司第一件事做什么？ #

14642次浏览 165人参与

牛客网
牛客企业服务