10面字节--从实习到秋招的血泪面经
背景:211本硕,nlp方向,有大厂实习(但是做的都是toy),论文是混毕业用的中文期刊和c类水文。
因为整个面试太多太乱,面试问的好多具体问题可能记得模糊了,但是算法题基本上都还记得。
10面字节终于可以许一波意向书。
分享整个暑假面试过程的血泪史。
总结:
字节的面试模式:项目+八股文+算法,算法很关键,算法题写出来是基本条件。
躺平考公!
宇宙的尽头,是公务员!
1. 字节教育(师兄内推,春招实习3月份面的) 面试结果:1面挂
问实习项目,bert模型,随便说了几句然后就上代码题了
1)最大的k个数
2)搜索旋转排序数组带重复值
2道基础题,都是原题,但是当时刷题不熟练,写的很慢还有bug,第一题调了好一会,第二题处理重复值出了点问题,
很明显的挂了。
----
分割线
----
秋招提前批
2. 字节data-广告算法 base南京,7.22
很早之前好像加过leader微信,然后提前批问我要不要投,想都没想就投了,结果就是炮灰,二面挂了;后来了解到hc只有4个左右,果然炮灰,我不配。
一面:
项目:问推荐算法的实习,稀疏特征,稠密特征处理,负采样该怎么做,正负样本不均衡等,
nn模型为什么比xgb效果好,
八股:
transformer:LN和BN,xgboost相比去gbdt的改进,LR回归:原理,损失,如果样本中出现重复的样本会出现什么问题(模型鲁棒性),
交叉熵的优缺点,
算法题:
拆分ip地址,leetcode原题
二面:
项目:
问做过最深的项目,对项目蜻蜓点水的问问题,感觉就对我不感兴趣了
八股:
transformer
算法:
二叉树中k个连续节点的和最大,输出最大的路径 ,(不会做,感觉是数位dp,hard劝退,gg)
-------------------------
3. 被字节技术中台捞,base北京 7.28
一面: 问能不能提前去实习
项目:
问推荐的实习项目,感觉还是那些东西,问AUC的含义,2层
问nlp的项目,怎么做数据增强的,有没有尝试过新的方案,bad case分析啊等等,为什么要用分类模型在做(尝试过搜索召回),知识蒸馏怎么做的。
八股:
xgboost原理,xgboost特征选择,如何评估特征重要性;LR;transformer;bert。
算法:
二叉树的之字形遍历,递归和非递归
反问:
做啥业务,做搜索的,负责公司内部和一些tob的业务的搜索推荐
二面:
没让自我介绍,问我推荐这个项目auc为啥能到94,很高,为什么,我讲不清,然后问我特征穿越。
问dnn模型为什么比xgboost的效果更好,是实验得出结论还是什么?
然后好像又是蜻蜓点水的问了些问题
八股:
xgboost,LN,BN,transformer,bert及其变种
算法:
输入2个二维数组,以数组的第一列为key,实现2个数组的等值左连接,输出一个三维数组。不是sql
我的2个思路是:1个是字典保存下来,另一个是排序后双指针
感觉面的挺好的,但是1天后问hr说挂了,面评说方向不匹配。 麻了
---------------------------------
4. 被字节-抖音评论NLP捞 8.16
感觉自己不配这个部门,和我说了半天然后还是妥协了继续面呗,然后又是二面g了,
一面:
项目:
介绍了推荐实习的一个项目背景,大概聊了聊,
然后介绍了自己的水文,创新点在哪里,
八股文:
bert的变种,问烂了的transformer,八股文都是那些
算法:
1)给定一个只包含0和1的字符串,一个整数k,求在连续的k个子串中,1的个数的最大值,
双指针,秒了
2)单调栈的经典题
秒了
3)看我做的快,又给了一道题,让说思路,给定一个包含字符串的list,每个字符串都有一个对应的翻译结果,问我如何在o(logn)的时间复杂度下确定这一一对应的关系,
看到logn我一直在想如何二分,最后随便扯了几句时间到了,面完就想起来感觉是word2vec里层次softmax类似,构建霍夫曼树,感觉这道题出的狠nice,
另外感觉自己这一面是面的最好的一次。
二面:
项目:详细讲了我的论文的细节,可能我讲的很乱,一直在纠结我这个框架中query的设计,然后负样例怎么去优化,阈值怎么设置等等。
论文没给面试官讲清楚,我感觉对我就不太利了,
算法题:
接雨水的改编题,没写出来,显然gg,太可惜了。
-------------------------
5. 字节垂直策略-财经(没做笔试) 8.27、8.31、9.2
到现在不算实习的那次面试,已经面了6面字节了本身已经佛了, 觉得不会再被捞了,正式批也开了,就随便投了一个部门,
然后这回又被其他部门捞起来鞭尸了。
可幸的是,这次面的岗位跟我在学校做的nlp方向大致match,所以整体上聊研究方向居多。
一面 8.27:
项目:
问论文,query怎么设计,重复的设计会带来复杂度的提升,怎么搞;
问图卷积模型怎么做的,base模型是什么,动态池化机制是怎么考虑的。
对比学习是否了解,无监督数据增强为啥没效果。
八股:
transform的LN,LN的输入是什么,好处,bert,attention为啥要缩放点击。。。
算法题:
1)排序数组中找到某个数字出现的第一个位置和最后1个位置,原题,二分法
2)找出一个数组中存在重复的唯一数字(寻找重复数)。leetcode原题,但是不允许用额外空间,不允许改编原数组,复杂度要求O(logn)。
在面试官的提醒下写出了二分思路的代码。
二面: 8.31
项目:
因为组里做信息抽取的,感觉只能问我论文,推荐没被问过,
然后就是怼我的工作,效果为什么也只有50%多,让我举出一些bad case来,反正就是各种刁难我的工作。
另外一个项目用到textCNN,让我手写介绍这个模型,然后写参数计算,没写出来,
然后问了啥我忘了
算法:
1)搜索旋转排序数组,无重复值,ac
2)毒蘑菇,类似跳跃游戏,这道题写的有点问题,
反问环节觉得自己挂了,八股文答的也不好,我都不知道问他啥,还好面试官留情放我一马。
三面 9.2
还是聊了阅读理解框架的论文,但是问了很多细枝末节的东西,问的我压力很大,
还说我这个已经被很多人做过的idea,没啥新意,我只能牵强的解释xxxx。
八股:
序列标注问题,CRF问的很深,我了解的太浅,面试官说忘了就跳过,下一个;
Transformer Encoder和decoder的区别
transformer对比lstm的优势
lstm的八股
问完我感觉自己有点紧张,面试官说我别紧张,表达的不清楚。
算法:
1)手写self-attention,带mask矩阵的;
2)二叉树的之形遍历
3)爬楼梯
反问环节:
我问面试官我面的咋样,面试官说无法告知,我内心想必定挂了,
然后就象征性的问了组里做的东西,主要和信息抽取相关,做tob业务,这和我的方向还是match,然后面试官问我有啥offer
然后就结束了。反问环节感觉都还在给我施压。
10面大致如此,感觉自己搜广推NLP都面过,还是nlp给机会了,搜广推太卷了,我溜了。
许愿意向书。
结论:
太累了,我想躺平考公了。
宇宙的尽头,是公务员!