字节跳动 技术中台 NLP三面

【字节跳动 技术中台 NLP三面】

部门:抖音BU 技术中台


事件:技术面3面

时间:1h10min

内容:

  1. 面试题:

    1. 自我介绍,然后先写个题吧...;

    2. 写完题大概就用了50min了,简单问几个问题:word2vec(我说了两种训练方式及其loss,负采样加速的loss,估计在二面面评上看到我答得不够好所以我提前又看了一遍);

    3. 用没用过决策树,对剪枝有什么了解(答了后剪枝的几个名字和思想,回答了预剪枝和后剪枝的优缺点);

    4. 做没做过nlp分类,样本不均衡如何处理?(回答数据方面上下采样,其他方面可以借鉴focal loss);有没有真正做过超采样这种?(没有)

    5. 分类任务用没用过fasttext这种?(我没复习这个模型于是曲线回答:我说工作当中一般都会用fasttext和textcnn来做baseline,我自己只是学习过一些,实践中比如我这个比赛数据是xxx样的所以没有采用这几个短依赖的方法,因为我baseline是word2vec又做分类效果不好等等等等,后续用了什么方案解决了这个问题,就是没有正面回答)

    6. 过拟合遇到过吗?怎么解决的?(还是从数据和模型两方面回答,感觉还是看了二面面评来问的);提到了dropout,问dropout为什么可以解决过拟合(胡扯了一下)

    7. 目前应聘情况,为什么不留在实习的公司,你这留学生是算社招吧?(NO)为什么不投递BAT这些公司?(夸字节)

  2. 编程题:

    1. 第一题——31. 下一个排列,这个隐约记得是从后向前遍历找最大值,其他的忘记了,想了十分钟说要不换个题?

    2. 第二题:三数之和,这个练过N遍,但是写出来遇到了死循环,飞书不能debug死循环所以请求本地IDE写,同意了debug出来了;

    3. 第三题:久仰大名的字节思维题:10个耗子喝1000个瓶子中仅含一瓶的毒药水瓶,问如何找出来是哪个毒药?心中暗喜——然后开始表演,先把题目读一遍,然后拿出纸笔说我想想,比划一会儿想起来是怎么做的了,就说思路,面试官让写一写,我就写了二进制右移的操作当做死亡小鼠阵列翻译十进制编号的动作,面试官说理解了就过了。

  3. 反问:业务是不是给自己的所有产品提供中台技术?是。部门是属于哪个BU呢(抖音BU)

总结和体会:应该是最后一面吧,感觉题写得还可以,应该会过;看来字节三面,面面都有编程题呀,许愿offer吧;


提醒大家一定要查缺补漏,字节面试官挖掘简历和面评真的蛮深,感觉最后两面问问题都是泛泛的,估计是一面面评不够好,不过不管了,面字节就是个心中的执念,不然感觉作为算法码农经历不够完整,虽然还缺一个面小红书和面阿里哈哈,春招就此终结吧~


祝愿大家都能拿到offer都能拿到ssp是不现实的,所以我祝愿中国的人才市场和各行各业的行情经过低迷之后尽快恢复蓬勃,希望大家都有机会展示自己。


我也算是面试过互联网、通信、银行、新能源等各种行业的人了,如果大家求职过程中有对于简历面试、知识体系、行情发展等方面的问题,可以私聊问我,视问题难度为大家提供解答

#字节跳动##面经#
全部评论
所以 现在在飞书上面。也可以直接写代码 运行么?
点赞 回复 分享
发布于 2022-03-24 17:23
感谢楼主分享,一直在关注楼主发的帖子,楼主真的很强很棒!!想请教楼主对于字节思维题这种类型题目有没有比较好的练习的方法或者说学习的资源呢?算法题可能练练就行了但是思维题真的好难弄
点赞 回复 分享
发布于 2022-03-24 22:06
想问下lz投递的城市是哪里呀?
点赞 回复 分享
发布于 2022-04-03 22:08

相关推荐

头像
11-01 19:45
已编辑
门头沟学院 算法工程师
一切都从昨天下午原以为是KPI的一面开始,没想到直接开出意外惊喜一面:自我介绍,然后讲了刚投的一篇1区论文的工作,分析整体的框架、具体的技术细节,常见的反问点(为什么这么设计、为什么有效,相比于之前的工作,主要好在哪里、最核心的贡献是什么)面试官自称是NLP背景的,然后问了一些常见的视觉和多模态大模型的模型结构、损失函数设计、训练及推理过程等(面试官有可能是故意扮猪吃老虎哈哈)Coding:最接近的三数之和;共享屏幕本地IDE,秒了一个n^2logn的做法,让进一步优化,最优解是双指针;不过面试官觉得编码能力应该可以,实现很快,提示完直接让过了原本以为月底发一面是KPI,结果面试官问我后面还有没有时间,现场约二面,等面试官进会议二面:自我介绍,二面面试官非常重量级(进会议的title和面试的深度广度全都拉满了)首先很深入了聊了相当多关于MLLM的内容:介绍一些MLLM的现状,再选一个近期的多模态大模型,介绍相较于CLIP、LlaVA早期版本进行了哪些改进: Qwen技术点比较多,之前没系统整理过,说了自己还有点印象的Intern-VL2,不过上次看Intern-VL2的论文已经是三个月前了,大概只答上两点比较核心的。然后继续深挖目前多模态大模型在数据层面相较于之前的改进,这个没答上来之后被面试官深挖了LoRA,可以说LoRA的每一个细节的角落全都被挖的干干净净,还有不少开放性思考题,甚至比上次小鹏CV大模型一面面试官挖的还狠得多。不过上次被拷打之后就很系统地整理了LoRA的相关内容,勉强答得还行吧以后再不能当git clone侠了。然后面试官针对我的专业背景(统计),深挖了几个ML、DL相关的数学层面的问题,有让共享屏幕开白板写过程和推导(不是特别难,不过挺新颖的,秋招还是第一次面试被问到这种类型的问题);紧接着针对我的Nature子刊工作中用到的Gaussian Graphical Model,讲了其与传统ML模型、神经网络和大模型的差异、区别和各自的优劣势。最后是一些相对开放性的问题:你是如何使用现代的LLM产品提高工作、学习和编码效率的?为什么这种方式有效果?LLM、LVM、MLLM未来发展的方向和前景大概是怎样的?整个二面的问题不止这些,太多了,又深又广,很多具体已经记不太清了,而且回答的过程中几乎都有进一步反问,深挖了很多东西二面面完,面试官也是直接当场联系三面面试官三面:自我介绍,三面面试官更是整个集团的技术大佬,NLP相关经验非常丰富,整场面试问的内容也偏NLP相关,我之前几乎0 NLP相关经验,汗流浃背了可以说,不过好在基础还行,凭自己的做CV和MLLM的积累,基本都答上了首先介绍了之前lab实习中做的LLM剪枝优化迁移的工作,然后深挖了相关的技术细节,不过刚聊完电脑音频直接罢工了,重新约到11.1下午11.1下午完整描述CLIP的原理、架构、工作过程、怎么对齐、怎么做image caption完整描述transformer输入一个文本序列如何做下一句预测的全过程,深挖了tokenize、位置编码、MHA、FFN、损失函数、输出转换各个部分接着从我项目经历中有关传统ML的经验出发,问了一些ML相关的八股,难度不大然后是偏主管面的一些内容:对工作环境的期望、自身性格优缺点等反问环节逮住大佬问了目前MLLM的相关业务和技术现状;最后是关于面试流程上的一些问题总体体验非常棒的三轮面试拷打深度广度强度高,但是也学到了非常多的东西,这也算是对自己能力的一种认可吧现在想想当初9月份面试难度远不及现在的团子、阿里、得物、理想,却被面挂了,可能还是简历不如现在优化的好,没能突出自己的优势,也没有勇气直接投更匹配自己的岗位吧(当初为了求保底,基本都投的机器学习、数据挖掘这种最“泛”的算法岗,或许应该早点鼓起勇气直接投自驾、MLLM和CV的)。今天看到牛u们团子开奖,各种sp、ssp,确实感觉羡慕+遗憾。最后许愿一个HR面吧 #秋招#  #算法工程师#  #牛客创作赏金赛#  #新浪#
牛客610987445号:大佬膜拜! 26届的,来好好学习!!
查看13道真题和解析 牛客创作赏金赛
点赞 评论 收藏
分享
最近没有新增的面试了,该挂的都挂了好像我的秋招结束了,就这么滴吧,摆烂了快手——数据挖掘1. 做题——最长公共子序列2. 简历介绍实习、项目3. 项目技术1. fasttext原理,层次softmax,树构造2. LSTM更新公式3. mapreduce 原理和阶段4. minhash原理,LSH实现1. 可以优化的地方,sentence-bert精召5. BERT原理、维度、词表大小,模型结构、位置编码类型4. 反问1. 工作内容和工作性质,上下游,需求方式2. 如何沉淀技术栈和方法论【挂】快手二面——数据挖掘1. STAR法则说项目2. 八股1. 一句话概括precesion、recall、AUC指标和应用场景2. 一句话概括LR、随机森林、GBDT的区别、3. word2vec原理3. 反问1. 从问题上看重视思路,这种筛选流程是怎么样的1. 社招看经验2. 校招看基础4. 做题:无【挂】字节一面——NLP算法,挂1. 介绍项目1. 怎么做的CoT、SFT2. SFT数据集怎么构建2. Minhash原理,召回优化,怎么做语义去重1. embedding聚类,怎么聚,怎么评估聚类效果,怎么进行采样1. 超大规模聚类怎么选取类别2. 采样方案,如何保留长尾数据3. fasttext原理和选型原因4. Qwen系列模型和GPT2的diff5. deepspeed多个阶段参数分布6. 写题:最长递增子序列,老哥手把手教我写,人很好,还是把我挂了长安综合面1. 聊到哪里算哪儿,为什么选择长安2. 怎么看待大模型3. 长安在大模型领域可能的应用4. 研究方向长安技术面1. 介绍项目2. lora原理3. SFT有什么经验【拒】长安offer,给的少,拒京东 记错时间,错过一面了荣耀一面——AI工程师1. 讲项目2. 各种模型、微调各个阶段loss飞了可能的原因和解决办法荣耀二面1. 问专业研究方向2. 劝我年轻读博华为1面——AI软件开发1. 随意唠嗑2. 复盘笔试题目3. 手写最小路径4. transformer八股漫谈华为2面1. 谈数据处理流程、长尾问题发现和优化2. 数据飞轮怎么建设3. 写题华为3面1. 聊年龄专业房价发展2. 画饼3. 聊末位淘汰 和 手里做出选择的原因pdd 一面1. 怎么验证实验效果 scaling law, 策略组验证2. 训练框架1. 大量数据,魔改megtron2. 小批量,deepspeedPDD二面 忘了,工程题PDD三面 介绍项目,无反问,写链表重排题目 #我的失利项目复盘#
查看53道真题和解析 我的失利项目复盘
点赞 评论 收藏
分享
评论
6
22
分享
牛客网
牛客企业服务