字节跳动-提前批算法岗-推荐3轮 评论nlp 2轮 -面经
上周面了抖音的直播推荐3面 + 评论方向2面 + hr面, hr说是都通过了,等意向书ing,收到意向书了就更面经~先占个坑
更新,拿到Data-抖音 算法工程师的意向书了,来给大家发一下面经。
字节抖音推荐:
一二面
介绍之前在字节日常实习做的项目
算法:1. 给定字符矩阵,单词,判断矩阵里有没有该一条路径组成该单词 2. 实现k-means
CART树,n个数据d维特征,不剪枝,复杂度是?O(N*M*D), N是sample的大小,M是feature的数量,D是树的深度。cart生长时,把所有feature内的值都作为分裂候选,并为其计算一个评价指标(信息增益、增益比率、gini系数等),所以每层是O(N*M),D层的树就是O(N*M*D)
Word2vec的原理,分层softmax怎么训练?
Lstm,和rnn什么不同?
逻辑回归推导
L1正则为什么可以稀疏解,从逻辑回归的公式里怎么解释?梯度下降时L1总是在大于0时减去一个正数,小于0时减去一个负数,并且增减的量是固定的,因此会得到稀疏解。L2增减的值与w本身有关,当其比较小的时候惩罚力度很小,因此只能接近0不能达到0.
核函数是啥,常用的核函数有哪些?低维空间有时数据判别性很差,当映射到高维空间后更有力于分类,而很多时候都会用到内积,高维内积不好计算甚至不存在,所以引入核函数,可以在低维空间直接计算映射后的内积,而不用对低维向量进行映射。
1) 线性:
2) 多项式:
3) Radial basis function:
4) Sigmoid:
什么样的函数可以作为核函数?K是有效的核函数 ==> 核函数矩阵K(所有样例两两计算核函数)是对称半正定的。
为什么svm可以用核函数,lr不可以?理论上可以,在加L2正则的逻辑回归上,w可以表示为输入x的加权和,就可以表示成点积的形式,从而使用核函数。而平时不用主要原因是1.逻辑回归本身处理的都是些高维稀疏的问题 2.计算时逻辑回归在优化参数时所有样本点都参与了贡献,svm则只取离分离超平面最近的支持向量样本。导致使用核函数的逻辑回归计算量增大。
Svm为什么可以得到稀疏解?
推荐系统里怎么防止单一性推荐?或者说怎么提高推荐的多样性,怎么衡量多样性?
要以某个真实的指标为准绳去优化多样性,因为多样性难以量化,多样性对不同用户的需求也不一样,所以要在优化多样性的时候看目标指标有无提升。
衡量:其他相关指标、硬指标,比如类别分布占比或相似度衡量,用户反馈,每次推荐可以把item的向量表示计算距离作为多样性表示。
做法:1.经验规则:设置规则,比如每x次推荐里至少有y个种类的内容,对已经推荐的tag后面减少其比例,接着abtest看点击时长有无增加,用户负反馈有无增加。 2.用更多的召回渠道,召回尽可能多样的内容。仅是有可能有效,因为也没改变点击预估的逻辑。 3.建立模型去做,a.在预测时类别种类比item少很多,因此可以获得各种类别组合,训练一个模型,在一次推荐时用这个模型预测我要推荐多少类item,每类几个,然后再根据点击预估去拿到相应的推荐内容。 b.对user历史刷的item建模估计user对多样性的需求,rerank的时候考虑进去。
了解哪些聚类算法?
抖音推荐3面:
算法题:一个单链表,奇数位升序,偶数位降序,输出排序后的单链表。(写了个归并,拆成两个单链表并且把偶数位做头插翻转过来,再归并到一起。)
写一下lstm公式,图画一下,讲解下
为什么Ct用tanh激活,tanh怎么写,导数是啥
熟悉什么优化工具,写一下adam, Adam为啥好,哪里好
Sgd怎么逃离鞍点?
对attention有哪些了解?有哪些类型的?(s2s,self-attention,multihead,transformer-XL,reformer,gcn)
直播推荐里,有些擦边球,色情内容,评论很多,导致被推荐的多,要怎么解决?
你的背景是nlp,对做推荐有什么想法吗?怎么考虑的
抖音评论1,2面
算法题:1.输入二维0/1矩阵,输出同大小的,每个位置代表输入矩阵里距离0的最近距离(bfs)
2.两个有序数组,求topk(双指针),如果是m个数组求topk呢?(优先队列,o(klogm))
如何构建一个评论色情分类的系统? 数据收集(迭代方式,字典/经验初始化,各种召回方法),模型训练(针对抖音评论的特点要在词表上做些修改。还有数据不平衡的问题。可以引入多任务,同时预测评论点赞、点踩数),模型评测(为什么用f值和auc)
BERT介绍,为什么它好用?(1.数据大 2.网络深 3.双向 4.方便)
A/B实验怎么做?
模型太大,线上服务量太大扛不住怎么办?模型剪裁,蒸馏。从评论的场景来说,可以做归一化+cache
模型蒸馏是什么?为什么要用蒸馏不直接用标注数据去训练?
多语场景下BERT有哪些要改进的吗?
后面评论组问的基础比较少,都是业务场景的问题,给你一个问题让你想解决方案,尽可能的全面,基本都是开放性的,答的差不多就行。
感觉几轮面试表现都比较好,拿到提前批offer保底,秋招心态就好多了。
祝大家也都拿到称心如意的offer哈,同时帮抖音发个广告,虽然提前批结束了,但是还可以投可以面。
字节跳动抖音算法团队-2021届校招提前批
部门直推,提前批收尾面试,短视频算法团队等你来!
【提前批投递方式】
发送简历到dataieshr@bytedance.com,亦有复捞机会!
【部门介绍】
字节跳动短视频算法团队研发支持包括抖音短视频、抖音火山版等多款备受欢迎的知名App,截至2020年1月,抖音DAU已超过4亿。
在这里你可以获得业内超一流的算法场景实践,在数亿级DAU产品上参与解决工业界实际问题,深入研究、极致优化;同时参与高速发展的业务产品,共同搭建更高水平的短视频推荐系统和机器学习研发团队。火箭已经起飞,等你来!
想了解部门更多请点击http://t.cn/A6LigBkg
【提前批四大优势】
稳:提前批投递结果不影响秋招,相当于有两次投递机会;
快:处理速度更快,流程高效;2019年提前批数据显示,从投递简历到确认录用平均仅需11天;
早:最早6月底就可以发放offer意向书,提前结束秋招,安心过暑假;
多:针对21届的研发类岗位首次开放投递,HC多,机会多。
【提前批流程】
简历筛选—技术面试—OFFER
#字节提前批##面经##秋招##提前批##深度学习##自然语言处理#部门直推,提前批收尾面试,短视频算法团队等你来!
【提前批投递方式】
发送简历到dataieshr@bytedance.com,亦有复捞机会!
【部门介绍】
字节跳动短视频算法团队研发支持包括抖音短视频、抖音火山版等多款备受欢迎的知名App,截至2020年1月,抖音DAU已超过4亿。
在这里你可以获得业内超一流的算法场景实践,在数亿级DAU产品上参与解决工业界实际问题,深入研究、极致优化;同时参与高速发展的业务产品,共同搭建更高水平的短视频推荐系统和机器学习研发团队。火箭已经起飞,等你来!
想了解部门更多请点击http://t.cn/A6LigBkg
【提前批四大优势】
稳:提前批投递结果不影响秋招,相当于有两次投递机会;
快:处理速度更快,流程高效;2019年提前批数据显示,从投递简历到确认录用平均仅需11天;
早:最早6月底就可以发放offer意向书,提前结束秋招,安心过暑假;
多:针对21届的研发类岗位首次开放投递,HC多,机会多。
【提前批流程】
简历筛选—技术面试—OFFER