2022届春招推荐算法岗(挂经)
首先交代下楼主背景:秋招前本身从事NLP相关,但未来打算做搜广推相关,故春招投递搜广推岗。
惨痛的结果是:投了4家公司,全挂
下面交代下楼主详细的挂经,由于时间略久远,只能回忆起部分问题
携程
一面(挂)
- 1.项目,抠细节
- 2.在携程酒店推荐场景下,可以用哪些指标衡量两家酒店的相似度
- 3.如果在模型中加入了一个特征,怎么判断这个特征是有效的,可以从哪些指标来衡量
- 4.如何验证引入DIN,DIEN等序列化模型后,序列化建模是有效的
- 5.算法题:快排
美团
一面
- 1.抠项目细节
- 2.为什么分类问题损失不使用MSE而使用交叉熵
- 3.BN的作用,除了防止梯度消失这个作用外
- 4.训练时出现不收敛的情况怎么办,为什么会出现不收敛
- 5.算法题:解码方法
- 6.智力题:两个桶分别装了一样多的红色和蓝色的颜料。先从蓝色桶里舀一杯倒入红色中,搅拌不均匀。再从有蓝色的红色桶中舀一杯倒入蓝色桶里,问两个桶中蓝:红与红:蓝的大小关系
二面(挂)
- 1.简单聊下项目和实习
- 2.LR与决策树的区别
- 3.有哪些决策树算法
- 4.CTR预估为什么是个分类而不是回归问题/为什么分类要用softmax而不是sigmoid
- 5.了解哪些行为序列建模方式
- 6.embedding层是选择end2end模式还是预训练模式
- 7.有一个图像特征700维,维度太大,如何处理这个特征使其能够作为模型特征
- 8.推荐广告场景下,模型中采用双向循环网络,效果比单向循环网络效果好,分析好的原因在那
- 9.智力题:两个人数数,谁先数到20算谁赢,每次只能数1或者2个数,采取什么策略可以保证必胜,先手和后手都可以选择
网易
一面
二面
三面(挂)
- 1.现有纸质资料:训练册,每本训练册前面是题目,后面是答案。在线时如何快速根据题目找到相对应的答案,意思是想训练一个模型/提出某种架构,输入一个题目就能快速匹配他对应的答案,避免前期在数据库中人工手动输入每个问题对应的答案
- 2.算法题:x轴上有几条线段,可能互相有交叉重叠,我们可以创建与y轴平行的线条,如果与创建的y轴平行的线条有交叉,那么x轴上的线段就被消除,问最少需要几条线条才能将x轴上的线条全部消除
输入:[[1,3],[1,5],[4,9],[6,8],[10,12]]
输出:3
解释:只要x=2,x=7,x=11这三条线就能将x轴上的线段全部消除,x=2消除[1,3],[1,5],x=7消除[4,9],[6,8],x=11消除[10,12]
方法:类似合并区间
小红书
一面
- 1.简单问了项目和实习
- 2.算法题:给定一个由0和1组成的矩阵,找出每个元素到最近1的距离,时间复杂度
输入:arr = [[0, 1, 0, 0, 0, 1, 0],[1, 0, 0, 0, 0, 0, 0]]
输出:[[1, 0, 1, 2, 1, 0, 1], [0, 1, 2, 3, 2, 1, 2]]
方法:dp,动态规划
二面
- 1.简单问了下项目和实习
- 2.类似YoutubeDNN,双塔等向量化召回与协同过滤的区别
- 3.算法题:给你一个数组和一个整数k,从数组中选择两个长度为k的子数组(这两个子数组不允许有交叉),使得这两个子数组的数组和,相加之后最大。要求时间复杂度
输入:[8,8,9,9,10,10,9,8,7], k=3
输出:55,[[8,9,9],[10,10,9]]
方法:可以借助一个辅助数组,下标i表示从i能取到的长度为k的子数组和的最大值
三面(挂)
- 1.简单聊了聊项目和实习
- 2.使用传统的dropout在RNN中效果不是很好,因为RNN会有放大噪音的功能,所以该如何在LSTM中使用dropout
- 3.如何使用一个通用的pattern,将某一个分布转换为另一个分布,参数和非参数方法均可
- 4.DIN、LSTM的时间复杂度
- 5.算法题:n堆石子围成一排,每堆石子的量a[i]已知每次可以将相邻两堆合并为一堆,将合并后石子的总量记为这次合并的得分。n-1次合并后石子成为一堆,求这n-1次合并的得分之和的最大值
方法:dp,动态规划