百度腾讯提前批阿里校招面经

中科院硕,一篇sci一篇ccfb在投,研究生期间方向是CV,因为往届情况都是推荐找的多,所以秋招目前投的都是搜索推荐岗。记录一下面经吧。。。
目前BAT中BT的提前批全都是二面挂。。。阿里也是二面挂。。。求捞。。

百度推荐提前批:

好像是手百feed

一面:

自我介绍,项目,论文,了解transformer吗?讲一讲transformer,现在最好的模型是哪一个?了解GBDT吗?知不知道SVM的损失函数?推一下LR的导数吧。

算法题1:求两个字符串的最长子串长度,abcdef和acde最长子串为acde。

dp[i][j] = dp[i-1][j-1] + 1    s[i] == p[j]

dp[i][j] = max(dp[i-1][j], dp[i][j-1])   s[i] != p[j]

算法题2:设计一个程序,对扑克牌进行洗牌,尽可能的公平。(可以使用随机数生成)

(1)求全排列,使用随机数选择全排列的可能O(n!)

(2)每次使用随机数选择一张牌,之后迭代,选择后一张牌O(n)

总结:不了解SVM和GBDT,第二道算法题没写出来,LR的交叉熵求导不熟练。


二面:

稀烂。。。

自我介绍,项目,了解BN吗?了解正则化吗?了解BERT吗?SVM和GBDT的优缺点是什么?

算法题:求立方根。。。写的有bug

开放题:

(1)推荐模型对细粒度的数据效果不好,比如搜索3岁小孩辅食是什么,出现7岁小孩辅食是什么,如何处理?

(2)用户对某些推荐点击率高并不是因为他符合要求,而是排名在前面,如何消除这种偏差?(把位置信息作为一种特征训练模型)https://blog.csdn.net/beilizhang/article/details/115707058

总结:不了解树模型,推荐算法中的常见问题不了解。



腾讯TEG大数据推荐算法岗:

一面:

非常看重基础知识:C++,CUDA,并行计算,tf,计算机网络,推荐算法相关

归并排序,代码思路,和快排的比较,项目,最近一段时间中解决问题的难点,了解C++吗?C++中指针和引用的区别?CUDA有用过吗?有没有了解过分布式和并行计算的一些东西?平常tf用的多还是pytorch用的多?tf和pytorch的区别在哪?计算机网络的五层结构?应用层有哪些协议?知道哪些推荐算法?讲讲wide&deep吧?deep的好处在哪?平常有没有用linux?常用的linux的命令有哪些?反问


二面:

30min(结束后5分钟就凉了)

介绍一下项目吧。为什么用目标检测的方法,不用基于强化学习的方法?当时你在数据集商训练好模型需要多长时间?有没有尝试其他加速方法?(我猜他想问有没有尝试用多卡多节点训练?当时没说。。。)了不了解c++?假如你在服务器上部署了一些程序,现在突然发现服务器的CPU占用不正常,你会如何排查?(top命令查具体进程,根据具体进程查程序代码,其实应该说先查日志文件的)懂不懂进程通信的一些方法?(管道,命名管道,共享内存,信号量,消息队列)

算法题

统计1到n中所有数字中1的个数

总结:进程通信不了解(估计就是因为这个挂的),不了解Mapreduce和多线程等相关知识,其次在面试时没有掌握主动权,中间被打断一次之后应该继续说自己项目的。

挂的原因:进程通信说错了(管道,命名管道,消息队列,共享内存,信号量),完全没说pytorch分布式训练的内容,排查CPU占用异常没答好(查进程,根据进程号查底下线程,根据堆栈的报错信息或输出信息定位问题代码位置)


阿里校招:

夸克一面:

项目,说说你论文的改进思路,为什么你的改进思路有效?说说你了解的目标检测器。说说你研究方向里当前sota的方法,有尝试改进当前的sota方法吗?怎么改的

概率题:

(1)一副扑克牌54张牌,分成3个牌堆,问大小王同时在同一个牌堆里的概率

(2)一个很大数据流,有n个数,现在想从这n个数中等概率的抽k个数,设计一个方法。(维护一个k大小的池子,每碰到一个数设计方法让其替换池子中的一个数。生成2k中的一个随机数,若在1到k则替换,否则不替换?)

反问:部门主要做啥?是不是经常用Hadoop相关技术?


二面(已凉):

一个大数据一个场景题:

(1)现在有几亿条url数据,如何从这几亿条url数据中找出出现次数最多的10条url?(对所有url进行hash,将所有数据分片为多个小文件,之后使用hashmap统计每个小文件中的url出现次数,最后对所有小文件的hashmap结果使用小根堆或者使用排序

(2)现在有一亿张图片,图片中很多是类似或者重复的,如何筛选掉大量重复的图片?(首先将图片缩放至相同大小,之后使用CNN或者滤波算子提取图像特征,然后将图像的特征按照位置顺序存储为字符串,每次从所有图片中抽出一张图片和剩下图片比对特征值字符串,按照字符串的相似程度进行排序,将相似程度高于90%的图片当做相同集合)

#面经##阿里巴巴##腾讯##百度##大数据开发工程师#
全部评论
太难了,感觉要失业了,腾讯提前批求捞😭
点赞 回复 分享
发布于 2021-08-20 14:30

相关推荐

按照官网公告似乎是最后一场?选择题日常大杂烩:基数排序、概率论、栈和队列……三道编程题:1.多个样例,给出一个仅有r、e、d三种字母构成的字符串,可以将任意子序列red染为红色,O(n)判定是否能将整个字符串染成红色:思维题,首先判定首位必须是r和d,然后分别从前往后遍历,判定d出现之前必须有e出现;再从后往前遍历,判定r出现之前必须有e出现2.Python3手撕文本相似度计算。又到了cpp选手的坐牢时间,a了第三题之后回来做着玩儿,凭感觉基本把过程写了个大差不差,就是余弦相似度计算和定义和我理解的不太一样,算出来结果有区别,没过3.类似题1,给出一个仅有r、e、d三种字母构成的字符串,题意可以转化为求所有red子序列的长度和(原题干是所有“red子序列的下标之差的绝对值轮换求和”结果之和)最开始写了个O(n^3)的暴力过了26.67%,后来发现犯蠢了,题意可以转化为直接求red子序列的长度。遂枚举每个r和d的距离即可,二者中间出现多少个e就乘以几倍(预处理e的个数的前缀和,即可O(1)查询r和d之间e的个数),算法复杂度应该是O(n^2logn),没想到提交直接ac了,不知道还有没有优化空间这个点估计也没hc了,就许愿一个进面吧 #菜鸟#  #菜鸟集团#  #菜鸟笔试#  #秋招#  #算法工程师#  #算法岗#
投递菜鸟集团等公司10个岗位
点赞 评论 收藏
分享
2 31 评论
分享
牛客网
牛客企业服务