尘埃落定,算法转行和秋招面试总结~
写这个帖子目的是回馈牛客,给后来的学弟学妹看,增加点正能量。一年多前我也是看着一篇篇学长的面经学习过来的。
最后选择的是去百度大搜了~去当几年学徒吧!团队的氛围我很喜欢,以下是我转行和面试和学习的总结:
💪🏻
我本科是武汉某211,机械专业,与算法八竿子打不着,后来跨考的软工,由于只有两年制,真正学习时间只有一年,我的积累主要靠一年的实习,在百度feed和微博实习过,都是推荐算法。
本想罗列一个个面经来叙述,但我觉得还是总结得高层次一些吧,以要点的方式叙述:
- 机器学习算法基础:《统计学习方法》那本书要看至少四五遍,掌握原理和数学推导,《机器学习实战》那本老外的书也值得一看,从Python 代码层面了解算法的实现,更能加深理解,也能练练Python。另外《深度学习》那本书也不错,但我只看了前几章,主要是因为我没有用到过后面那些高深的东西(GAN啥的),有时间的话可以看透它。《百面机器学习》可以很好的检查你学习的程度。有时间的话《最优化方法》和《概率论》和《矩阵分析》最好也多看看,这些我以后也需要补补。其他的学习资料有B站上的台大李宏毅的视频,讲的易懂而且很有深度。吴恩达的据说不错,但我没看过~
- 刷题:其实这方面我做的不够多,没那么多时间,我只是把剑指offer 过了两三遍,能应付中等的难度,如果我刷的够多的话头条就不至于二面挂了😅orz,学弟学妹们可以多多刷题!很重要
- 最好去实习:实习里接触的工业级真实问题和实验室里是完全不同的,你所做的完整项目,能成为你和面试官很重要的谈资,特别是涉及spark 等大数据的机器学习,很加分(这方面我还有不足😅)
- 实践中进阶:算法的高速发展,已经到了一本书发行出来时候,其中内容已经很多都过时了,所以大家要多看看最新论文和博文,这些是书本上学不到的,也是算法工程师自驱动学习的主要途径。就推荐广告领域来说,知乎上的“王喆”和“张俊林”大佬很值得关注。
💪🏻
其实我面试大多数都是基于我的项目的问题,说出来没那么通用。
所以以下,是我面试一些中大厂(腾讯头条百度京东微博快手美团滴滴小红书等等),被问到的高频,或者让我印象深刻的,值得必须搞懂的问题,大家可以闲暇时间考虑一下:
1.如何解决过拟合问题,尽可能全面?(几乎每次都被问到)
2.如何判断一个特征是否重要?
3.有效的特征工程有哪些?
4.数学角度解释一下L1和L2正则化项的区别?
5.注意力机制,self attention ?
6.有哪些embedding 方法?
7.word2vec中,为啥词义相近的两个词,embedding向量越靠近?(这里感谢腾讯面试官的解释)
8.推荐系统中如何解决冷启动问题?
9.GBDT中的“梯度提升”,怎么理解?和“梯度下降”有啥异同?
10.常见的降维方法?PCA和神经网络的embedding降维有啥区别?
11.图卷积神经网络了解吗?(这里感谢滴滴面试官的提问,确实是我的盲点)
12.Bert为啥表现好?
13.SVM用折页损失函数有啥好处?
14.逻辑回归为啥用交叉熵损失函数?从概率论角度解释一下?咋不用平方误差呢?
15.XGboost 的节点分裂时候,依靠什么?数学形式?XGboost 比GBDT好在哪?
16.推荐系统中,CB(基于内容的)和CF(协同过滤的)有啥区别?目的是什么?
17.除了梯度下降,还有啥优化方法?为啥不用牛顿法呢?
18.skip gram和CBOW训练过程中有啥区别?谁更好?
19.图嵌入的发展,图嵌入为啥比w2v好?
20.在线学习了解吗?
21.SVM都能用核函数,逻辑回归咋不用呢?
22.Kmeans聚类为啥能收敛?理论上解释一下?
23.如何解决多目标优化问题?(即同时优化CTR和CVR)
24.常见的采样方法?
25.如何解决样本不均衡问题?
26.高维稀疏特征为啥不适合神经网络训练?
✌️
差不多就是这些,我也只是个才转行一年多的小学徒,和大佬们比不了。学无止境,各位后来的学弟学妹加油,算法今年秋招确实惨烈,但只要有本事不怕找不到工作!
谢谢牛客的平台,往者不可谏,来者犹可追!!💪🏻
#百度##滴滴##微博##京东##校招##算法工程师##面经#