nlp大牛学习经验

本想罗列一个个面经来叙述，但我觉得还是总结得高层次一些吧，以要点的方式叙述：
机器学习算法基础：《统计学习方法》那本书要看至少四五遍，掌握原理和数学推导，《机器学习实战》那本老外的书也值得一看，从Python 代码层面了解算法的实现，更能加深理解，也能练练Python。另外《深度学习》那本书也不错，但我只看了前几章，主要是因为我没有用到过后面那些高深的东西（GAN啥的），有时间的话可以看透它。《百面机器学习》可以很好的检查你学习的程度。有时间的话《最优化方法》和《概率论》和《矩阵分析》最好也多看看，这些我以后也需要补补。其他的学习资料有B站上的台大李宏毅的视频，讲的易懂而且很有深度。吴恩达的据说不错，但我没看过～
刷题：其实这方面我做的不够多，没那么多时间，我只是把剑指offer 过了两三遍，能应付中等的难度，如果我刷的够多的话头条就不至于二面挂了😅orz，学弟学妹们可以多多刷题！很重要
最好去实习：实习里接触的工业级真实问题和实验室里是完全不同的，你所做的完整项目，能成为你和面试官很重要的谈资，特别是涉及spark 等大数据的机器学习，很加分（这方面我还有不足😅）
实践中进阶：算法的高速发展，已经到了一本书发行出来时候，其中内容已经很多都过时了，所以大家要多看看最新论文和博文，这些是书本上学不到的，也是算法工程师自驱动学习的主要途径。就推荐广告领域来说，知乎上的“王喆”和“张俊林”大佬很值得关注。
💪🏻
其实我面试大多数都是基于我的项目的问题，说出来没那么通用。
所以以下，是我面试一些中大厂（腾讯头条百度京东微博快手美团滴滴小红书等等），被问到的高频，或者让我印象深刻的，值得必须搞懂的问题，大家可以闲暇时间考虑一下：
1.如何解决过拟合问题，尽可能全面？（几乎每次都被问到）
2.如何判断一个特征是否重要？
3.有效的特征工程有哪些？
4.数学角度解释一下L1和L2正则化项的区别？
5.注意力机制，self attention ？
6.有哪些embedding 方法？
7.word2vec中，为啥词义相近的两个词，embedding向量越靠近？（这里感谢腾讯面试官的解释）
8.推荐系统中如何解决冷启动问题？
9.GBDT中的“梯度提升”，怎么理解？和“梯度下降”有啥异同？
10.常见的降维方法？PCA和神经网络的embedding降维有啥区别？
11.图卷积神经网络了解吗？（这里感谢滴滴面试官的提问，确实是我的盲点）
12.Bert为啥表现好？
13.SVM用折页损失函数有啥好处？
14.逻辑回归为啥用交叉熵损失函数？从概率论角度解释一下？咋不用平方误差呢？
15.XGboost 的节点分裂时候，依靠什么？数学形式？XGboost 比GBDT好在哪？
16.推荐系统中，CB（基于内容的）和CF（协同过滤的）有啥区别？目的是什么？
17.除了梯度下降，还有啥优化方法？为啥不用牛顿法呢？
18.skip gram和CBOW训练过程中有啥区别？谁更好？
19.图嵌入的发展，图嵌入为啥比w2v好？
20.在线学习了解吗？
21.SVM都能用核函数，逻辑回归咋不用呢？
22.Kmeans聚类为啥能收敛？理论上解释一下？
23.如何解决多目标优化问题？（即同时优化CTR和CVR）
24.常见的采样方法？
25.如何解决样本不均衡问题？
26.高维稀疏特征为啥不适合神经网络训练？
✌️
差不多就是这些，我也只是个才转行一年多的小学徒，和大佬们比不了。学无止境，各位后来的学弟学妹加油，算法今年秋招确实惨烈，但只要有本事不怕找不到工作！
谢谢牛客的平台，往者不可谏，来者犹可追！！💪🏻