算法工程师(数据挖掘方向)校招技术栈
说明:
- 本篇为算法工程师(数据挖掘方向)的校招技术栈,都掌握了,加上项目部分和算法部分,去掉运气的部分,大厂是没什么问题的。
- 个别特别细节的本篇没有覆盖到,比如paper这些
数据基础:会写hive sql,会使用spark加分
DDL
DML
DQL:
- Distinct
- 聚合:group by,group by distinct
- 关联:inner join, left/Right Outer join, full outer join, Cross join
- 过滤:where
- 排序:order
- Window(开窗函数)
- UDAF和UDTF
数学基础:
- 微积分:求导,梯度,偏微分
- 概率与统计:概率论基础,常见概率分布,贝叶斯公式,假设检验
- 线性代数:向量,向量空间,矩阵运算,特征值分解
凸优化:
- 最优化理论
- 牛顿法
- 梯度下降法
- 最小二乘
- SGD
- Momentum
- Adagard
- Adam
传统机器学习:
特征预处理:
- 归一化,离散化
- 分箱
- Hash
- PCA
评价方法:
- AUC
- ROC
- Accuracy
- Precision
- Recall
过拟合问题:
- L1,L2正则化
- dropout
分类问题:理解损失函数、优化方法
- 逻辑回归:cross entropy,多分类
- SVM:Hinge Loss,kernel function,SMO,soft/hard Margin
- FM FFM:
- 感知机:sigmoid
- 贝叶斯:朴素贝叶斯,贝叶斯网络,HMM
- 树模型:决策树
- Model Ensemble:随机森林,AdaBoost,GBDT和XGBoost,Stacking
回归问题:
- 线性回归:岭回归,LASSO
- 树模型:回归树
- 神经网络
- FM
聚类问题:
- K-Means
- L-DBSCAN
深度模型:
- Embedding:尽管Embedding其实哪里都可以用。
- DNN:Back propagation
- CNN:卷积核计算方法,pooling,padding
- RNN:Bidirectional RNN,LSTM,GRU
- Wide and Deep:尽管数据挖掘不是推荐,但是尝试深度模型仍然是一个方向
一些CV/NLP知识(加分)
强化学习(加分)
迁移学习(加分)
Python基础:
- 数据结构:dict,list,set,tuple
- 迭代器与生成器
- Python中的OOP
- Python中的多线程
Tensorflow或者Pytorch的常见使用
Pandas和sklearn的常见使用