算法工程师(数据挖掘方向)校招技术栈

说明:
  • 本篇为算法工程师(数据挖掘方向)的校招技术栈,都掌握了,加上项目部分和算法部分,去掉运气的部分,大厂是没什么问题的。
  • 个别特别细节的本篇没有覆盖到,比如paper这些

数据基础:会写hive sql,会使用spark加分

DDL
DML
DQL:


  • Distinct
  • 聚合:group by,group by distinct
  • 关联:inner join, left/Right Outer join, full outer join, Cross join
  • 过滤:where
  • 排序:order
  • Window(开窗函数)
  • UDAF和UDTF



数学基础:


  • 微积分:求导,梯度,偏微分
  • 概率与统计:概率论基础,常见概率分布,贝叶斯公式,假设检验
  • 线性代数:向量,向量空间,矩阵运算,特征值分解


凸优化:

  • 最优化理论
  • 牛顿法
  • 梯度下降法
  • 最小二乘
  • SGD
  • Momentum
  • Adagard
  • Adam

传统机器学习:

特征预处理:


  • 归一化,离散化
  • 分箱
  • Hash
  • PCA


评价方法:

  • AUC
  • ROC
  • Accuracy
  • Precision
  • Recall

过拟合问题:

  • L1,L2正则化
  • dropout

分类问题:理解损失函数、优化方法

  • 逻辑回归:cross entropy,多分类
  • SVM:Hinge Loss,kernel function,SMO,soft/hard Margin
  • FM FFM:
  • 感知机:sigmoid
  • 贝叶斯:朴素贝叶斯,贝叶斯网络,HMM
  • 树模型:决策树
  • Model Ensemble:随机森林,AdaBoost,GBDT和XGBoost,Stacking

回归问题:


  • 线性回归:岭回归,LASSO
  • 树模型:回归树
  • 神经网络
  • FM


聚类问题:


  • K-Means
  • L-DBSCAN


深度模型:


  • Embedding:尽管Embedding其实哪里都可以用。
  • DNN:Back propagation
  • CNN:卷积核计算方法,pooling,padding
  • RNN:Bidirectional RNN,LSTM,GRU
  • Wide and Deep:尽管数据挖掘不是推荐,但是尝试深度模型仍然是一个方向


一些CV/NLP知识(加分)
强化学习(加分)
迁移学习(加分)
Python基础:


  • 数据结构:dict,list,set,tuple
  • 迭代器与生成器
  • Python中的OOP
  • Python中的多线程


Tensorflow或者Pytorch的常见使用
Pandas和sklearn的常见使用

 

全部评论

相关推荐

网安已死趁早转行:山东这地方有点说法
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客企业服务