算法凉经(阿里、百度、头条、海康),求开奖好运
1、项目
2、如何在实际场景中实现项目,需要做哪些改变与考虑
3、代码题,如何不使用库函数(+-*/)实现一个加法计算函数,入参为两个字符串,返回值为两个字符串
4、逻辑回归的思想和过程,损失函数是什么,如何训练得到最优参数
5、如何防止过拟合
6、L1正则不是连续可导的,那么还能用梯度下降么,如果不能的话如何优化求解
7、树模型的分裂依据都有哪些
8、支付宝年末要出一个年终总结,那么我要对所有用户的交易额度进行全量的排序,那么内存肯定是不够用的,这种情况下应该怎么做
9、在一个坐标系内,用户和商户都有自己的坐标(x,y),那么我想找到距离用户最近的k个商户,如何最快的得到
10、口碑要拉新客,我们的策略是发红包,怎么如何在预算有限的情况下发红包能让最多的用户来安装口碑呢
11、在美团都做了哪些工作,简单说一下
1、介绍一下新闻推荐的项目
2、介绍一下美团实习的方向,负责的内容
3、GBDT+LR的原理
4、GBDT+LR中,如果GBDT有有1万颗树,每个树有100个叶子节点,那么输入到LR的特征会是一个高维稀疏的向量,那么应该如何处理,使用PCA降维的话会造成损失,如果不想有损失的话应该怎么办
5、GBDT的原理
6、GBDT在回归和多分类当中有什么不同,在预测的时候的流程是怎样的
7、逻辑回归如何防止过拟合
8、L1、L2正则化的区别是什么
9、L1正则相当于拉普拉斯先验,那么在损失函数为最小二乘法的时候,如何通过拉普拉斯先验推导出L1正则
10、L1正则是不可导的,那么在这种情况下如何优化求解损失函数
11、坐标轴下降法的原理是什么,还有别的方法求解么
12、你所使用的GBDT+LR的代码中,LR的优化方法是什么,是如何实现的(看源码)
二面
1、介绍实习的项目
2、GBDT不擅长处理离散特征,你在应用的时候是怎么处理的
3、项目中LR用的优化方法是什么,有没有用正则化,有没有调整sgd的步长
4、你还知道哪些优化方法
5、GBDT+LR中LR输入的特征都有哪些,除了GBDT输出的特征 有没有加入原始特征
6、如何判断模型有没有过拟合
7、100块钱,每次可以花1、2或者3块,有多少种花法
8、算法题,用两个栈实现一个队列
9、手推逻辑回归
1、讨论论文
2、tf-idf在提取关键字的时候有没有遇到问题
3、userCF在现实场景中实现遇到的问题,如何解决
4、有一个特别长的数组,放不进内存的情况下,找出最小k个数
5、蓄水池抽样
6、逻辑回归的特征处理,连续值、离散值,离散化连续特征的好处
7、L1、L2正则化
8、模型在线下可以得到很好的效果,但是上线后效果不好,有哪些原因
9、实习项目
10、项目中如何判断是否拟合、如果离线数据不能很好反映全集的情况如何处理
11、进程间通讯都有哪些手段
12、父类变量指向子类实例的情况下,在调用方法时是如何判断调用的是父类的方法还是子类的方法
13、多线程锁
1、讨论论文
2、user-cf、item-cf公式,原理 区别
3、讨论实习
4、手写堆排序
5、手写快排
二面
1、topk
海康威视 研究院 大数据算法工程师 一面(电话)
1、GBDT原理
2、GBDT在处理onehot属性时,当1或者0的数量很多的时候是否会发生问题
3、Xgboost 和GBDT区别
4、如何判断是否过拟合
5、实习
6、既然GBDT处理onehot属性时存在问题,为什么你们还要这么做
#面经##阿里巴巴##百度##字节跳动##海康威视##秋招##算法工程师#