滴滴-机器学习一面面经
项目叙述关键词(可以展开给面试官说的清楚的,说不清楚的不要提)
1.Python,DNN,交叉熵,sigmoid;CNN,卷积,池化,对数似然,ReLu
2.多标签数据,特征选择,潜在语义(LSA),Armijo rule,梯度下降,SVM,宏平均,微平均
3.HSV特征,KNN,拉普拉斯矩阵,matting方程,guided filter,误差分类率
Q:项目二中用的libsvm,讲一讲
A:分类超平面,距离超平面距离最近的点距离最大,间隔,函数间隔,几何间隔,目标函数,拉格朗日乘数对偶化求解
Q:支撑向量是什么?
A:距离超平面最近的那些样本
Q:如何解决线性不可分的情况?
A:少数点不可分,加入松弛变量。整体都不可分的话,核函数映射到高维空间使得线性可分
Q:常见的核函数有哪些?
A:高斯核,多项式核,线性核
Q:高斯核在delta(方差)变大的情况下,整个模型是overfitting还是underfitting?
A:没听清这俩单词(过拟合和欠拟合)。问题本身也不知道
Q:训练之后,需要对模型进行存储,需要存储哪些参数?
A:权重W和偏置b
Q:宏平均和微平均如何计算的?
A:查准率和查全率,F-measure(F值),多分类的宏平均和微平均分别是算数平均数和加权平均数
Q:一般二分类的问题用什么评价指标呢?
A:分类准确率,但是样本不均衡的情况,很不准确。因此用查准率和查全率
Q:知道ROC曲线吗?曲线的物理含义是什么?AOC越高,体现了什么样的东西?
A:然了一会。(看过记不清了)
Q:刚提了样本不均衡问题,如何解决?
A:主要三个方面,数据,模型和评估方法。数据上重采样和欠采样,使之均衡;模型上选对样本不均衡问题不敏感的模型,如决策树,不能用KNN;评估方法,想之前所说查全率,查准率之类
Q:重采样和欠采样会带来什么问题?
A:过拟合(猜)
Q:经常会对连续型特征进行离散化处理,比如年龄分70后,80后,90后,在模型是LR或SVM的情况下,会有什么受益?
A:不会。没看过
Q:ok,然后问一些神经网络相关的。输入层特征会标准化,归一化吗?为什么是必须的?
A:用的mnist数据集不用归一化。。。不知道
Q:梯度消失产生的原因
A:反向传播,前一层的梯度是由后一层上一些项目的乘积。假如每一层上的梯度小于1,越乘越小,到最前面的层就会梯度消失。
Q:只有这一种原因吗?
A:还有比如S型神经元,在01附近梯度很小,而w和b的梯度是有S函数的梯度因式,从而导致梯度变小。
Q:relu出现死节点的问题,如何解决?
A:(想到relu的缺点,那么解决办法就是)初试设置一个比较小的学习速率。(这个回答貌似面试官不满意)
Q:有没有了解过ReLu的其他变种的方式?
A:(原来是想问这个)没看过
Q:卷积神经网络最重要的特性是什么?
A:卷积。
Q:一个feature map 的计算题,单(还是三?)通道的24*24的图像,有5个卷积核,每个都是5*5的,步长是1,没有补充(padding),卷积之后的feature map 的尺寸
A:(不管是单通道还是三通道无所谓)(24-5)/1+1=20,5个卷积核,20*20*5
Q:常见的池化方式有哪些?
A:最大池,平均池,l2池
Q:max-pooling和average-pooling各自的适用情况?
A:不知道
Q:比如要检测图像的纹理,那么用什么?
A:max-pooling,可以进行信息压缩,不关心纹理的具***置,而是否出现,大概在哪
Q:了解BN层作用吗?
A:(就记得几个名词)减少数据分布的偏移,在两个网络层中间加入归一化层,为了避免影响提取的特征,做了一个转换。
Q:代码考核,无序数组找出第k大的数
A:用的快速排序思想,找切分点,如果切分点在k之后那么在切分点左边继续切分,如果在切分点在k之前,那么在切分点右边继续切分,直到切分点为k-1
Q:时间复杂度是多少?
A:快速排序,对数级别吧。
校招小助手说今天的面试已经结束,估计已挂。
#滴滴#