拼多多-面试准备
二面
编程题
山峰数组求最大值,复杂度O(logn), 注意边界条件
概率题
1. shuffle数组
几何分布的期望
2. 抛硬币
几何分布的期望
更复杂的问题
项目介绍
batch_size的设置依据
类别不均衡的处理,为什么没有效果?
怎么学习机器学习的?
《数据挖掘》《概率图模型》《机器学习》《统计机器学习》《深度学习》《python机器学习》《深度学习之tensorflow》《信息论》
AUC计算
ROC曲线
横轴为假正例率(FPR),纵轴为真正例率(TPR)。衡量排序质量的好坏
AUC
ROC曲线下方的面积
AUC的优点
当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在类别均衡度发生变化时仍然能很好的衡量分类器的能力。
AUC的计算方法有两种
一种是通过梯形近似计算ROC曲线下方的面积,一般不会有人用;另一种是从AUC统计意义上考虑,下面重点来说第二种。
AUC的统计意义:随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。
从AUC统计意义去计算。所有的正负样本对中,正样本排在负样本前面占样本对数的比例,即这个概率值如下: ,其中M表示正例的个数,N表示负例的个数。
进一步的,有如下的改进算法:
● 对预测概率从高到低排序
● 对每一个概率值设一个rank值(最高的概率的rank为n,第二高的为n-1)
● rank实际上代表了该score(预测概率)超过的样本的数目。这个数目可以分为两类,一类是正例,一类是负例。将正类的rank值相加并减去正类自身的pairs,则得到正例概率大于负类概率的pairs
● 除以M*N
如何去理解AUC的统计意义?
ROC曲线的横轴为,纵轴为
;
为阈值,FFR和TPR由阈值决定,故分别记为
和
。
AUC值可以表示为如下公式: 指负样本中预测概率为
的比例,
指正样本中预测概率大于
的比例,即大于负样本
的预测概率的比例,因此通过积分得到的AUC和AUC的统计意义得到的值相同。
综上公式AUC描述的是:随机给定一个正样本、负样本,正样本的概率大于负样本的概率。