拼多多-面试准备

https://www.nowcoder.com/discuss/216469?type=0&order=0&pos=7&page=0

二面

编程题

山峰数组求最大值,复杂度O(logn), 注意边界条件

概率题

1. shuffle数组

几何分布的期望

2. 抛硬币

几何分布的期望
更复杂的问题

项目介绍

batch_size的设置依据

类别不均衡的处理,为什么没有效果?

怎么学习机器学习的?

《数据挖掘》《概率图模型》《机器学习》《统计机器学习》《深度学习》《python机器学习》《深度学习之tensorflow》《信息论》

AUC计算

ROC曲线

横轴为假正例率(FPR),纵轴为真正例率(TPR)。衡量排序质量的好坏

AUC

ROC曲线下方的面积

AUC的优点

当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在类别均衡度发生变化时仍然能很好的衡量分类器的能力。

AUC的计算方法有两种

一种是通过梯形近似计算ROC曲线下方的面积,一般不会有人用;另一种是从AUC统计意义上考虑,下面重点来说第二种。

AUC的统计意义:随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。

从AUC统计意义去计算。所有的正负样本对中,正样本排在负样本前面占样本对数的比例,即这个概率值如下: ,其中M表示正例的个数,N表示负例的个数。

进一步的,有如下的改进算法:
● 对预测概率从高到低排序
● 对每一个概率值设一个rank值(最高的概率的rank为n,第二高的为n-1)
● rank实际上代表了该score(预测概率)超过的样本的数目。这个数目可以分为两类,一类是正例,一类是负例。将正类的rank值相加并减去正类自身的pairs,则得到正例概率大于负类概率的pairs
● 除以M*N

如何去理解AUC的统计意义?

ROC曲线的横轴为,纵轴为;为阈值,FFR和TPR由阈值决定,故分别记为
AUC值可以表示为如下公式:
指负样本中预测概率为的比例,指正样本中预测概率大于的比例,即大于负样本的预测概率的比例,因此通过积分得到的AUC和AUC的统计意义得到的值相同。
综上公式AUC描述的是:随机给定一个正样本、负样本,正样本的概率大于负样本的概率。

全部评论

相关推荐

2024-12-30 22:49
长沙理工大学 Java
神哥了不得:没什么可以指导的地方了,简历确实牛,我大号分享过投递策略,广投就行
点赞 评论 收藏
分享
02-11 17:51
腾讯_TEG_技术
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务