6-4 模型效果评估
模型效果的评估主要分为分类模型评估和回归模型评估,但笔试面试的考点主要集中在分类模型的评估上。
一、 混淆矩阵
1、指标定义
在分类问题中,常借助混淆矩阵来评估分类效果。混淆矩阵如下表,有四个数据:
TP:True Positive, 将正类预测为了正类;
FP: False Positive,将负类预测为正类;
FN:False Negative,将正类预测为负类;
TN:True Negative,将负类预测为负类。
通过对这四个数据进行计算,我们能够得到一系列指标,用以衡量模型的分类效果。
精确率(PPV - precision):TP/(TP+FP), 所有预测为正的样本中,预测正确的样本数量,将负类预测为正可能会带来损失,假设在银行贷款业务中,违约用户为正样本,不违约用户为负样本,若将一个不违约用户预测为违约用户,银行将损失一名好用户带来的收益。
召回率(TPR - recall):TP/(TP+FN),所有正样本中,预测正确的样本数量。召回率强调找的全,在预测地震时,若有地震却没有被预测出来,可能会造成很大的公共安全事故。
准确率(ACC - accuracy):(TP+TN)/(TP+TN+FP+FN),分类模型所有判断正确的结果占总样本的比例,强调模型的分类结果是否正确
特异度(TNR - specificity):TN/(TN+FP),在所有的负样本中,模型预测为负的样本数量。
约登指数(Youden Index):TPR+TNR-1,约登指数和召回率及特异度相关,也称为正确指数,反应了相对于负样本组,正样本组被判定为“正”结果的可能性大小,从而体现模型筛查正样本与负样本的总能力,结果在0-1之间。
F score:在实际建模中,很少有模型会将单一的精确率或召回率作为评估指标,而是使用两者的调和值。银行若仅看重模型的精确率,只给收入学历很低、工作没有保障的少量用户分类为正(违约用户),认为他们将无力偿还贷款,那么精确率会较高但会带来其他的问题,比如其他无力偿还贷款的人不被判定为违约者,而给他们发放贷款,造成资金无法收回,坏账率提高。因此综合考虑不同的指标,才能更符合业务工作场景。
以下是F score的计算公式,其中会影响两者的权重,大于1时侧重于召回率,小于1时侧重于精确率。
F1 score:当时 F score称为 F1 score,这时精确率和召回率权重相等,希望在尽可能提高精确率和召回率的同时,两者的差异尽量小。F1 score取值范围是0-1,若取值接近1,这说明模型的输出效果好,取值接近0,则说明输出效果差。
F1对于那些具有相近精确率和召回率的分类器更加有利,但是这并不一定符合我们的需求,因为在不同的背景下,我们对精确率和召回率的关注度不同。
2、计算举例
在二
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
校招面试考点全解析——数据分析师篇 文章被收录于专栏
<p> 为什么要学习本专刊 (1)数据分析面试日益激烈,招聘门槛提高,对业务、技术的综合考察难度上升; (2)网上对数据分析面试题型的整理与解析质量参差不齐,缺少框架清晰、内容全面的学习资料; (3)直击数据分析面试热点问题; </p>