6-4 模型效果评估

模型效果的评估主要分为分类模型评估和回归模型评估,但笔试面试的考点主要集中在分类模型的评估上。

一、 混淆矩阵

1、指标定义

在分类问题中,常借助混淆矩阵来评估分类效果。混淆矩阵如下表有四个数据:


TP:True Positive, 将正类预测为了正类;

FP:  False Positive,将负类预测为正类;

FN:False Negative,将正类预测为负类;

TN:True Negative,将负类预测为负类。

通过对这四个数据进行计算我们能够得到一系列指标用以衡量模型的分类效果

精确率(PPV - precision):TP/(TP+FP), 所有预测为正的样本中,预测正确的样本数量,将负类预测为正可能会带来损失,假设在银行贷款业务中,违约用户为正样本,不违约用户为负样本,若将一个不违约用户预测为违约用户,银行将损失一名好用户带来的收益。

召回率(TPR - recall):TP/(TP+FN),所有正样本中,预测正确的样本数量。召回率强调找的全,在预测地震时,若有地震却没有被预测出来,可能会造成很大的公共安全事故。

准确率(ACC - accuracy):(TP+TN)/(TP+TN+FP+FN),分类模型所有判断正确的结果占总样本的比例,强调模型的分类结果是否正确

特异度(TNR - specificity):TN/(TN+FP),在所有的负样本中,模型预测为负的样本数量。

约登指数(Youden Index)TPR+TNR-1,约登指数和召回率及特异度相关,也称为正确指数,反应了相对于负样本组,正样本组被判定为“正”结果的可能性大小,从而体现模型筛查正样本与负样本的总能力,结果在0-1之间。

F score在实际建模中,很少有模型会将单一的精确率或召回率作为评估指标,而是使用两者的调和值。银行若仅看重模型的精确率,只给收入学历很低、工作没有保障的少量用户分类为正(违约用户),认为他们将无力偿还贷款,那么精确率会较高但会带来其他的问题,比如其他无力偿还贷款的人不被判定为违约者,而给他们发放贷款,造成资金无法收回,坏账率提高。因此综合考虑不同的指标,才能更符合业务工作场景。

以下是F score的计算公式其中会影响两者的权重,大于1时侧重于召回率,小于1时侧重于精确率。



F1 score: F score称为 F1 score,这时精确率和召回率权重相等希望在尽可能提高精确率和召回率的同时两者的差异尽量小F1 score取值范围是0-1,若取值接近1,这说明模型的输出效果好,取值接近0,则说明输出效果差。

F1对于那些具有相近精确率和召回率的分类器更加有利,但是这并不一定符合我们的需求,因为在不同的背景下,我们对精确率和召回率的关注度不同。

2、计算举例

在二

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

<p> 为什么要学习本专刊 (1)数据分析面试日益激烈,招聘门槛提高,对业务、技术的综合考察难度上升; (2)网上对数据分析面试题型的整理与解析质量参差不齐,缺少框架清晰、内容全面的学习资料; (3)直击数据分析面试热点问题; </p>

全部评论

相关推荐

joe2333:怀念以前大家拿华为当保底的日子
点赞 评论 收藏
分享
点赞 1 评论
分享
牛客网
牛客企业服务