程序员学长

2022-10-10 18:30 北方工业大学大数据开发工程师发布于北京

关注

训练模型时，遇到不平衡的数据怎么办？

大家好，我是小寒。

原文链接

你是否曾经遇到过这样的问题：你的数据集中的正类样本非常小，以至于模型无法学习？

「在这种情况下，仅通过预测多数类就可以获得相当高的准确度，但无法捕获少数类。」

这样的数据集很常见，被称为「不平衡数据集。」

不平衡数据集是分类问题的一种特殊情况，其中类之间分布不均匀。通常，它们由两个类组成：多数（负）类和少数（正）类。

在不同的领域都会有这样的数据集，例如：

「金融」：欺诈检测数据集的欺诈率通常约为 1%-2%
「广告服务」
「运输」/「航空公司」：飞机发生故障的概率也非常低。
「医疗」：患者是否患有癌症的概率很低。

那么我们如何解决这些问题呢？

1、随机欠采样和过采样

处理高度不平衡的数据集的一种被广泛采用的方法是重采样。它包括从多数类中删除样本（欠采样）和从少数类中添加更多样本（过采样）。

让我们首先创建一个不平衡的数据集。

from sklearn.datasets import make_classification
X, y = make_classification(
    n_classes=2, class_sep=1.5, weights=[0.9, 0.1],
    n_informative=3, n_redundant=1, flip_y=0,
    n_features=20, n_clusters_per_class=1,
    n_samples=100, random_state=10
)
X = pd.DataFrame(X)
X['target'] = y

我们现在可以使用以下方法进行随机过采样和欠采样：

num_0 = len(X[X['target']==0])
num_1 = len(X[X['target']==1]) print(num_0,num_1) #random undersample undersampled_data = pd.concat([X[X['target']==0].sample(num_1),X[X['target']==1]]) print(len(undersampled_data)) # random oversample oversampled_data = pd.concat([X[X['target']==0],X[X['target']==1].sample(num_0,replace=True)]) print(len(oversampled_data))

2、使用 imblearn 进行欠采样和过采样

imblearn 是 python 的一个包，用于解决不平衡的数据集。它提供了多种欠采样和过采样的方法。

a、使用 Tomek Links 进行欠采样

它提供的其中一种方法称为 Tomek Links，Tomek Links 是邻近的两个相反类的例子。

在这个算法中，我们最终从 Tomek Links 中删除了多数类别的元素，这为分类器提供了一个更好的决策边界。

「原理：如果有两个不同类别的样本，它们的最近邻都是对方，也就是A的最近邻是B，B的最近邻是A，那么A,B就是Tomek link。我们要做的就是将所有 Tomek link 都删除掉。那么一个删除 Tomek link 的方法就是，将组成 Tomek link 的两个样本，如果有一个属于多数类样本，就将该多数类样本删除掉。」

from imblearn.under_sampling import TomekLinks
tl = TomekLinks(return_indices=True, ratio='majority')
X_tl, y_tl, id_tl = tl.fit_sample(X, y)

b. 使用 SMOTE 进行过采样。

在 SMOTE（Synthetic Minority Oversampling Technique）中，我们在现有元素附近为少数类合成元素。

from imblearn.under_sampling import TomekLinks
tl = TomekLinks(return_indices=True, ratio='majority')
X_tl, y_tl, id_tl = tl.fit_sample(X, y)

imblearn 包中还有多种其他方法可用于欠采样（Cluster Centroids、NearMiss 等）和过采样（ADASYN 和 bSMOTE），你可以查看它们。

3、模型中的 class_weights

大多数机器学习模型都提供了一个名为 class_weights 参数。例如，在随机森林分类器中，我们可以使用字典为少数类指定更高的权重。

from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(class_weight={0:1,1:10})

我们来看一下它背后的细节。

在逻辑回归中，我们使用「交叉熵」计算每个样本的损失：

Loss = −ylog(p) − (1−y)log(1−p)

「在这种特殊形式中，我们对正类和负类赋予相同的权重。」

当我们将 class_weight 设置为class_weight = {0:1,1:20}时，后台的分类器会尝试最小化：

NewLoss = −20*ylog(p) − 1*(1−y)log(1−p)

「那么这里到底发生了什么？」

如果我们的模型给出的概率为 0.3，并且我们对正样本进行了错误分类，则 NewLoss 的值为 -20 log(0.3) = 10.45
如果我们的模型给出的概率为 0.7，并且我们错误分类了一个负例，则 NewLoss 的值是 -log(0.3) = 0.52

这意味着，在这种情况下，当模型错误地分类了一个少数正样本时，我们对模型的惩罚要高出大约 20 倍。

「我们如何计算 class_weights？」

没有一种方法可以做到这一点，这应该构建为「针对你的特定问题的超参数搜索问题。」

但是，如果你想使用 y 变量的分布来获取 class_weights，你可以使用 sklearn 来实现。

from sklearn.utils.class_weight import compute_class_weight
class_weights = compute_class_weight('balanced', np.unique(y), y)

4、改变你的评估指标

每当我们处理不平衡的数据集时，选择正确的评估指标非常重要。通常，在这种情况下，F1-Score 是我想要的「评估指标」

「那么它有什么帮助呢？」

让我们从一个二元预测问题开始。 「我们正在预测小行星是否会撞击地球。」

因此，我们创建了一个模型，「将整个数据集都预测为 “否”。」

「准确度是多少（通常是最常用的评估指标）？」

超过 99%，所以从准确率上看，这个模型还不错，但一文不值。

「现在，F1 score 是多少？」

正类的召回率是多少？它为零。因此 F1 分数也是 0。

简单来说， 「F1 score 在分类器的精度和召回率之间保持平衡」。

你可以使用以下方法计算二元预测问题的 F1 score：

from sklearn.metrics import f1_score
y_true = [0, 1, 1, 0, 1, 1]
y_pred = [0, 0, 1, 0, 0, 1]
f1_score(y_true, y_pred)

5、其它

根据你的用例和你要解决的问题，其他各种方法可能会起作用：

a、收集更多数据

如果可以的话，这是你应该尝试的明确的事情。使用更多正面示例，获取更多数据将有助于你的模型从多数和少数类别的角度获得更多样化的视角。

b、将问题视为异常检测

你可能希望将分类问题视为异常检测问题。

「异常检测」 是通过与大多数数据显著不同而引起怀疑的稀有项目、事件或观察结果的识别。

c、基于模型

有些模型特别适合不平衡的数据集。

例如，在提升模型中，我们给在每次树迭代中被错误分类的案例赋予更多的权重。

#机器学习##深度学习##数据分析#

全部评论

推荐最新楼层

牛客1058号

南京理工大学电气工程师

学习是一种快乐

点赞回复分享

发布于 2022-10-11 17:47 河南

03-31 17:43

蔚来_车端算法构架师(准入职员工)

蔚来汽车内推蔚来汽车内推

真实工作体验：职业生涯最黄金的3年成长期，我和蔚来都经历了新能源汽车行业从野蛮生长到精益数字化转型的过程，让我有机会在一个创业团队可以把之前学到的成熟方法论进行实践和落地，让我有机会可以从0-1搭建项目流程并不断进行过程改进，让我可以从一个“辅助型”项目经理，成长为“影响型”和“主导型”项目经理。说说日常工作1️⃣真的很人性化，蔚来企业文化里倡导关爱会让你感到很温暖，生活中的小事领导也会很理解和关心，让我一开始都有些不好意思。 2️⃣工作和生活的界限还是比较分明的，这半年来周末加班真的不多，飞书里非必要不会有消息打扰，所以真的是很惊喜。 🌟总而言之，在蔚来收获了很棒的工作体验，内心是...

蔚来公司氛围 229人发布

点赞评论收藏

04-02 12:34

北京理工大学机械结构工程师

这样做，暑期实习转正几率UP!UP!

我去去年的时候，第一段实习也是想暑期实习转正的，但我们当时组里的名额不多，mt也不告诉你，怕你提前跑路，临时招人是非常难得，所以他们会一直拖着你，也不会告诉你有没有转正机会，如果你实习了3个月左右就可以去问你的MT有没有转正名额了，如果有那就是不一定，或者留用的目标人选不是你，HC并不多你不是最优的选择，把你当备胎，MT支支吾吾的说不清，那就是没有，别听他说的任何话，特定没有HC的！抓紧走人就可以了！好了说完如何判断有没有HC，接下来说说，怎么做才能提升留存率，虽然实习都是打杂，那我们也要打杂打出花来！实习期最忌讳的是拿多少钱办多少事，我们主要还是去学历哒，尽可能的多学东西，就算是打杂也要学会...

野猪不是猪🐗：这样做，暑期实习转正几率Down！Down! 1. 善于主动制造问题 2. 错误犯他个三五遍 3. 事先把问题想一半 4. 永远比要求的少做一点 5. 把打杂打成打灰

实习期间如何提升留用概率？

点赞评论收藏

03-18 19:45

已编辑

黑龙江科技大学 Java

简历

春招双非Java还有救吗，早知当时，现在还要回来😭😭😭#简历被挂麻了，求建议# #投了多少份简历才上岸#

程序员小白条：这个简历，难的一批，加油吧

简历被挂麻了，求建议投了多少份简历才上岸

点赞评论收藏

04-02 14:40

浙江大学设计

实在是忍不了了！窝囊实习生直接怼

无语😓 就喜欢找我茬，研究生怎么了 研究生就是天才吗 就得所有报告文件都会，最烦做表

我推的MK：是这样的，那些领导就是自己什么都不懂就把所有东西扔给你，指望白嫖你的劳动力，如果你的表现不如预期就启动攻击学历模式，这都学不会是怎么考上浙大的

职场破防瞬间

点赞评论收藏

招聘动态

26届实习软件笔试必刷题单

26届实习生双选会报名开启

满帮集团

2025春季校园招聘

26届实习求职交流群

贝壳找房

2026届实习生招聘

招商银行信用卡

全站热榜

创作者周榜

正在热议