XGBoost推导

文章目录

XGBoost推导

XGBoost推导

目标

目标：我们希望学习一个既准确又简单的模型来实现预测
因此目标函数可以定为：
$<munderover> \sum i = 1 n </munderover> l (y_{i}, {<mover accent="true">}_{y^</mover> i}) + <munder> \sum k </munder> Ω (f_{k}), f_{k} \in F$
由于我们使用的是树模型,而不是权重向量，因此无法使用SGD算法来找到函数 $f$ 。但是可以使用Additive Training（Boosting）加性训练的方式来找到函数 $f$ .

Additive Training(Boosting)

从一个常数预测开始，每一轮训练增加一个新的函数
$\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> {<mover accent="true">}_{y}^{^} = 0 </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> {<mover accent="true">}_{y}^{^} = f_{1} (x_{i}) = {<mover accent="true">}_{y}^{^} + f_{1} (x_{i}) </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> {<mover accent="true">}_{y}^{^} = f_{1} (x_{i}) + f_{2} (x_{i}) = {<mover accent="true">}_{y}^{^} + f_{2} (x_{i}) </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> {<mover accent="true">}_{y}^{^} = \sum_{k = 1}^{t} f_{k} (x_{i}) = {<mover accent="true">}_{y}^{^} + f_{t} (x_{i}) </mstyle> \end{matrix}$

如何决定新加入的函数

由目标函数决定！
在第 $t$ 轮训练中， ${<mover accent="true">}_{y}^{^} = {<mover accent="true">}_{y}^{^} + f_{t} (x_{i})$
因此目标函数可写成：
$\begin{matrix} <mstyle displaystyle="true" scriptlevel="0"> O b j^{(t)} </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum i = 1 n </munderover> l (y_{i}, {<mover accent="true">}_{y}^{^}) + <munderover> \sum i = 1 t </munderover> Ω (f_{i}) </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum i = 1 n </munderover> l (y_{i}, {<mover accent="true">}_{y}^{^} + f_{t} (x_{i})) + Ω (f_{t}) + <mtext> constant </mtext> </mstyle> \end{matrix}$

由于前 $t - 1$ 轮的模型已确定，因此其复杂度是确定，所以 $\sum_{t = 1}^{t - 1} Ω (f_{t}) = c o n s t a n t$

将目标函数泰勒展开

泰勒展开式
一维：
$f (x + Δ x) ≃ f (x) + f^{'} (x) Δ x + \frac{1}{2} f^{''} (x) Δ x^{2}$
二维：
$f (x, y + Δ y) ≃ f (x, y) + \frac{\partial f (x, y)}{\partial y} Δ y + \frac{1}{2} \frac{\partial^{2} f (x, y)}{\partial y^{2}} Δ y^{2}$

记 $g_{i} = \partial_{{<mover accent="true">}^{y^</mover> (t - 1)}} l (y_{i}, {<mover accent="true">}^{y^</mover> (t - 1)}), h_{i} = \partial_{{<mover accent="true">}^{y^</mover> (t - 1)}}^{2} l (y_{i}, {<mover accent="true">}^{y^</mover> (t - 1)})$ ,目标函数为:
$O b j^{(t)} ≃ <munderover> \sum i = 1 n </munderover> [l (y_{i}, {<mover accent="true">}_{y}^{^}) + g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t}) + c o n s t a n t$

移除常数项后，目标函数为：
$<munderover> \sum i = 1 n </munderover> [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t})$

定义树的复杂度

将样本到叶子节点分数的映射关系表示成：
$f_{t} (x) = w_{q (x)} q (x) \in 1, 2, . . ., T$

$w$ 是叶子节点的权重, $T$ 为叶子节点总个数

定义树的复杂度为:
$Ω (f_{t}) = γ T + \frac{1}{2} λ <munderover> \sum j = 1 T </munderover> w_{j}^{2}$

目标函数求解

现按照样本所属的叶子节点划分样本子集， $I_{j} = {i ∣ q (x_{i}) = j}$ ,属于同一个叶子节点的归为一类，共有 $T$ 类。

$\begin{matrix} <mstyle displaystyle="true" scriptlevel="0"> O b j^{(t)} </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> ≃ <munderover> \sum i = 1 n </munderover> [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t}) </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum i = 1 n </munderover> [g_{i} w_{q (x_{i})} + \frac{1}{2} h_{i} w_{q (x_{i})}^{2}] + γ T + λ \frac{1}{2} <munderover> \sum j = 1 T </munderover> w_{j}^{2} </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum j = 1 T </munderover> [(<munder> \sum i \in I_{j} </munder> g_{i}) w_{j} + \frac{1}{2} (<munder> \sum i \in I_{j} </munder> h_{i} + λ) w_{j}^{2}] + γ T </mstyle> \end{matrix}$

记 $G_{j} = \sum_{i \in I_{j}} g_{i}, H_{j} = \sum_{i \in I_{j}} h_{i}$

则目标函数简化成
$\begin{matrix} <mstyle displaystyle="true" scriptlevel="0"> O b j^{(t)} </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum j = 1 T </munderover> [(<munder> \sum i \in I_{j} </munder> g_{i}) w_{j} + \frac{1}{2} (<munder> \sum i \in I_{j} </munder> h_{i} + λ) w_{j}^{2}] + γ T </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum j = 1 T </munderover> [G_{j} w_{j} + \frac{1}{2} (H_{j} + λ) w_{j}^{2}] + γ T </mstyle> \end{matrix}$

对 $w_{j}$ 来说是一个一元二次函数，当
$w_{j}^{*} = - \frac{G_{j}}{2 \times \frac{1}{2} (H_{j} + λ)} = \frac{G_{j}}{H_{j} + λ}$
目标函数取得最小值：
$\begin{matrix} <mstyle displaystyle="true" scriptlevel="0"> O b j^{(t)} </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum j = 1 T </munderover> [- \frac{G_{j}^{2}}{4 \cdot \frac{1}{2} (H_{j} + λ)}] + γ T </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = - \frac{1}{2} <munderover> \sum j = 1 T </munderover> \frac{G_{j}^{2}}{H_{j} + λ} + γ T </mstyle> \end{matrix}$

树的生成

从根结点（所有数据在同一个结点中），深度为0开始
对每一个叶子结点，尝试将其分裂成两个叶子结点，分裂后目标函数值的变化如下：
$G a i n = \frac{1}{2} [\frac{G_{L}^{2}}{H_{L} + λ} + \frac{G_{R}^{2}}{H_{R} + λ} - \frac{{(G_{L} + G_{R})}^{2}}{H_{L} + H_{R} + λ}] - γ$
一直分裂直至不满足分裂条件为止

如何找到最优分裂特征

对每一个特征，将其特征值排序
尝试使用每一个特征值进行划分
选出所有特征所有特征值中增益最大的作为分类依据

剪枝和正则

增益不能为负。训练损失和树的复杂度得到平衡
$G a i n = \frac{G_{L}^{2}}{H_{L} + λ} + \frac{G_{R}^{2}}{H_{R} + λ} - \frac{{(G_{L} + G_{R})}^{2}}{H_{L} + H_{R} + λ} - γ$
提前停止。当最优分裂的增益值为负时，停止生长。（但可能这一次分裂有利于后续分裂）
设定最大深度，修剪所有增益为负的叶子结点

XGBoost算法步骤

在每一轮中，新建一棵空树 $f_{t} (x)$
计算每个叶子节点中每个样本的一阶梯度和二阶梯度值
$g_{i} = \partial_{{<mover accent="true">}^{y^</mover> (t - 1)}} l (y_{i}, {<mover accent="true">}^{y^</mover> (t - 1)}), h_{i} = \partial_{{<mover accent="true">}^{y^</mover> (t - 1)}}^{2} l (y_{i}, {<mover accent="true">}^{y^</mover> (t - 1)})$
计算不同特征不同特征值作为分裂依据时的增益
$G a i n = \frac{G_{L}^{2}}{H_{L} + λ} + \frac{G_{R}^{2}}{H_{R} + λ} - \frac{{(G_{L} + G_{R})}^{2}}{H_{L} + H_{R} + λ} - γ$
不断地生长树，直至不满足分裂条件
将这一轮的树 $f_{t} (x)$ 添加到模型中
$y^{(t)} = y^{(t - 1)} + ϵ f_{t} (x_{i})$