1. 熵(Entropy)
- 定义:熵是信息理论中的一个基本概念,用来衡量一个随机变量的不确定性或纯度。在决策树中,熵用于度量数据集的混乱程度或纯度。
- 数学表达:对于一个有 n 个类别的离散随机变量 X,其熵 H(X)定义为:
其中,p(xi)是类别 xi出现的概率。熵的值越高,表示数据的混乱度越大;熵的值越低,表示数据的纯度越高。
- 直观理解:熵是对数据集不确定性的度量。当所有数据都属于同一类别时,熵为0(表示完全纯净);当数据均匀分布在所有类别时,熵达到最大值(表示完全混乱)。
- 定义:信息增益是用来衡量某个特征对数据集分类的效果的指标。它表示在使用该特征对数据集进行划分之后,熵减少的程度。
- 直观理解:信息增益反映了通过某个特征对数据进行划分能带来多少“纯度”的提升(即不确定性的减少)。特征的信息增益越大,表示这个特征越适合用来划分数据。
3. ID3算法
- 定义:ID3(Iterative Dichotomiser 3)算法是构建决策树的一个经典算法,使用信息增益作为选择分裂属性的标准。ID3 通过递归地选择信息增益最大的特征来划分数据,逐步构建决策树。
- 工作原理:
- 缺点:ID3 只能处理分类特征(离散属性),不支持连续特征的划分。此外,ID3 使用信息增益作为划分标准,容易偏向具有更多取值的特征(即产生过拟合)。
4. C4.5算法
- 定义:C4.5 是 ID3 的改进版本,解决了 ID3 的一些缺陷。C4.5 使用“增益率”(Gain Ratio)来替代信息增益作为划分标准,并能够处理连续属性、缺失值和剪枝等问题。
- 工作原理:
- 计算所有特征的增益率。
- 选择增益率最高的特征作为当前节点的划分特征。
- 针对连续属性,找到最优的划分点将其转化为离散问题。
- 递归构建子树,直到达到停止条件。
- 使用剪枝技术防止过拟合。
- 优点:C4.5 可以处理连续和离散数据,具有较强的泛化能力,不容易过拟合。C4.5 通过增益率避免了信息增益的偏向问题,并加入了剪枝过程,减少了决策树的复杂度。
总结和联系
- 熵:度量数据集的纯度或不确定性。
- 信息增益:用于决策树算法中,衡量使用某个特征划分数据集后,熵的减少程度。ID3算法基于信息增益选择划分属性。
- ID3算法:基于信息增益构建决策树,但容易偏向具有更多取值的特征。
- C4.5算法:改进了ID3算法,使用增益率来选择划分属性,能够处理连续属性,并引入了剪枝机制来防止过拟合。