决策树适用性的扩展探讨
19.3.5 决策树适用性的扩展探讨阅读准备决策树要从理论迈向实际应用,必须克服以下四类扩展难题。这里整理了相应的解决思路以供参考。在真实数据集中,属性值缺失的情况极为常见,决策树主要在训练分裂与样本预测这两个环节进行处理:训练阶段如何确定分裂属性加权缩减法(C4.5 策略):在计算信息增益时,仅利用该属性无缺失值的样本。随后依据无缺失样本的比例,对信息增益进行折扣处理,从而减少了“因样本数量减少而意外获得高信息量”的可能性。替代分裂(CART 策略):为每个节点搜寻多个“替代分裂点”,这些点与主分裂点的