CART回归树原理
- 回归树将特征值大于切分点值的数据划分为左子树。
- 回归树将特征值小于等于切分点值的数据划分为右子树。
如何寻找切分点值,最优切分点
- 切分指标:平方误差
分别是划分样本中回归目标的均值。
CART回归树例子
面积/平米 | 价格/万 |
---|---|
20 | 40.1 |
21 | 40.3 |
35 | 70.4 |
36 | 70.2 |
按照面积=20切分, 均值是 (40.3 + 70.4 + 70) / 3 = 60.3, $y_2$均值是40.1
按照面积=21切分, $y_1$均值是(70.4 + 70.2) / 2 = 70.3, 均值是 (40.1 + 40.3) / 2 = 40.2
按照面积=35, $y_1$均值是70.2, 均值是 (40.1 + 40.3 + 70.4) / 3 = 50.27
由此可见面积=21是当前最优切分。
- 切分结果
面积/平米 | 价格/万 |
---|---|
20 | 40.1 |
21 | 40.3 |
- | - |
35 | 70.4 |
36 | 70.2 |
面积>21: 面积>35: 价格=70.2, 面积<=32: 价格=70.4
面积<=21: 面积>20: 价格=40.1,面积<=20: 价格=40.3
参考
[1]. 机器学习系列之手把手教你实现一个分类回归树
[2]. 残差预测