spark_决策树-相亲决策案例
简介
决策树算法:
选择当前信息增益最大的特征作为树的节点,依次选择相应的特征作为树的节点,直到形成一颗决策树。
1 | # 相亲数据 |
流程
1 | # 构建环境 |
提示:
[trainSet, testSet] = df.randomSplit(weights=[0.8,0.2])
这段代码的意思,并不是严格按照4:1的比例划分数据集为训练集和测试集,而是 It only guarantees that each object has this probability (0.8,0.2) to be assigned to a specific subset.它只保证每个对象被分配到特定子集的概率为0.8和0.2。
If number of records is low you’ll see fluctuations like here. This is normal behavior.如果记录的数量很低,你会看到像这里这样的波动。这是正常行为。
1 | # coding:utf8 |
1 | # output |