DecisionTree


DecisionTree()操作对输入的数据集做决策树算法训练, 并计算分类或回归的预测结果。

  • outcome: (必需提供) STRING格式。结果变量的表达式或列定义。
  • mode: (非必需) STRING格式。执行模式,支持的值为train(训练模型)、predict(预测)、measure(衡量模型),默认值为train。
  • features: (非必需) STRING格式。特征变量的表达式或列定义,多列以逗号分隔。 默认值为空值(所有不是结果变量的列)。
  • goal: (非必需) STRING格式。训练的目标。支持的目标为 'classification' 和 'regression'。默认值为'classification'。
  • independents: (非必需) INT格式。最独立维数。可在维度多时配置,默认值为0(所有维度,不选择最独立维度/降维)。
  • depth: (非必需) INT格式。树最大的深度值。默认值为3。
  • impurity: (非必需) STRING格式。分支时的不纯度衡量函数和信息增益方式。支持的方式包括 'gini', 'entropy' 和 'variance'。当训练目标为'classification' 时,默认值为'gini';当训练目标为'regression',默认值为'variance'。
  • bins: (非必需) INT格式。 特征最大数量。 默认值为10000。
  • memory: (非必需) INT格式。 最大内存使用量(MB)。 默认值为256。
  • training: (非必需) DOUBLE格式。 从原始数据集里划分训练数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据)。
  • testing: (非必需) DOUBLE格式。 从原始数据集里划分测试数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据),但如果训练的比例不等于1.0的话,默认值为1.0减去训练的比例。
  • caching: (非必需) STRING格式。 中间结果的缓存机制。 默认值为 'memory'(内存)。
  • prediction_name: (非必需) STRING格式。 新增加的预测值的列名。 默认值为 'prediction'。