KNN


KNN()操作对输入的数据集做K近邻算法训练, 并计算分类或回归的预测结果。

  • outcome: (必需提供) STRING格式。结果变量的表达式或列定义。
  • mode: (非必需) STRING格式。执行模式,支持值为train(训练模型)、predict(预测)、measure(衡量模型),默认值为train。
  • features: (非必需) STRING格式。特征变量的表达式或列定义,多列以逗号分隔。 默认值为空值(所有不是结果变量的列)。
  • weight: (非必需) STRING格式。权重变量的表达式。
  • goal: (非必需) STRING格式。训练的目标。支持的目标为 'classification' 和 'regression'。默认值为'regression'。
  • independents: (非必需) INT格式。最独立维数。可在维度多时配置,默认值为0(所有维度,不选择最独立维度/降维)。
  • principals: (非必需) INT格式。 降至的维数,可在维度多时配置,默认值为0(所有维度,不降维)。
  • k: (非必需) INT格式。最大邻居数量。默认值为5。
  • tree_size: (非必需) INT格式。最大顶级树大小。默认值为0(自动计算)。
  • top_leaf_size: (非必需) INT格式。最大顶级树分支数量。默认值为10。
  • sub_leaf_size: (非必需) INT格式。最大子树分支数量。默认值为30。
  • threshold: (非必需) DOUBLE格式。树的平衡阀值。默认值为0.7。
  • bins: (非必需) INT格式。 特征最大数量。 默认值为10000。
  • training: (非必需) DOUBLE格式。 从原始数据集里划分训练数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据)。
  • testing: (非必需) DOUBLE格式。 从原始数据集里划分测试数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据),但如果训练的比例不等于1.0的话,默认值为1.0减去训练的比例。
  • caching: (非必需) STRING格式。 中间结果的缓存机制。 默认值为 'memory'(内存)。
  • prediction_name: (非必需) STRING格式。 新增加的预测值的列名。 默认值为 'prediction'。