LinearRegression


LinearRegression()操作对输入的数据集做线性回归算法训练, 并计算回归的预测结果。

  • outcome: (必需提供) STRING格式。 结果变量的表达式或列定义。
  • mode: (非必需) STRING格式。执行模式,支持的值为train(训练模型)、predict(预测)、measure(衡量模型),默认值为train。
  • features: (非必需) STRING格式。 特征变量的表达式或列定义,多列以逗号分隔。默认值为空值(所有为数字变量而且非结果变量的列)。
  • vectorized: (非必需) BOOLEAN格式。 是否特征变量已经预处理成Vector。当值为TRUE的时候,特征变量的表达式只接受vector数据类型。默认值为FALSE。
  • independents: (非必需) INT格式。 最独立维数。可在维度多时配置,默认值为0(所有维度,不选择最独立维度/降维)。
  • principals: (非必需) INT格式。 降至的维数,可在维度多时配置,默认值为0(所有维度,不降维)。
  • iterations: (非必需) INT格式。 迭代的次数。 默认值为10。
  • step: (非必需) DOUBLE格式。 梯度递减的步大小。 默认值为0.000000001。
  • fraction: (非必需) DOUBLE格式。 每一次epoch中小批的平均损失函数值。 支持的值从0.0到1.0。 默认值为1.0。
  • weights: (非必需) STRING格式。 因子变量的DOUBLE权重。多权重以逗号分隔'。默认值为空值。
  • training: (非必需) DOUBLE格式。 从原始数据集里划分训练数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据)。
  • testing: (非必需) DOUBLE格式。 从原始数据集里划分测试数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据),但如果训练的比例不等于1.0的话,默认值为1.0减去训练的比例。
  • topk: (非必需) INT格式。 返回模型里前K权重的值。 默认值为0(所有值)。
  • caching: (非必需) STRING格式。 中间结果的缓存机制。 默认值为 'memory'(内存)。
  • prediction_name: (非必需) STRING格式。 新增加的预测值的列名。 默认值为 'prediction'。