NaiveBayes


NaiveBayes()操作对输入的数据集做贝尔斯算法训练, 并计算分类的预测结果。

  • outcome: (必需提供) STRING格式。结果变量的表达式或列定义。
  • mode: (非必需) STRING格式。执行模式,支持的值为train(训练模型)、predict(预测)、measure(衡量模型),默认值为train。
  • features: (非必需) STRING格式。特征变量的表达式或列定义,多列以逗号分隔。默认值为空值(所有为非结果变量的列)。
  • vectorized: (非必需) BOOLEAN格式。 是否特征变量已经预处理成Vector。当值为TRUE的时候,特征变量的表达式只接受vector数据类型。默认值为FALSE。
  • independents: (非必需) INT格式。 最独立维数。可在维度多时配置,默认值为0(所有维度,不选择最独立维度/降维)。
  • principals: (非必需) INT格式。 降至的维数,可在维度多时配置,默认值为0(所有维度,不降维)。
  • lambda: (非必需) DOUBLE格式。 过拟合因子。 默认值为1.0。
  • model: (非必需) STRING格式。 模型类别。 支持的值为'multinomial'和'bernoulli'。 默认值为'multinomial'。
  • training: (非必需) DOUBLE格式从原始数据集里划分训练数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据)。
  • testing: (非必需) DOUBLE格式。 从原始数据集里划分测试数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据),但如果训练的比例不等于1.0的话,默认值为1.0减去训练的比例。
  • caching: (非必需) STRING格式。 中间结果的缓存机制。 默认值为 'memory'(内存)。
  • prediction_name: (非必需) STRING格式。 新增加的预测值的列名。 默认值为 'prediction'。
  • probability_name: (非必需) STRING格式。 新增加的预测概率的列名。 默认值为 'probability'。