Kmeans


Kmeans()操作对输入的数据集做KMeans算法训练, 并计算聚类的预测结果。

  • clusters: (必需提供) INT格式。聚类的数量。
  • mode: (非必需) STRING格式。执行模式,支持的值为train(训练模型)、predict(预测)、measure(衡量模型),默认值为train。
  • features: (非必需) STRING格式。特征变量的表达式或列定义,多列以逗号分隔。非数据类型的列会自动被去掉。默认值为空值(所有数据类型的列)。
  • vectorized: (非必需) BOOLEAN格式。 是否特征变量已经预处理成Vector。当值为TRUE的时候,特征变量的表达式只接受vector数据类型。默认值为FALSE。
  • principals: (非必需) INT格式。 降至的维数,可在维度多时配置,默认值为0(所有维度,不降维)。
  • iterations: (非必需) INT格式。 迭代的次数。 默认值为100。
  • runs: (非必需) INT格式。 中心点调整执行的次数。 默认值为1。
  • initialization: (非必需) STRING格式。初始化中心点的算法。支持的算法包括 'random' 和 'kmeans||'. 默认值为 'kmeans||'。
  • threshold: (非必需) DOUBLE格式。中心点视为稳定的距离阈值。默认值为1e-4。
  • training: (非必需) DOUBLE格式。 从原始数据集里划分训练数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据)。
  • testing: (非必需) DOUBLE格式。 从原始数据集里划分测试数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据),但如果训练的比例不等于1.0的话,默认值为1.0减去训练的比例。
  • caching: (非必需) STRING格式。 中间结果的缓存机制。 默认值为 'memory'(内存)。
  • cluster_name (非必需) STRING格式。 新增加的预测聚类的列名。默认值为'cluster'。 Default is 'cluster'。