TFIDF


TFIDF()操作对输入的文本数据取词或短语在一个词组里出现的频率和反向在多个文本组合出现的频率。是一种用于资讯检索与探勘的一种常用加权技术, TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

  • list: (Required) STRING格式。 分析的词组的表达式,词组数据类型为LIST格式。
  • mode: (非必需) STRING格式。执行模式,支持的值为train(训练模型)、predict(预测)、measure(衡量模型),默认值为train。
  • min_size: (Optional) INT格式。词的最低文字数量。默认值为 2。
  • min_frequency: (Optional) INT格式。词在文本组合里的最低出现频率。默认值为 2。
  • training: (非必需) DOUBLE格式从原始数据集里划分训练数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据)。
  • testing: (非必需) DOUBLE格式。 从原始数据集里划分测试数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据),但如果训练的比例不等于1.0的话,默认值为1.0减去训练的比例。
  • caching: (非必需) STRING格式。 中间结果的缓存机制。 默认值为 'memory'(内存)。
  • vector_name: (Optional) STRING格式。新增加的Vector值的列名。 默认值为 'vector'。