Word2Vec


Word2Vec()操作对输入的数据集里的文本词变量转换为Word2Vec vector。

  • list: (必需提供) STRING格式。词变量的表达式。
  • mode: (非必需) STRING格式。执行模式,支持的值为train(训练模型)、predict(预测)、measure(衡量模型),默认值为train。
  • count: (非必需) INT格式。词最低出现次数,如低于此值则不包括在分析范围内。
  • iterations: (非必需) INT格式。词分析迭代的次数。默认值为1。
  • learning (非必需) DOUBLE格式。分析的学习速度。默认值为0.025。
  • max_size: (非必需) INT格式。词分析的矢量数量。默认值为100。
  • seed: (非必需) LONG格式。分析的随机种子。默认值为52489。
  • training: (非必需) DOUBLE格式从原始数据集里划分训练数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据)。
  • testing: (非必需) DOUBLE格式。 从原始数据集里划分测试数据的比例。 支持的比例在0.0(不包括)到1.0(包括)之间。 默认值为1.0(所有数据),但如果训练的比例不等于1.0的话,默认值为1.0减去训练的比例。
  • caching: (非必需) STRING格式。 中间结果的缓存机制。 默认值为 'memory'(内存)。
  • vector_name: (非必需) STRING格式。新增加词转Vector的列名。默认值为'vector'。