PartitionBy


PartitionBy()操作对输入数据集按照key进行分区.。

  • keys: (必需提供) STRING格式。 标识主键对象的表达式,多表达式以逗号分隔。
  • partitions: (非必需) INT格式。分布式分区的数量(如果需要重新分布)。默认值为0(保持现有的数据分布)。
  • partitioner: (非必需) STRING格式。分区实现对象的class。默认值为'HashPartitioner'。