Coalesce


Coalesce()操作降输入数据集的分区数量 。它和Repartition()的区别是它只能降分区数量,从而避免所有数据的重新分布的计算成本;而Repartition()可以选择任意分区数量,增或降,但是会有重新分布数据的计算成本。

  • partitions: (必需提供) INT. 分布式分区的数量。
  • shuffle: (非必需) BOOLEAN格式。 是否重新分布数据。默认值为FALSE。