CrossJoin


CrossJoin()操作将输入的两个数据集交叉关联(N x M倍数据量)在一起。 CrossJoin与Cartesian得到的结果相同,但实现机制不同。CrossJoin不重新分布数据,而是将其中数据量较小的一个数据集分批次分发到每个计算单元上进行交叉关联 。它避免了重新分布数据的计算成本,但是如果两个数据集都不小则整体速度反而会慢;所以它适用在一个数据集的数据量较小(尤其是N x 1倍)的场景,如信号数据(量大)和全局统计结果(量小)的交叉关联。

  • batch: (非必需) INT格式。每批分布处理的行数。这是个性能优化参数。 默认值为80000。