ReduceJoin


ReduceJoin()操作将输入的两个数据集按照相等的主键关联在一起。 ReduceJoin 与 MapJoin得到的结果相同,但实现机制不同。ReduceJoin按照主键分布数据, 它适用在两个数据集都较大数据量的场景 。

  • selects: (必需提供) STRING格式。表达式,多表达式以逗号分隔,重复列名以left.和right.区分。例:'left.field_name as target1', 'right.field_name as target_2' 。
  • left: (必需提供) STRING格式。 联接左侧的表达式,多表达式以逗号分隔。
  • right: (必需提供) STRING格式。联接右侧的表达式,多表达式以逗号分隔。
  • type: (非必需) STRING格式。联接的方法。支持的方法包括'inner', 'left', 'right', 和'full'. 默认值为 'inner'。
  • partitions: (非必需) INT格式。 分布式分区的数量(如果需要重新分布)。默认值为0(保持现有的数据分布)。