PartitionGroupBy


PartitionGroupBy()操作对输入数据集里每个Partition分区进行快速统计,前提是每个分区已经按照Key排好。对于一些已经准备好的数据,这样可以更快统计。通常这个操作后还会跟着一个GroupBy操作。统计函数支持sum、avg、max、min、count、sumif、和countif。

  • key: (必需提供) STRING格式。 标识主键的表达式,多表达式以逗号分隔。
  • selects: (必需提供) STRING格式。聚合表达式(例: sum(field2), max(field3), count() ...), 多表达式以逗号分隔。