DedupBy


DedupBy()操作对输入数据集通过移动窗口过滤掉重复的记录。

  • dedups: (必需提供) STRING格式。按逻辑过滤列里重复出现的值,多表达式以逗号分隔。
  • keys: (非必需) STRING格式。 标识KEY对象的表达式,多列以逗号分隔。
  • sort: (非必需) STRING格式。标识数据序列里用以排序的表达式。
  • partitionized: (非必需) BOOLEAN格式。过滤是否在每个分区内各自做。默认值为FALSE。
  • dedup_type: (非必需) STRING格式。过滤的类别。支持的类别包括'size'和'interval'。 默认值为'size'。
  • window_size: (非必需) LONG格式。最大移动窗口行数, 仅限于过滤类别为'size'的时候。默认值为10。
  • window_interval: (非必需) LONG格式。时间段为秒值,仅限于过滤类别为'interval'的时候。默认值为60000.