TumblingWindow


TumblingWindow()操作对输入数据集里每个非重复窗口进行间隔计算。 支持的窗口函数包括 wfirst、wlast、wsum、wmax、wmin、wavg、wcount、wsize、wsumif、和wcountif。Tumbling窗口与Pattern窗口很像,但是Pattern窗口会过滤掉所有无至少一行数据满足inclusion条件的窗口,而Tumbling窗口不会。

  • inclusion: (必需提供) STRING格式。 标识非重复窗口的表达式,每一行数据对现有窗口解析,如果结果为FALSE则开始一个新的窗口。
  • selects: (必需提供) STRING格式。计算的表达式, 例: wsum('field2'), wmax('field3'), wlast('field4', 1)...,多列以逗号分隔。
  • validity: (非必需) STRING格式。检查窗口是否有效的Boolean表达式。TRUE为有效,默认值为空(所有窗口都有效)。
  • reclaims: (非必需) BOOLEAN格式。是否将上个有效窗口的末值带入下一个窗口的解析。默认值为FALSE。
  • endpoint: (非必需) BOOLEAN格式。是否将结束窗口的非合法值带入窗口计算。默认值为FALSE。
  • keys: (非必需) STRING格式。 标识key对象的表达式,多列以逗号分隔。
  • sorts: (非必需) STRING格式。标识数据序列里用以排序的表达式。
  • partitions: (非必需) INT格式。 分布式分区的数量(如果需要重新分布)。默认值为0(保持现有的数据分布)。