工作配置


sparkjob.configuration

sparkjob.configuration 是最重要也最复杂的参数. 它为JSON格式,而且需要被HTML escape,里面定义了工作的全部定义和执行步骤顺序。

  • 它支持3种配置:
    • 工作相关参数: 这些以sparkjob.起头
    • 链接库参数: 这些以connector.id起头
    • 定制参数: 这些可以任意配,只要用到它们的链接库或操作懂怎么用就行
  • 注: 操作参数以函数格式传。

sparkjob.configuration例子

BASH

curl -X POST -d 'sparkjobconfiguration="{"connector.hdfsin.input.path":"hdfs://master:9000/user/root/upload/apachelog.txt","connector.hdfsin.parser.class":"TextApacheAccessLogParser","sparkjob.input.connectors":"com.exceeddata.ac.connector.hdfs.HDFSInputConnector","sparkjob.reserve.operations":"Reserve?output=c1"}"' 'api.exceeddata.com/analytics/v1/job?context=mycontext&sync=true'

JSON

{
  "connector.hdfsin.input.path" : "hdfs://master:9000/user/root/upload/apachelog.txt",
  "connector.hdfsin.parser.class" : "TextApacheAccessLogParser",
  "sparkjob.input.connectors" : "com.exceeddata.ac.connector.hdfs.HDFSInputConnector?id=hdfsin,output=c1",
  "sparkjob.reserve.operations" : "Reserve?input=c1,output=r1"
}