HDFSInputConnector


链接库路径为'com.exceeddata.ac.connector.hdfs.HDFSInputConnector'。 默认ID为'hdfsin'。 支持参数:

  • input_path: (必需提供) STRING格式。 读入文件或目录的路径,多路径以逗号分隔。
  • input_format: (非必需) STRING格式。 读入文件的格式。默认值为 'csv'。支持格式包括: ** asc: Vector公司的ASCII数采格式,较多第三方数采设备支持输出到此格式。 ** avro: Hadoop生态里的一种快速可压缩形式存储数据格式,主要面向数据密集型应用。 ** blf: Binary Log Format. 汽车行业里的标准Logger数采输出格式,主要来于Vector公司的数采设备。 ** csv: 计算机行业的标准关系性数据格式。 ** edf: ExceedData专业的高压缩数据格式,针对稀疏信号数据可以做到CSV格式70+倍的空间节省。比BLF和Parquet也有1-2倍的空间节省。 ** excel: 微软Office里的标准.xlsx或老版的.xls格式。 ** isaac: ISAAC Instrument Data. 加拿大ISAAC公司的货车数采设备输出的格式。 ** line: 将文本格式的数据以行为单位读入,主要用于非关系型文本数据。 ** ns.csv: 复杂的csv格式,如微软软件生成的CSV(数据头带有UTF编码签名)、数据内包括跨行数据的CSV、Zip后的CSV、Zip内包含多个CSV等。这类格式在处理上不能够用并行处理的方法。 ** ns.text: 复杂的text格式。这类格式在处理上不能够用并行处理的方法。 ** mdf: Measurement Data Format. 汽车行业里的标准测试数采输出格式,主要来于ETAS或Vector公司的测试设备。 ** parquet: Hadoop生态里的一种快速可压缩的列存储格式,主要面向高维数据应用。 ** text: text格式处理后的输出结果为非关系型dynamic schema数据。.txt格式与.csv格式在处理上的主要区别在对空值是否保留。稀疏数据建议用text格式。 ** trc: PCAN Trace. Peak System公司的数采设备输出的格式。 ** apache.combined: Apache服务器的Combined日志格式。 ** apache.common: Apache服务器的Common日志格式。 ** microsoft.iis: 微软IIS服务器的默认日志格式。 ** microsoft.w3c: 微软IIS服务器的W3C日志格式。
  • data_schema: (非必需) STRING格式。 数据的列名和类型定义,只限于非结构化数据源。
  • data_schema_file: (非必需) STRING格式。 数据定义文件的路径, 如avro文件的avsc定义。
  • data_containers: (非必需) STRING格式。 指定数据单元。有些数据格式如Excel(sheet)BLF等有子单元,多单元以逗号分隔。
  • data_transforms: (非必需) STRING格式。数据读入后,对数据内容进行操作的表达式。
  • transform_mode: (非必需) STRING格式。数据读入后,对数据内容进行操作的模式。支持值为'select','add',和 'delete'。默认值为'select'。
  • max_num_readers: (非必需) INT格式。 最大读入并发量。
  • field_separator: (非必需) STRING格式。 分隔数据列的符号(如果文件格式为text文本而且解析文件格式的实现是 'TextCSVParser')。默认值为 ','。
  • field_quoter: (非必需) STRING格式。 包含数据列的符号(如果文件格式为text文本而且解析文件格式的实现是 'TextCSVParser')。默认值为 '"'。
  • field_escaper: (非必需) STRING格式。 跳过特殊字体的符号(如果文件格式为text文本而且解析文件格式的实现是 'TextCSVParser')。默认值为 ''。
  • file_split_level: (非必需) STRING格式。 文件分割和并行读入的级别。支持的级别为'FILE' 和 'BLOCK'。当file_organized_data或input_header为TRUE时,值为'FILE'而且不可改,其余默认值为 'BLOCK'。
  • file_organized_data: (非必需) BOOLEAN格式。 文件是否为预分布排序好的。默认值为 FALSE。
  • file_name_splits: (非必需) STRING格式。 文件并行处理的分布机制,只有当file_organized_data为TRUE时这个参数才生效。
  • file_name_element: (非必需) STRING格式。如果此参数值不为空,则将以此参数值为名将文件名加为数据里的一列。
  • file_folder_element: (非必需) STRING格式。如果此参数值不为空,则将以此参数值为名将文件目录路径加为数据里的一列。
  • input_header: (非必需) BOOLEAN格式。是否第一行数据为列名。当读入格式为csv时,默认值为TRUE;当读入格式为text时,默认值为 FALSE;当读入格式为avro时,此参数无效。
  • input_recursive: (非必需) BOOLEAN格式。是否遍历输入目录的子目录文件,默认值为TRUE。
  • decimal_format: (非必需) STRING格式。 小数点格式,用来转换STRING到数字。
  • date_format: (非必需) STRING格式。 日期格式,用来转换STRING到日期。
  • time_format: (非必需) STRING格式。 时间格式,用来转换STRING到时间。
  • timestamp_format: (非必需) STRING格式。 时间戳格式,用来转换STRING到时间戳。
  • time_with_time_zone_format: (非必需) STRING格式。 带有时区的时间格式,用来转换STRING到时间数据。
  • timestamp_with_time_zone_format: (非必需) STRING格式。带有时区的时间戳格式,用来转换STRING到带有时区的时间戳数据。
  • default_time_zone: (非必需) STRING格式。 默认时区,用来转换带有时区的时间类型数据。
  • key_value_type: (非必需) STRING格式。 Key-Value读入方法。支持的方法包括 'KeyValue' 和 'KeyAsValue'. 默认值为 'KeyValue'。