HDFS Output Connector


链接库路径为'HDFSOutputConnector'。 默认ID为'hdfsout'。 支持参数:

  • output_path: (必需提供) STRING格式。 写出目录的路径(目录路径必须尚未创立)。
  • output_format: (非必需) STRING格式。 写出文件的格式。默认值为csv。支持格式包括: ** avro: Hadoop生态里的一种快速可压缩形式存储数据格式,主要面向数据密集型应用。 ** csv: 计算机行业的标准关系性数据格式。 ** edf: ExceedData专业的高压缩数据格式,针对稀疏信号数据可以做到CSV格式70+倍的空间节省。比BLF和Parquet也有1-2倍的空间节省。 ** excel: 微软Office里的标准.xlsx 格式。 ** line: 将文本格式的数据以行为单位读入,主要用于非关系型文本数据。 ** ns.csv: 复杂的csv格式,带有UTF编码签名(和微软软件兼容)和支持Zip压缩。 ** ns.text: 复杂的text格式。带有UTF编码签名(和微软软件兼容)和支持Zip压缩。 ** parquet: Hadoop生态里的一种快速可压缩的列存储格式,主要面向高维数据应用。 ** text: text格式处理后的输出结果为非关系型dynamic schema数据。.txt格式与.csv格式在处理上的主要区别在对空值是否保留。稀疏数据建议用text格式。
  • data_schema: (非必需) STRING格式。 数据的列名和类型定义。
  • data_schema_file: (非必需) STRING格式。 数据定义文件的路径(例:Avro文件的avsc)。
  • data_transforms: (非必需) STRING格式。数据写出前,对数据内容进行操作的表达式。
  • transform_mode: (非必需) STRING格式。数据写出前,对数据内容进行操作的模式。支持值为'select', 'add', 'delete'。 默认值为'select'。
  • output_overwrite: (非必需) BOOLEAN格式。 是否覆盖现有内容。默认值为TRUE 。
  • output_header: (非必需) BOOLEAN格式。是否基于第一行数据输出列名。当写出格式为csv时,默认值为TRUE;当写出格式为text时,默认值为 FALSE;当写出格式为avro时,此参数无效。
  • output_compress: (非必需) BOOLEAN格式。是否压缩输出的文件。 默认值为FALSE。
  • compress_codec: (非必需) STRING格式。 压缩文件的算法。支持的值包括'bz2', 'deflate', 'gz', 'lz4', 'snappy' 和 'zlib', 或自定义的class路径。 默认值为 'gz'。
  • compress_type: (非必需) STRING格式。 Sequence文件压缩的类型。 支持的值包括'NONE', 'RECORD' 和 'BLOCK'。 默认值为'BLOCK'。
  • delta_scaling: (非必需) BOOLEAN格式。 是否支持在Parquet文件做差距压缩。默认值为FALSE。
  • block_size: (非必需) INT格式。 Parquet文件的分区块大小。默认值为134217728 (128MB)。
  • page_size: (非必需) INT格式。 Parquet文件的每次写出大小。默认值为1048576 (1MB)。
  • dictionary_page_size: (非必需) INT格式。 Parquet文件的字典大小。默认值为1048576 (1MB)。
  • enable_dictionary: (非必需) BOOLEAN格式。 是否支持Parquet文件的字典压缩。默认值为TRUE。
  • validation: (非必需) BOOLEAN格式。 是否启用Parquet文件的类型验证。默认值为TRUE。
  • file_name_element: (非必需) STRING格式。如果此参数值不为空,则将以此参数值为名将文件名从数据里的同名列里取出。
  • enable_variable_fields: (非必需) BOOLEAN格式。 是否支持动态格式。默认值为FALSE。
  • field_separator: (非必需) STRING格式。 分隔数据列的符号(如果文件格式为text而且解析格式实现为'TextCSVConstructor')。默认值为 ','。
  • field_quoter: (非必需) STRING格式。 包含数据列的符号(如果文件格式为text而且解析格式实现为'TextCSVConstructor')。默认值为 '"'。
  • field_escaper: (非必需) STRING格式。 跳过特殊字体的符号(如果文件格式为text而且写出格式实现为TextCSVConstructor)。默认值为 ''。
  • decimal_format: (非必需) STRING格式。 小数点格式,用来转换数字类型数据到STRING。
  • fractional_digits: (非必需) INT格式。 最大小数点精度,用来转换数字到STRING。默认值为10。