RegEx 数据格式 - AWS Data Pipeline

AWS Data Pipeline 不再向新客户提供。的现有客户 AWS Data Pipeline 可以继续照常使用该服务。了解更多

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

RegEx 数据格式

由正则表达式定义的自定义数据格式。

示例

以下是该对象类型的示例。

{ "id" : "MyInputDataType", "type" : "RegEx", "inputRegEx" : "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?", "outputFormat" : "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s", "column" : [ "host STRING", "identity STRING", "user STRING", "time STRING", "request STRING", "status STRING", "size STRING", "referer STRING", "agent STRING" ] }

语法

可选字段 描述 槽类型
column 具有该数据节点描述的数据的各个字段指定的数据类型的列名。例如:hostname STRING 对于多个值,请使用用空格分隔的列名和数据类型。 String
inputRegEx 用于解析 S3 输入文件的正则表达式。 inputRegEx 提供了一种从文件中相对非结构化的数据中检索列的方法。 String
outputFormat 由 Java 格式化程序语法 inputRegEx检索但引用为 %1$s %2$s 的列字段。 String
parent 槽将继承自的当前对象的父级。 引用对象,例如 “父对象”:{"ref”:” myBaseObject Id "}

运行时字段 描述 槽类型
@version 用来创建对象的管道版本。 String

系统字段 描述 槽类型
@error 用于描述格式不正确的对象的错误消息 String
@pipelineId 该对象所属的管道的 ID String
@sphere 对象的范围指明对象在生命周期中的位置:组件对象产生实例对象,后者执行尝试对象 String