Grok SerDe - Amazon Athena

Grok SerDe

Logstash Grok SerDe 是一个库,它具有一组专门用于对非结构化文本数据(通常是日志)进行反序列化的模式。每个 Grok 模式都是一个命名的正则表达式。您可以根据需要识别并重新使用这些反序列化模式。这使得使用 Grok 比使用正则表达式更容易。Grok 提供了一组预定义模式。您也可以创建自定义模式。

序列化库名称

Grok SerDe 的序列化库名称是 com.amazonaws.glue.serde.GrokSerDe

如何使用 Grok SerDe

要当在 Athena 中创建表时指定 Grok SerDe,请使用 ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe' 子句,后跟 WITH SERDEPROPERTIES 子句,用于指定要在您的数据中匹配的模式,其中:

  • input.format 表达式定义要在数据中匹配的模式。该项为必填项。

  • input.grokCustomPatterns 表达式定义了一个命名的自定义模式,您可以随后在 input.format 表达式中使用它。该项为可选项。要将多个模式条目加入 input.grokCustomPatterns 表达式中,请使用换行转义字符 (\n) 分隔它们,如下所示:'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)\nINSIDE_BRACKETS ([^\\]]*)')

  • STORED AS INPUTFORMATOUTPUTFORMAT 子句是必需的。

  • LOCATION 子句指定一个 Amazon S3 存储桶,它可以包含多个数据对象。将会对存储桶中的所有数据对象进行反序列化以创建表。

示例

本部分中的示例依赖于预定义 Grok 模式的列表。有关更多信息,请参阅 GitHub.com 上的 grok-patterns

示例 1

此示例使用来自保存在 s3://amzn-s3-demo-bucket/groksample/ 中的 Postfix maillog 条目中的源数据。

Feb 9 07:15:00 m4eastmail postfix/smtpd[19305]: B88C4120838: connect from unknown[192.168.55.4] Feb 9 07:15:00 m4eastmail postfix/smtpd[20444]: B58C4330038: client=unknown[192.168.55.4] Feb 9 07:15:03 m4eastmail postfix/cleanup[22835]: BDC22A77854: message-id=<31221401257553.5004389LCBF@m4eastmail.example.com>

以下语句使用自定义模式和您指定的预定义模式,根据源数据文件在 Athena 中创建一个名为 mygroktable 的表:

CREATE EXTERNAL TABLE `mygroktable`( syslogbase string, queue_id string, syslog_message string ) ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe' WITH SERDEPROPERTIES ( 'input.grokCustomPatterns' = 'POSTFIX_QUEUEID [0-9A-F]{7,12}', 'input.format'='%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}' ) STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3://amzn-s3-demo-bucket/groksample/';

%{NOTSPACE:column} 等模式开始,以便先映射列,然后根据需要对列进行专业化处理。

示例 2

在以下示例中,您将为 Log4j 日志创建一个查询。这些示例日志具有采用以下格式的条目:

2017-09-12 12:10:34,972 INFO - processType=AZ, processId=ABCDEFG614B6F5E49, status=RUN, threadId=123:amqListenerContainerPool23P:AJ|ABCDE9614B6F5E49||2017-09-12T12:10:11.172-0700], executionTime=7290, tenantId=12456, userId=123123f8535f8d76015374e7a1d87c3c, shard=testapp1, jobId=12312345e5e7df0015e777fb2e03f3c, messageType=REAL_TIME_SYNC, action=receive, hostname=1.abc.def.com

要查询此日志数据:

  • 将 Grok 模式添加到每个列的 input.format 中。例如,对于 timestamp,添加 %{TIMESTAMP_ISO8601:timestamp}。对于 loglevel,添加 %{LOGLEVEL:loglevel}

  • 通过映射短划线 (-) 和分隔日志格式中的条目的逗号,确保 input.format 中的模式与日志的格式完全匹配。

    CREATE EXTERNAL TABLE bltest ( timestamp STRING, loglevel STRING, processtype STRING, processid STRING, status STRING, threadid STRING, executiontime INT, tenantid INT, userid STRING, shard STRING, jobid STRING, messagetype STRING, action STRING, hostname STRING ) ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe' WITH SERDEPROPERTIES ( "input.grokCustomPatterns" = 'C_ACTION receive|send', "input.format" = "%{TIMESTAMP_ISO8601:timestamp} %{LOGLEVEL:loglevel} - processType=%{NOTSPACE:processtype}, processId=%{NOTSPACE:processid}, status=%{NOTSPACE:status}, threadId=%{NOTSPACE:threadid}, executionTime=%{POSINT:executiontime}, tenantId=%{POSINT:tenantid}, userId=%{NOTSPACE:userid}, shard=%{NOTSPACE:shard}, jobId=%{NOTSPACE:jobid}, messageType=%{NOTSPACE:messagetype}, action=%{C_ACTION:action}, hostname=%{HOST:hostname}" ) STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3://amzn-s3-demo-bucket/samples/';

示例 3

Amazon S3 服务器访问日志 CREATE TABLE 语句的以下示例显示了 'input.grokCustomPatterns' 表达式,该表达式包含两个模式条目,由换行转义字符 (\n) 进行分隔,如示例查询的此代码段中所示:'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)\nINSIDE_BRACKETS ([^\\]]*)')

CREATE EXTERNAL TABLE `s3_access_auto_raw_02`( `bucket_owner` string COMMENT 'from deserializer', `bucket` string COMMENT 'from deserializer', `time` string COMMENT 'from deserializer', `remote_ip` string COMMENT 'from deserializer', `requester` string COMMENT 'from deserializer', `request_id` string COMMENT 'from deserializer', `operation` string COMMENT 'from deserializer', `key` string COMMENT 'from deserializer', `request_uri` string COMMENT 'from deserializer', `http_status` string COMMENT 'from deserializer', `error_code` string COMMENT 'from deserializer', `bytes_sent` string COMMENT 'from deserializer', `object_size` string COMMENT 'from deserializer', `total_time` string COMMENT 'from deserializer', `turnaround_time` string COMMENT 'from deserializer', `referrer` string COMMENT 'from deserializer', `user_agent` string COMMENT 'from deserializer', `version_id` string COMMENT 'from deserializer') ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe' WITH SERDEPROPERTIES ( 'input.format'='%{NOTSPACE:bucket_owner} %{NOTSPACE:bucket} \\[%{INSIDE_BRACKETS:time}\\] %{NOTSPACE:remote_ip} %{NOTSPACE:requester} %{NOTSPACE:request_id} %{NOTSPACE:operation} %{NOTSPACE:key} \"?%{INSIDE_QS:request_uri}\"? %{NOTSPACE:http_status} %{NOTSPACE:error_code} %{NOTSPACE:bytes_sent} %{NOTSPACE:object_size} %{NOTSPACE:total_time} %{NOTSPACE:turnaround_time} \"?%{INSIDE_QS:referrer}\"? \"?%{INSIDE_QS:user_agent}\"? %{NOTSPACE:version_id}', 'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)\nINSIDE_BRACKETS ([^\\]]*)') STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3://amzn-s3-demo-bucket'

另请参阅