本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Grok SerDe
Logstash Grok SerDe 是具有一組特殊模式的程式庫,用於非結構化文字資料的還原序列化,通常是日誌。每個 Grok 模式是具名的規則表達式。您可以視需要識別和重複使用這些還原序列化模式。相較於使用規則表達式,這可讓您更輕鬆地使用 Grok。Grok 提供一組預先定義的模式
序列化程式庫名稱
Grok 的序列化程式庫名稱 SerDe 為 com.amazonaws.glue.serde.GrokSerDe
。
如何使用 Grok SerDe
若要在 Athena 中建立資料表 SerDe 時指定 Grok,請使用 ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe'
子句,後面接著 WITH SERDEPROPERTIES
子句,指定資料中要比對的模式,其中:
-
input.format
表達式定義資料中要符合的模式。這是必要的。 -
input.grokCustomPatterns
表達式定義具名的自訂模式,供您後續在input.format
表達式內使用。這是選用的。若要將多個模式項目併入input.grokCustomPatterns
表達式中,請使用新行逸出字元 (\n
) 來分隔,如下所示:'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)
。\n
INSIDE_BRACKETS ([^\\]]*)') -
STORED AS INPUTFORMAT
和OUTPUTFORMAT
子句是必要的。 -
LOCATION
子句會指定 Amazon S3 儲存貯體,其可以包含多個資料物件。儲存貯體中的所有資料物件都還原序列化來建立資料表。
範例
本節中的範例取決於預先定義的 Grok 模式清單。如需詳細資訊,請參閱 上的 grok-patterns
範例 1
此範例使用 s3://amzn-s3-demo-bucket/groksample/
中儲存的 Postfix maillog 項目內的來源資料。
Feb 9 07:15:00 m4eastmail postfix/smtpd[19305]: B88C4120838: connect from unknown[192.168.55.4]
Feb 9 07:15:00 m4eastmail postfix/smtpd[20444]: B58C4330038: client=unknown[192.168.55.4]
Feb 9 07:15:03 m4eastmail postfix/cleanup[22835]: BDC22A77854: message-id=<31221401257553.5004389LCBF@m4eastmail.example.com>
以下陳述式使用自訂模式和您指定的預先定義模式,在 Athena 中從來源資料建立名為 mygroktable
的資料表:
CREATE EXTERNAL TABLE `mygroktable`( syslogbase string, queue_id string, syslog_message string ) ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe' WITH SERDEPROPERTIES ( 'input.grokCustomPatterns' = 'POSTFIX_QUEUEID [0-9A-F]{7,12}', 'input.format'='%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}' ) STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3://amzn-s3-demo-bucket/
groksample
/';
從類似 的模式開始%{NOTSPACE:column}
,先取得資料欄映射,然後視需要專門處理資料欄。
範例 2
在下列範例中,您為 Log4j 日誌建立查詢。範例日誌中的項目採用此格式:
2017-09-12 12:10:34,972 INFO - processType=AZ, processId=ABCDEFG614B6F5E49, status=RUN,
threadId=123:amqListenerContainerPool23P:AJ|ABCDE9614B6F5E49||2017-09-12T12:10:11.172-0700],
executionTime=7290, tenantId=12456, userId=123123f8535f8d76015374e7a1d87c3c, shard=testapp1,
jobId=12312345e5e7df0015e777fb2e03f3c, messageType=REAL_TIME_SYNC,
action=receive, hostname=1.abc.def.com
若要查詢此日誌資料:
-
針對每個欄,將 Grok 模式新增到
input.format
。例如,對於timestamp
,新增%{TIMESTAMP_ISO8601:timestamp}
。對於loglevel
,新增%{LOGLEVEL:loglevel}
。 -
映射在日誌格式中用於分隔項目的虛線 (
-
) 和逗號,以確定input.format
中的模式完全符合日誌的格式。CREATE EXTERNAL TABLE bltest ( timestamp STRING, loglevel STRING, processtype STRING, processid STRING, status STRING, threadid STRING, executiontime INT, tenantid INT, userid STRING, shard STRING, jobid STRING, messagetype STRING, action STRING, hostname STRING ) ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe' WITH SERDEPROPERTIES ( "input.grokCustomPatterns" = 'C_ACTION receive|send', "input.format" = "%{TIMESTAMP_ISO8601:timestamp} %{LOGLEVEL:loglevel} - processType=%{NOTSPACE:processtype}, processId=%{NOTSPACE:processid}, status=%{NOTSPACE:status}, threadId=%{NOTSPACE:threadid}, executionTime=%{POSINT:executiontime}, tenantId=%{POSINT:tenantid}, userId=%{NOTSPACE:userid}, shard=%{NOTSPACE:shard}, jobId=%{NOTSPACE:jobid}, messageType=%{NOTSPACE:messagetype}, action=%{C_ACTION:action}, hostname=%{HOST:hostname}" ) STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3://amzn-s3-demo-bucket/
samples
/';
範例 3
下列範例 Amazon S3 伺服器存取日誌CREATE TABLE
陳述式顯示包含兩個模式項目的'input.grokCustomPatterns'
表達式,以新行逸出字元 (\n
) 分隔,如範例查詢中的此程式碼片段所示:'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)
。\n
INSIDE_BRACKETS ([^\\]]*)')
CREATE EXTERNAL TABLE `s3_access_auto_raw_02`(
`bucket_owner` string COMMENT 'from deserializer',
`bucket` string COMMENT 'from deserializer',
`time` string COMMENT 'from deserializer',
`remote_ip` string COMMENT 'from deserializer',
`requester` string COMMENT 'from deserializer',
`request_id` string COMMENT 'from deserializer',
`operation` string COMMENT 'from deserializer',
`key` string COMMENT 'from deserializer',
`request_uri` string COMMENT 'from deserializer',
`http_status` string COMMENT 'from deserializer',
`error_code` string COMMENT 'from deserializer',
`bytes_sent` string COMMENT 'from deserializer',
`object_size` string COMMENT 'from deserializer',
`total_time` string COMMENT 'from deserializer',
`turnaround_time` string COMMENT 'from deserializer',
`referrer` string COMMENT 'from deserializer',
`user_agent` string COMMENT 'from deserializer',
`version_id` string COMMENT 'from deserializer')
ROW FORMAT SERDE
'com.amazonaws.glue.serde.GrokSerDe'
WITH SERDEPROPERTIES (
'input.format'='%{NOTSPACE:bucket_owner} %{NOTSPACE:bucket} \\[%{INSIDE_BRACKETS:time}\\] %{NOTSPACE:remote_ip} %{NOTSPACE:requester} %{NOTSPACE:request_id} %{NOTSPACE:operation} %{NOTSPACE:key} \"?%{INSIDE_QS:request_uri}\"? %{NOTSPACE:http_status} %{NOTSPACE:error_code} %{NOTSPACE:bytes_sent} %{NOTSPACE:object_size} %{NOTSPACE:total_time} %{NOTSPACE:turnaround_time} \"?%{INSIDE_QS:referrer}\"? \"?%{INSIDE_QS:user_agent}\"? %{NOTSPACE:version_id}',
'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)\nINSIDE_BRACKETS ([^\\]]*)')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
's3://amzn-s3-demo-bucket'
另請參閱
-
了解 Grok 模式
(外部網站) -
內建模式 (AWS Glue 使用者指南)