Grok SerDe

焦點模式

Grok SerDe - Amazon Athena

Logstash Grok SerDe 是提供一組特殊化模式將非結構化文字資料 (通常是日誌) 還原序列化的程式庫。每個 Grok 模式是具名的規則表達式。您可以視需要識別和重複使用這些還原序列化模式。相較於使用規則表達式，這可讓您更輕鬆地使用 Grok。Grok 提供一組預先定義的模式。您也可以建立自訂模式。

序列化程式庫名稱

Grok SerDe 的序列化程式庫名稱為 com.amazonaws.glue.serde.GrokSerDe。

如何使用 Grok SerDe

在 Athena 中建立資料表時，若要指定 Grok SerDe，請使用 ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe' 子句，接著使用 WITH SERDEPROPERTIES 子句來指定資料中要符合的模式，其中：

input.format 表達式定義資料中要符合的模式。這是必要的。
input.grokCustomPatterns 表達式定義具名的自訂模式，供您後續在 input.format 表達式內使用。這是選用的。若要將多個模式項目併入 input.grokCustomPatterns 表達式中，請使用新行逸出字元 (\n) 來分隔，如下所示： 'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)\nINSIDE_BRACKETS ([^\\]]*)')。
STORED AS INPUTFORMAT 和 OUTPUTFORMAT 子句是必要的。
LOCATION 子句會指定 Amazon S3 儲存貯體，其可以包含多個資料物件。儲存貯體中的所有資料物件都還原序列化來建立資料表。

範例

本節中的範例取決於預先定義的 Grok 模式清單。如需詳細資訊，請參閱 GitHub.com 上的 grok-patterns。 GitHub.com.

範例 1

此範例使用 s3://amzn-s3-demo-bucket/groksample/ 中儲存的 Postfix maillog 項目內的來源資料。


Feb  9 07:15:00 m4eastmail postfix/smtpd[19305]: B88C4120838: connect from unknown[192.168.55.4]
Feb  9 07:15:00 m4eastmail postfix/smtpd[20444]: B58C4330038: client=unknown[192.168.55.4]
Feb  9 07:15:03 m4eastmail postfix/cleanup[22835]: BDC22A77854: message-id=<31221401257553.5004389LCBF@m4eastmail.example.com>

以下陳述式使用自訂模式和您指定的預先定義模式，在 Athena 中從來源資料建立名為 mygroktable 的資料表：


CREATE EXTERNAL TABLE `mygroktable`(
   syslogbase string,
   queue_id string,
   syslog_message string
   )
ROW FORMAT SERDE
   'com.amazonaws.glue.serde.GrokSerDe'
WITH SERDEPROPERTIES (
   'input.grokCustomPatterns' = 'POSTFIX_QUEUEID [0-9A-F]{7,12}',
   'input.format'='%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}'
   )
STORED AS INPUTFORMAT
   'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
   'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
   's3://amzn-s3-demo-bucket/groksample/';

從類似的模式開始%{NOTSPACE:column}，先取得資料欄映射，然後視需要專門處理資料欄。

範例 2

在下列範例中，您為 Log4j 日誌建立查詢。範例日誌中的項目採用此格式：


2017-09-12 12:10:34,972 INFO  - processType=AZ, processId=ABCDEFG614B6F5E49, status=RUN,
threadId=123:amqListenerContainerPool23P:AJ|ABCDE9614B6F5E49||2017-09-12T12:10:11.172-0700],
executionTime=7290, tenantId=12456, userId=123123f8535f8d76015374e7a1d87c3c, shard=testapp1,
jobId=12312345e5e7df0015e777fb2e03f3c, messageType=REAL_TIME_SYNC,
action=receive, hostname=1.abc.def.com

若要查詢此日誌資料：

針對每個欄，將 Grok 模式新增到 input.format。例如，對於 timestamp，新增 %{TIMESTAMP_ISO8601:timestamp}。對於 loglevel，新增 %{LOGLEVEL:loglevel}。

映射在日誌格式中用於分隔項目的虛線 (-) 和逗號，以確定 input.format 中的模式完全符合日誌的格式。


CREATE EXTERNAL TABLE bltest (
 timestamp STRING,
 loglevel STRING,
 processtype STRING,
 processid STRING,
 status STRING,
 threadid STRING,
 executiontime INT,
 tenantid INT,
 userid STRING,
 shard STRING,
 jobid STRING,
 messagetype STRING,
 action STRING,
 hostname STRING
 )
ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe'
WITH SERDEPROPERTIES (
"input.grokCustomPatterns" = 'C_ACTION receive|send',
"input.format" = "%{TIMESTAMP_ISO8601:timestamp} %{LOGLEVEL:loglevel} - processType=%{NOTSPACE:processtype}, processId=%{NOTSPACE:processid}, status=%{NOTSPACE:status}, threadId=%{NOTSPACE:threadid}, executionTime=%{POSINT:executiontime}, tenantId=%{POSINT:tenantid}, userId=%{NOTSPACE:userid}, shard=%{NOTSPACE:shard}, jobId=%{NOTSPACE:jobid}, messageType=%{NOTSPACE:messagetype}, action=%{C_ACTION:action}, hostname=%{HOST:hostname}"
) STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION 's3://amzn-s3-demo-bucket/samples/';

範例 3

下列範例 Amazon S3 伺服器存取日誌CREATE TABLE陳述式顯示包含兩個模式項目的'input.grokCustomPatterns'表達式，以新行逸出字元 (\n) 分隔，如範例查詢中的此程式碼片段所示：'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)\nINSIDE_BRACKETS ([^\\]]*)')。


CREATE EXTERNAL TABLE `s3_access_auto_raw_02`(
  `bucket_owner` string COMMENT 'from deserializer', 
  `bucket` string COMMENT 'from deserializer', 
  `time` string COMMENT 'from deserializer', 
  `remote_ip` string COMMENT 'from deserializer', 
  `requester` string COMMENT 'from deserializer', 
  `request_id` string COMMENT 'from deserializer', 
  `operation` string COMMENT 'from deserializer', 
  `key` string COMMENT 'from deserializer', 
  `request_uri` string COMMENT 'from deserializer', 
  `http_status` string COMMENT 'from deserializer', 
  `error_code` string COMMENT 'from deserializer', 
  `bytes_sent` string COMMENT 'from deserializer', 
  `object_size` string COMMENT 'from deserializer', 
  `total_time` string COMMENT 'from deserializer', 
  `turnaround_time` string COMMENT 'from deserializer', 
  `referrer` string COMMENT 'from deserializer', 
  `user_agent` string COMMENT 'from deserializer', 
  `version_id` string COMMENT 'from deserializer')
ROW FORMAT SERDE 
  'com.amazonaws.glue.serde.GrokSerDe' 
WITH SERDEPROPERTIES ( 
  'input.format'='%{NOTSPACE:bucket_owner} %{NOTSPACE:bucket} \\[%{INSIDE_BRACKETS:time}\\] %{NOTSPACE:remote_ip} %{NOTSPACE:requester} %{NOTSPACE:request_id} %{NOTSPACE:operation} %{NOTSPACE:key} \"?%{INSIDE_QS:request_uri}\"? %{NOTSPACE:http_status} %{NOTSPACE:error_code} %{NOTSPACE:bytes_sent} %{NOTSPACE:object_size} %{NOTSPACE:total_time} %{NOTSPACE:turnaround_time} \"?%{INSIDE_QS:referrer}\"? \"?%{INSIDE_QS:user_agent}\"? %{NOTSPACE:version_id}', 
  'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)\nINSIDE_BRACKETS ([^\\]]*)') 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  's3://amzn-s3-demo-bucket'

另請參閱

了解 Grok 模式（外部網站）
內建模式 (AWS Glue 使用者指南)

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

Avro SerDe

JSON SerDe 程式庫

下一個主題：

JSON SerDe 程式庫

上一個主題：

Avro SerDe

需要協助？

在本頁面

此頁面是否有幫助？

提供意見回饋

隱私權網站條款 Cookie 偏好設定

選取您的 Cookie 偏好設定

自訂 Cookie 偏好設定

必要

效能

功能

廣告

無法儲存 Cookie 偏好設定