本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
分類器可判斷資料的結構描述。您可以編寫自訂分類器並從 AWS Glue指向分類器。
建立分類器
若要在 AWS Glue 主控台新增分類器,請選擇 Add classifier (新增分類器)。定義分類器時,您提供以下值:
-
分類器名稱 – 提供分類器的唯一名稱。
-
分類器類型 – 此分類器推斷的資料表分類類型。
-
上次更新 – 上一次更新此分類器的時間。
- 分類器名稱
-
提供分類器的唯一名稱。
- 分類器類型
-
選擇要建立之分類器的類型。
根據您選擇的分類器類型,設定下列分類器的屬性:
-
分類
描述分類資料的格式或類型,或提供自訂標籤。
-
Grok 模式
這是用於將資料剖析為結構化結構描述。grok 模式由描述資料存放區格式的具名模式組成。您使用 AWS Glue 提供的具名內建模式寫入此 grok 模式,自訂寫入的模式,並包含在 Custom patterns (自訂模式) 欄位內。雖然 grok 偵錯工具的結果可能不會完全符合 AWS Glue 的結果,我們建議您透過 grok 偵錯工具使用一些範例資料來嘗試模式。您可以從 Web 上找到 grok 偵錯工具。AWS Glue 提供的具名內建模式通常相容於 Web 上提供的 grok 模式。
建置您的 grok 模式,反覆新增具名模式和在偵錯工具內檢查您的結果。此活動可讓您確信當 AWS Glue 爬蟲程式執行您的 grok 模式時,您的資料可以剖析。
-
自訂模式
對於 grok 分類器,這些是您編寫的Grok 模式的選擇性建置區塊。內建的模式無法剖析您的資料時,您可能需要編寫自訂模式。這些自訂模式在此欄位中定義,且在 Grok 模式欄位中參考。每個自訂模式都必須在不同的行定義。就如同內建的模式,它包含具名模式定義,使用常規表達式 (regex)
的語法。 例如,以下具有
MESSAGEPREFIX
名稱,接著是常規表達式定義,以套用到您的資料,判斷是否遵循模式。MESSAGEPREFIX .*-.*-.*-.*-.*
如需詳細資訊,請參閱撰寫各種資料格式的自訂分類器。
檢視分類器
若要查看您已建立之所有分類器的清單,請開啟AWS Glue主控台,然後選擇 [分類器] 索引標籤。https://console.aws.amazon.com/glue/
清單顯示有關各分類器的下列屬性:
-
分類器 - 分類器名稱。建立分類器時,您必須提供其名稱。
-
分類 – 此分類器推斷的資料表分類類型。
-
上次更新 – 上一次更新此分類器的時間。
管理分類器
您可以在 主控台的 ClassifiersAWS Glue (分類器) 清單中新增、編輯和刪除分類器。若要查看分類器的詳細資訊,請在清單中選擇分類器的名稱。詳細資訊包含您在建立分類器時所定義的資訊。