選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

使用主控台建立分類器 AWS Glue

焦點模式
使用主控台建立分類器 AWS Glue - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

分類器可判斷資料的結構描述。您可以編寫自訂分類器並從 AWS Glue指向分類器。

建立分類器

若要在 AWS Glue 主控台新增分類器,請選擇 Add classifier (新增分類器)。定義分類器時,您提供以下值:

  • 分類器名稱 – 提供分類器的唯一名稱。

  • 分類器類型 – 此分類器推斷的資料表分類類型。

  • 上次更新 – 上一次更新此分類器的時間。

分類器名稱

提供分類器的唯一名稱。

分類器類型

選擇要建立之分類器的類型。

根據您選擇的分類器類型,設定下列分類器的屬性:

Grok
  • 分類

    描述分類資料的格式或類型,或提供自訂標籤。

  • Grok 模式

    這是用於將資料剖析為結構化結構描述。grok 模式由描述資料存放區格式的具名模式組成。您使用 AWS Glue 提供的具名內建模式寫入此 grok 模式,自訂寫入的模式,並包含在 Custom patterns (自訂模式) 欄位內。雖然 grok 偵錯工具的結果可能不會完全符合 AWS Glue 的結果,我們建議您透過 grok 偵錯工具使用一些範例資料來嘗試模式。您可以從 Web 上找到 grok 偵錯工具。AWS Glue 提供的具名內建模式通常相容於 Web 上提供的 grok 模式。

    建置您的 grok 模式,反覆新增具名模式和在偵錯工具內檢查您的結果。此活動可讓您確信當 AWS Glue 爬蟲程式執行您的 grok 模式時,您的資料可以剖析。

  • 自訂模式

    對於 grok 分類器,這些是您編寫的Grok 模式的選擇性建置區塊。內建的模式無法剖析您的資料時,您可能需要編寫自訂模式。這些自訂模式在此欄位中定義,且在 Grok 模式欄位中參考。每個自訂模式都必須在不同的行定義。就如同內建的模式,它包含具名模式定義,使用常規表達式 (regex) 的語法。

    例如,以下具有 MESSAGEPREFIX 名稱,接著是常規表達式定義,以套用到您的資料,判斷是否遵循模式。

    MESSAGEPREFIX .*-.*-.*-.*-.*
XML
  • Row 標籤

    對於XML分類器而言,這是定義XML文件中表格列的XML標籤名稱。輸入類型的名稱,而不角括號 < >。名稱必須符合標籤的XML規則。

    如需詳細資訊,請參閱撰寫XML自訂分類器

JSON
  • JSON路徑

    對於JSON分類器而言,這是物件、陣列或定義所建立之表格列的值的JSON路徑。使用支援的運算子,以點或括號JSONAWS Glue語法輸入名稱。

    如需更多詳細資訊,請參閱 撰寫JSON自訂分類器 中的運算子清單。

CSV
  • 欄位分隔符號

    表示用於分隔資料列中每個欄位項目的單一字元或符號。從清單中選擇分隔符號,或選擇 Other 以輸入自訂分隔符號。

  • 引號符號

    用來表示將內容結合成單一欄位值的單一字元或符號。必須不同於欄位分隔符號。從清單中選擇引號,或選擇 Other 以輸入自訂引號字元。

  • 欄位標題

    指出應如何在CSV檔案中偵測欄標題的行為。您可以選擇 Has headingsNo headingsDetect headings。如果您的自訂CSV檔案包含欄標題,請輸入以逗號分隔的欄標題清單。

  • 允許具有單一欄的檔案

    要被分類為CSV,數據必須至少有兩列和兩行數據。使用此選項可允許處理僅包含一欄的檔案。

  • 裁剪空格後再識別欄值

    此選項指定在確認欄位值類型之前是否要裁剪值。

  • 自訂資料類型

    (選用) - 在逗號分隔清單中輸入自訂資料類型。支持的數據類型是:「BINARY」,「BOOLEAN」,「DATE」,「DECIMAL」,「DOUBLE」,「FLOAT」,「」,「INT」,「LONG」,「SHORT」,「STRING」。TIMESTAMP

  • CSV塞爾德

    (可選)-A 用 SerDe 於在分類器CSV中進行處理,該分類器將在數據目錄中應用。從 Open CSV SerDeLazy Simple SerDeNone 中選擇。您可以指定希望爬蟲程式執行偵測時的 None 值。

  • 分類

    描述分類資料的格式或類型,或提供自訂標籤。

  • Grok 模式

    這是用於將資料剖析為結構化結構描述。grok 模式由描述資料存放區格式的具名模式組成。您使用 AWS Glue 提供的具名內建模式寫入此 grok 模式,自訂寫入的模式,並包含在 Custom patterns (自訂模式) 欄位內。雖然 grok 偵錯工具的結果可能不會完全符合 AWS Glue 的結果,我們建議您透過 grok 偵錯工具使用一些範例資料來嘗試模式。您可以從 Web 上找到 grok 偵錯工具。AWS Glue 提供的具名內建模式通常相容於 Web 上提供的 grok 模式。

    建置您的 grok 模式,反覆新增具名模式和在偵錯工具內檢查您的結果。此活動可讓您確信當 AWS Glue 爬蟲程式執行您的 grok 模式時,您的資料可以剖析。

  • 自訂模式

    對於 grok 分類器,這些是您編寫的Grok 模式的選擇性建置區塊。內建的模式無法剖析您的資料時,您可能需要編寫自訂模式。這些自訂模式在此欄位中定義,且在 Grok 模式欄位中參考。每個自訂模式都必須在不同的行定義。就如同內建的模式,它包含具名模式定義,使用常規表達式 (regex) 的語法。

    例如,以下具有 MESSAGEPREFIX 名稱,接著是常規表達式定義,以套用到您的資料,判斷是否遵循模式。

    MESSAGEPREFIX .*-.*-.*-.*-.*

如需詳細資訊,請參閱撰寫各種資料格式的自訂分類器

檢視分類器

若要查看您已建立之所有分類器的清單,請開啟AWS Glue主控台,然後選擇 [分類器] 索引標籤。https://console.aws.amazon.com/glue/

清單顯示有關各分類器的下列屬性:

  • 分類器 - 分類器名稱。建立分類器時,您必須提供其名稱。

  • 分類 – 此分類器推斷的資料表分類類型。

  • 上次更新 – 上一次更新此分類器的時間。

管理分類器

您可以在 主控台的 ClassifiersAWS Glue (分類器) 清單中新增、編輯和刪除分類器。若要查看分類器的詳細資訊,請在清單中選擇分類器的名稱。詳細資訊包含您在建立分類器時所定義的資訊。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。