

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 AWS Glue 主控台建立分類器
<a name="console-classifiers"></a>

分類器可判斷資料的結構描述。您可以編寫自訂分類器並從 AWS Glue指向分類器。

## 建立分類器
<a name="add-classifier-console"></a>

若要在 AWS Glue 主控台新增分類器，請選擇 **Add classifier (新增分類器)**。定義分類器時，您提供以下值：
+ **分類器名稱** – 提供分類器的唯一名稱。
+ **分類器類型** – 此分類器推斷的資料表分類類型。
+ **上次更新** – 上一次更新此分類器的時間。

**分類器名稱**  
提供分類器的唯一名稱。

**分類器類型**  
選擇要建立之分類器的類型。

根據您選擇的分類器類型，設定下列分類器的屬性：

------
#### [ Grok ]
+ **分類** 

  描述分類資料的格式或類型，或提供自訂標籤。
+ **Grok 模式** 

  這是用於將資料剖析為結構化結構描述。grok 模式由描述資料存放區格式的具名模式組成。您使用 AWS Glue 提供的具名內建模式寫入此 grok 模式，自訂寫入的模式，並包含在 **Custom patterns (自訂模式)** 欄位內。雖然 grok 偵錯工具的結果可能不會完全符合 AWS Glue 的結果，我們建議您透過 grok 偵錯工具使用一些範例資料來嘗試模式。您可以從 Web 上找到 grok 偵錯工具。AWS Glue 提供的具名內建模式通常相容於 Web 上提供的 grok 模式。

  建置您的 grok 模式，反覆新增具名模式和在偵錯工具內檢查您的結果。此活動可讓您確信當 AWS Glue 爬蟲程式執行您的 grok 模式時，您的資料可以剖析。
+ **自訂模式** 

  對於 grok 分類器，這些是您編寫的 **Grok 模式**的選擇性建置區塊。內建的模式無法剖析您的資料時，您可能需要編寫自訂模式。這些自訂模式在此欄位中定義，且在 ** Grok 模式**欄位中參考。每個自訂模式都必須在不同的行定義。就如同內建的模式，它包含具名模式定義，使用[常規表達式 (regex)](http://en.wikipedia.org/wiki/Regular_expression) 的語法。

  例如，以下具有 `MESSAGEPREFIX` 名稱，接著是常規表達式定義，以套用到您的資料，判斷是否遵循模式。

  ```
  MESSAGEPREFIX .*-.*-.*-.*-.*
  ```

------
#### [ XML ]
+ **Row 標籤** 

  針對 XML 分類器，此為 XML 標籤名稱，定義 XML 文件中的資料表列。輸入類型的名稱，而不角括號 `< >`。此名稱必須符合 XML 的標籤規則。

  如需詳細資訊，請參閱[撰寫 XML 自訂分類器](custom-classifier.md#custom-classifier-xml)。

------
#### [ JSON ]
+ **JSON 路徑** 

  針對 JSON 分類器，此為連往物件、陣列或數值，定義所建立資料表之資料列的 JSON 物件。使用 AWS Glue 支援的運算子，以點或括號 JSON 語法輸入名稱。

  如需更多詳細資訊，請參閱 [撰寫 JSON 自訂分類器](custom-classifier.md#custom-classifier-json) 中的運算子清單。

------
#### [ CSV ]
+ **欄位分隔符號** 

  表示用於分隔資料列中每個欄位項目的單一字元或符號。從清單中選擇分隔符號，或選擇 `Other` 以輸入自訂分隔符號。
+ **引號符號** 

  用來表示將內容結合成單一欄位值的單一字元或符號。必須不同於欄位分隔符號。從清單中選擇引號，或選擇 `Other` 以輸入自訂引號字元。
+ **欄位標題** 

  指示在 CSV 檔案中應如何偵測出欄位標題的行為。您可以選擇 `Has headings`、`No headings` 或 `Detect headings`。如果您的自訂 CSV 檔案包含欄位標題，請輸入以逗號分隔的欄位標題清單。
+ **允許具有單一欄的檔案** 

  若要被歸類為 CSV，資料必須至少有兩個資料欄和兩個資料列。使用此選項可允許處理僅包含一欄的檔案。
+ **裁剪空格後再識別欄值** 

  此選項指定在確認欄位值類型之前是否要裁剪值。
+  **自訂資料類型** 

   (選用) - 在逗號分隔清單中輸入自訂資料類型。支援的資料類型為："BINARY"、"BOOLEAN"、"DATE"、"DECIMAL"、"DOUBLE"、"FLOAT"、"INT"、"LONG"、"SHORT"、"STRING"、"TIMESTAMP"。
+  **CSV Serde** 

   (選用)：用於在分類器中處理 CSV 的 SerDe，並且將在資料目錄中套用該 Serde。從 `Open CSV SerDe`、`Lazy Simple SerDe` 或 `None` 中選擇。您可以指定希望爬蟲程式執行偵測時的 `None` 值。

------

如需詳細資訊，請參閱[為各種資料格式撰寫自訂分類器](custom-classifier.md)。

## 檢視分類器
<a name="view-classifiers-console"></a>

若要查看您已建立的所有分類器的清單，請開啟位於 [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/) AWS Glue 主控台，然後選擇 **Classifiers (分類器)** 標籤。

清單顯示有關各分類器的下列屬性：
+ **分類器** - 分類器名稱。建立分類器時，您必須提供其名稱。
+ **分類** – 此分類器推斷的資料表分類類型。
+ **上次更新** – 上一次更新此分類器的時間。

## 管理分類器
<a name="manage-classifiers-console"></a>

您可以在 ** 主控台的 **ClassifiersAWS Glue (分類器) 清單中新增、編輯和刪除分類器。若要查看分類器的詳細資訊，請在清單中選擇分類器的名稱。詳細資訊包含您在建立分類器時所定義的資訊。