AWS Glue コンソールを使用した分類子の作成 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue コンソールを使用した分類子の作成

分類子は、データのスキーマを決定します。カスタムの分類子を記述し、AWS Glue から指定します。

分類子の作成

AWS Glue コンソールに分類子を追加するには、[Add classifier (分類子を追加)] を選択します。分類子を定義する場合、以下の値を指定します。

  • 分類子名 – 分類子の一意の名前を指定します。

  • 分類子タイプ – この分類子によって推測されたテーブルの分類タイプ。

  • 最終更新 – 分類子が最後に更新された時刻。

分類子名

分類子の一意の名前を指定します。

分類子タイプ

作成する分類子のタイプを選択します。

選択した分類子のタイプに応じて、分類子の次のプロパティを設定します。

Grok
  • 分類

    分類されたデータの形式またはタイプを記述、またはカスタムラベルを指定します。

  • Grok パターン

    これを使用してデータを解析して構造化スキーマにします。grok パターンは、データストアの形式を記述する名前付きパターンで構成されています。この grok パターンは、AWS Glue によって提供された名前付きの組み込みパターンと、[Custom patterns (カスタムパターン)] フィールドに書き込み、含まれるカスタムパターンを使用して書き込みます。grok デバッガーの結果は AWS Glue の結果と正確には一致しませんが、grok デバッガーでサンプルデータを使用してパターンを試すことをお勧めします。ウェブ上で grok デバッガーを見つけることができます。AWS Glue によって提供される名前付き組み込みパターンは、一般にウェブ上で利用可能な grok パターンと互換性があります。

    名前付きパターンを反復的に追加して grok パターンを作成し、デバッガーで結果を確認します。このアクティビティを使用すると、AWS Glue クローラが grok パターンを実行するときにデータを解析できるという確信が得られます。

  • カスタムパターン

    grok 分類子の場合、これらは、記述した [Grok pattern] (Grok パターン) のオプションの構成要素です。組み込みのパターンでデータを解析できない場合は、カスタムパターンを記述する必要があります。これらのカスタムパターンはこのフィールドで定義され、[Grok pattern] (Grok パターン) フィールドで参照されます。各カスタムパターンは個別の行に定義されています。組込みパターンと同様に、[regular expression (regex)] (正規表現) 構文を使用する名前付きパターン定義で構成されています。

    たとえば、次の MESSAGEPREFIX という名前は、その後に正規表現の定義が続いてデータに適用され、パターンに従っているかどうかが判断されます。

    MESSAGEPREFIX .*-.*-.*-.*-.*
XML
  • 行タグ

    XML 分類子では、これは XML 文書のテーブル行を定義する XML タグの名前です。山括弧 < > を付けずに名前を入力します。名前は XML タグ規則に沿って命名する必要があります。

    詳しくは、「XML カスタム分類子の書き込み 」を参照してください。

JSON
  • JSON パス

    JSON 分類子の場合、これは、作成するテーブルの行を定義するオブジェクト、配列、または値への JSON パスです。名前をドットで入力するか、AWS Glue でサポートされる演算子を使用して JSON 構文を括弧で囲んでください。

    詳細については、「JSON カスタム分類子の書き込み」の演算子のリストを参照してください。

CSV
  • 列の区切り文字

    行内の各列エントリの区切りを示す単一の文字または記号。リストから区切り文字または記号を選択するか、Other を選択して、カスタム区切り文字または記号を入力します。

  • 引用記号

    コンテンツを結合して単一の列の値にすることを示す単一の文字または記号。列の区切り文字とは異なる必要があります。リストから引用記号を選択するか、Other を選択して、カスタム引用文字を入力します。

  • 列見出し

    CSV ファイルで列見出しを検出する方法の動作を示します。Has headingsNo headings または Detect headings を選択できます。カスタム CSV ファイルに列見出しがある場合は、列見出しのカンマ区切りリストを入力します。

  • 単一列のファイルを許可

    CSV とみなされるためには、データが 2 列以上かつ 2 行以上必要です。このオプションを使用すると、1 つの列のみを含むファイルが処理できます。

  • 列の値を識別する前に空白を削除

    このオプションによって、列の値のタイプを識別する前に値の空白を削除するかどうかを指定します。

  • カスタムデータ型

    (オプション) – カスタムデータ型をカンマ区切りリストに入力します。サポートされているデータ型は、「BINARY」、「BOOLEAN」、「DATE」、「DECIMAL」、「DOUBLE」、「FLOAT」、「INT」、「LONG」、「SHORT」、「STRING」、「TIMESTAMP」です。

  • CSV Serde

    (オプション) - 分類子で CSV を処理するための SerDe を設定でき、データカタログに適用されます。Open CSV SerDeLazy Simple SerDe、または None から選択します。クローラーが検出を行う場合は、None 値を指定できます。

詳細については、「さまざまなデータ形式のカスタム分類子の記述」を参照してください。

分類子の表示

作成したすべての分類子のリストを表示するには、https://console.aws.amazon.com/glue/ で AWS Glue コンソールを開き、[Classifiers] (分類子) タブを選択します。

リストには、各分類子に関する次のプロパティが表示されます。

  • 分類子 – 分類子名。分類子を作成するときは、その名前を指定する必要があります。

  • 分類 – この分類子によって推測されたテーブルの分類タイプ。

  • 最終更新 – 分類子が最後に更新された時刻。

分類子の管理

コンソールの [ClassifiersAWS Glue] (分類子) リストから、分類子の追加、編集、削除ができます。分類子の詳細を表示するには、リスト内の分類子名を選択します。詳細には、分類子を作成したときに定義した情報が含まれます。