AWS Glue Data Catalog - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue Data Catalog

「AWS Glue Data Catalog」 は、さまざまなデータソースのすべてのデータ資産を一元管理するメタデータリポジトリです。データフォーマット、スキーマ、ソースに関する情報を保存してクエリするための統合インターフェースを提供します。 AWS Glue ETL ジョブを実行すると、このカタログを使用してデータに関する情報を理解し、正しく変換されていることを確認します。

AWS Glue Data Catalog は、以下のコンポーネントで構成されています。

  • データベースとテーブル

  • クローラーおよび分類子

  • 接続

  • スキーマレジストリ

AWS Glue データベースとテーブル

AWS Glue Data Catalog「データベースとテーブル」 で構成され、メタデータを保存・管理するための論理構造を提供しています。この構造により、「AWS Identity and Access Management (IAM) ポリシー」 を使用して、テーブルレベルまたはデータベースレベルでの正確なデータアクセス制御が可能になります。

AWS Glue データベースには多数のテーブルを含めることができ、各テーブルを 1 つのデータベースに関連付ける必要があります。これらのテーブルには、実際のデータへの参照が含まれています。この参照は、 が AWS Glue サポートするさまざまなデータソースに保存できます。 AWS Glue テーブルには、列名、データ型、パーティションキーなどの必須メタデータも保存されます。

でテーブルを作成する方法は複数あります AWS Glue。

  • AWS Glue クローラー

  • AWS Glue ETL ジョブ

  • AWS Glue コンソール

  • 「AWS Glue API」 での CreateTable 操作

  • AWS CloudFormation テンプレート

  • AWS Cloud Development Kit (AWS CDK)

  • 移行された Apache Hive メタストア

AWS Glue クローラと分類子

AWS Glue クローラーは、データストアからメタデータを自動的に検出して抽出し、それ AWS Glue Data Catalog に応じて を更新します。クローラーがデータストアに接続して、データのスキーマを推測します。次に、検出したスキーマ情報を使用してデータカタログ内のテーブルを作成または更新します。クローラは、ファイルベース、および テーブルベースのデータストアの両方をクロールできます。サポートされているデータストアの詳細については、「クロール可能なデータストア」 を参照してください。

クローラーは「分類器」 を使用してデータの形式を正確に認識し、処理方法を決定します。デフォルトでは、クローラーは が提供する一般的な組み込み分類子のセットを使用しますが AWS Glue、特定のユースケースを処理するカスタム分類子を記述することもできます。

AWS Glue 接続

AWS Glue 接続を使用して、 がさまざまなデータソース AWS Glue に接続できるようにする接続パラメータを定義できます。接続を追加すると、これらのソースへの接続に必要な構成が一元化され、簡素化されます。

「接続を定義する」 ときは、接続タイプ、接続エンドポイント、および必要な認証情報を指定します。接続を定義すると、複数の AWS Glue ジョブやクローラーで再利用できます。で接続を使用すると、ログイン認証情報や Virtual Private Cloud (VPC) IDsなど、同じ接続情報を繰り返し入力する必要が AWS Glue なくなります。

AWS Glue スキーマレジストリ

「AWS Glue スキーマレジストリ」 は、データストリームスキーマを一元的に管理および実施するための場所です。これにより、データプロデューサーと非シリアル化用の異なるシステムで、シリアル化と非シリアル化用のスキーマを共有できます。スキーマを共有することで、これらのシステムは効果的にコミュニケーションをとり、変換中のエラーを回避することができます。

スキーマ・レジストリは、下流のデータ・コンシューマーが上流で行われた変更を確実に処理できるようにします。スキーマの進化をサポートしているため、以前のバージョンのスキーマとの互換性を維持したまま、スキーマを時間の経過とともに変更することができます。

Schema Registry は、Amazon Kinesis Data Streams、Firehose、Amazon Managed Streaming for Apache Kafka など、多くの AWS サービスと統合されています。ユースケースと統合の例については、AWS Glue 「スキーマレジストリとの統合」を参照してください。