翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Glue Data Catalog
「AWS Glue Data Catalog」 は、さまざまなデータソースのすべてのデータ資産を一元管理するメタデータリポジトリです。データフォーマット、スキーマ、ソースに関する情報を保存してクエリするための統合インターフェースを提供します。 AWS Glue ETL ジョブを実行すると、このカタログを使用してデータに関する情報を理解し、正しく変換されていることを確認します。
AWS Glue Data Catalog は、以下のコンポーネントで構成されています。
-
データベースとテーブル
-
クローラーおよび分類子
-
接続
-
スキーマレジストリ
AWS Glue データベースとテーブル
AWS Glue Data Catalog は「データベースとテーブル」 で構成され、メタデータを保存・管理するための論理構造を提供しています。この構造により、「AWS Identity and Access Management (IAM) ポリシー」 を使用して、テーブルレベルまたはデータベースレベルでの正確なデータアクセス制御が可能になります。
AWS Glue データベースには多数のテーブルを含めることができ、各テーブルを 1 つのデータベースに関連付ける必要があります。これらのテーブルには、実際のデータへの参照が含まれています。この参照は、 が AWS Glue サポートするさまざまなデータソースに保存できます。 AWS Glue テーブルには、列名、データ型、パーティションキーなどの必須メタデータも保存されます。
でテーブルを作成する方法は複数あります AWS Glue。
-
AWS Glue クローラー
-
AWS Glue ETL ジョブ
-
AWS Glue コンソール
-
「AWS Glue API」 での
CreateTable
操作 -
AWS CloudFormation テンプレート
-
AWS Cloud Development Kit (AWS CDK)
-
移行された Apache Hive メタストア
AWS Glue クローラと分類子
AWS Glue クローラーは、データストアからメタデータを自動的に検出して抽出し、それ AWS Glue Data Catalog に応じて を更新します。クローラーがデータストアに接続して、データのスキーマを推測します。次に、検出したスキーマ情報を使用してデータカタログ内のテーブルを作成または更新します。クローラは、ファイルベース、および テーブルベースのデータストアの両方をクロールできます。サポートされているデータストアの詳細については、「クロール可能なデータストア」 を参照してください。
クローラーは「分類器」 を使用してデータの形式を正確に認識し、処理方法を決定します。デフォルトでは、クローラーは が提供する一般的な組み込み分類子のセットを使用しますが AWS Glue、特定のユースケースを処理するカスタム分類子を記述することもできます。
AWS Glue 接続
AWS Glue 接続を使用して、 がさまざまなデータソース AWS Glue に接続できるようにする接続パラメータを定義できます。接続を追加すると、これらのソースへの接続に必要な構成が一元化され、簡素化されます。
「接続を定義する」 ときは、接続タイプ、接続エンドポイント、および必要な認証情報を指定します。接続を定義すると、複数の AWS Glue ジョブやクローラーで再利用できます。で接続を使用すると、ログイン認証情報や Virtual Private Cloud (VPC) IDsなど、同じ接続情報を繰り返し入力する必要が AWS Glue なくなります。
AWS Glue スキーマレジストリ
「AWS Glue スキーマレジストリ」 は、データストリームスキーマを一元的に管理および実施するための場所です。これにより、データプロデューサーと非シリアル化用の異なるシステムで、シリアル化と非シリアル化用のスキーマを共有できます。スキーマを共有することで、これらのシステムは効果的にコミュニケーションをとり、変換中のエラーを回避することができます。
スキーマ・レジストリは、下流のデータ・コンシューマーが上流で行われた変更を確実に処理できるようにします。スキーマの進化をサポートしているため、以前のバージョンのスキーマとの互換性を維持したまま、スキーマを時間の経過とともに変更することができます。
Schema Registry は、Amazon Kinesis Data Streams、Firehose、Amazon Managed Streaming for Apache Kafka など、多くの AWS サービスと統合されています。ユースケースと統合の例については、AWS Glue 「スキーマレジストリとの統合」を参照してください。