Lake Formation の用語 - AWS Lake Formation

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Lake Formation の用語

以下は、本ガイドで使用される重要な用語の一部です。

データレイク

データレイクは、Amazon S3 に保存され、Data Catalog を使用して Lake Formation によって管理される永続的なデータです。通常、データレイクには以下のデータが保存されます。

  • 構造化データと非構造化データ

  • raw データと変換されたデータ

Amazon S3 パスをデータレイク内に配置するには、パスを Lake Formation に登録する必要があります。

データアクセス

Lake Formation は、 AWS Identity and Access Management (IAM) ポリシーを強化する新しい許可/取り消しモデルを通じて、データへの安全できめ細かなアクセスを提供します。

アナリストとデータサイエンティストは、Amazon Athena などの AWS 分析および機械学習サービスの完全なポートフォリオを使用してデータにアクセスできます。設定済みの Lake Formation のセキュリティポリシーは、ユーザーがアクセスを認可されているデータにしかアクセスできないことを確実にするために役立ちます。

ハイブリッドアクセスモード

ハイブリッドアクセスモードでは、Lake Formation のアクセス許可と IAM や Amazon S3 のアクセス許可の両方を使用して、カタログ化されたデータを保護およびアクセスできます。ハイブリッドアクセスモードを使用すると、データ管理者は、一度に 1 つのデータレイクのユースケースに絞って、選択的かつ段階的に Lake Formation のアクセス許可をオンボーディングできます。

ブループリント

ブループリントは、データレイクにデータを簡単に取り込めるようにするデータ管理テンプレートです。Lake Formation には、リレーショナルデータベースや AWS CloudTrail ログなど、事前定義されたソースタイプごとに複数のブループリントが用意されています。ブループリントからは、ワークフローを作成できます。ワークフローは、データのロードと更新を調整するために生成される AWS Glue クローラ、ジョブ、トリガーで構成されます。ブループリントは、データソース、データターゲット、およびスケジュールを入力として使用して、ワークフローを設定します。

ワークフロー

ワークフローは、一連の関連する AWS Glue のジョブ、クローラ、およびトリガーのためのコンテナです。Lake Formation でワークフローを作成すると、それが AWS Glue サービスで実行されます。Lake Formation は、ワークフローのステータスを単一のエンティティとして追跡できます。

ワークフローを定義するときは、ワークフローの基礎となるブループリントを選択します。その後、ワークフローをオンデマンドで、またはスケジュールに従って実行できます。

Lake Formation で作成するワークフローは、AWS Glue コンソールに DAG (Directed Acyclic Graph) として表示されます。DAG を使用することで、ワークフローの進行状況を追跡し、トラブルシューティングを実行できます。

Data Catalog

Data Catalog は、永続的なメタデータストアです。これは、Apache Hive メタストアと同じ方法でメタデータを AWS クラウドに保存、注釈付け、共有できるマネージドサービスです。異種システムがデータサイロ内のデータを追跡するためのメタデータを保存して検索できる均一なリポジトリを提供し、そのメタデータを使用してデータのクエリと変換を行います。Lake Formation は、AWS Glue Data Catalog を使用して、データレイク、データソース、変換、およびターゲットに関するメタデータを保存します。

データソースとターゲットに関するメタデータは、データベースとテーブルの形式になっています。テーブルは、スキーマ情報、およびロケーション情報などを保存します。データベースはテーブルのコレクションです。Lake Formation は、Data Catalog 内のデータベースとテーブルへのアクセスを制御するための許可の階層を提供します。

各 AWS アカウントには AWS 、リージョンごとに 1 つのデータカタログがあります。

基盤となるデータ

基盤となるデータとは、Data Catalog テーブルがポイントするソースデータまたはデータレイク内のデータのことです。

Principal

プリンシパルは、 AWS Identity and Access Management (IAM) ユーザーまたはロール、または Active Directory ユーザーです。

データレイク管理者

データレイク管理者は、あらゆる Data Catalog リソースまたはデータロケーションに対する許可を任意のプリンシパル (自分自身を含む) に付与できるプリンシパルです。データレイク管理者は、Data Catalog の最初のユーザーとして指定します。このユーザーは、リソースのより詳細な許可を他のプリンシパルに付与できるようになります。

注記

AdministratorAccess AWS 管理ポリシーを持つ IAM 管理ユーザーは、自動的にデータレイク管理者になるわけではありません。例えば、IAM 管理ユーザーがカタログオブジェクトに対する Lake Formation 許可を付与できるのは、これを実行する許可が IAM 管理ユーザー付与されている場合のみになります。ただし、IAM 管理ユーザーは、Lake Formation コンソールまたは API を使用して、自分自身をデータレイク管理者として指定できます。

データレイク管理者の能力については、「黙示的な Lake Formation 許可」を参照してください。ユーザーのデータレイク管理者としての指定については、「データレイク管理者を作成する」を参照してください。