データレイクデータアクセスハイブリッドアクセスモードブループリントワークフローデータカタログ基盤となるデータ Principal データレイク管理者

Lake Formation の用語

以下は、本ガイドで使用される重要な用語の一部です。

データレイク

データレイクは、Amazon S3 に保存され、Data Catalog を使用して Lake Formation によって管理される永続的なデータです。通常、データレイクには以下のデータが保存されます。

構造化データと非構造化データ
raw データと変換されたデータ

Amazon S3 パスをデータレイク内に配置するには、パスを Lake Formation に登録する必要があります。

データアクセス

Lake Formation は、 AWS Identity and Access Management （IAM) ポリシーを強化する新しい許可/取り消しアクセス許可モデルを通じて、データへの安全かつきめ細かなアクセスを提供します。

アナリストとデータサイエンティストは、Amazon Athena などの AWS 分析および機械学習サービスのフルポートフォリオを使用してデータにアクセスできます。設定済みの Lake Formation のセキュリティポリシーは、ユーザーがアクセスを認可されているデータにしかアクセスできないことを確実にするために役立ちます。

ハイブリッドアクセスモード

Hyrbid アクセスモードでは、Lake Formation アクセス許可と Amazon S3 アクセス許可の両方を使用して、カタログ化されたデータを保護IAMしてアクセスできます。ハイブリッドアクセスモードを使用すると、データ管理者は、一度に 1 つのデータレイクのユースケースに絞って、選択的かつ段階的に Lake Formation のアクセス許可をオンボーディングできます。

ブループリント

ブループリントは、データレイクにデータを簡単に取り込めるようにするデータ管理テンプレートです。Lake Formation には、リレーショナルデータベースや AWS CloudTrail ログなど、事前に定義されたソースタイプごとに複数の設計図が用意されています。ブループリントからは、ワークフローを作成できます。ワークフローは、データのロードと更新を調整するために生成される AWS Glue クローラ、ジョブ、トリガーで構成されます。ブループリントは、データソース、データターゲット、およびスケジュールを入力として使用して、ワークフローを設定します。

ワークフロー

ワークフローは、関連する一連のコンテナです。AWS Glue ジョブ、クローラー、トリガー。Lake Formation でワークフローを作成し、AWS Glue サービス。Lake Formation は、ワークフローのステータスを単一のエンティティとして追跡できます。

ワークフローを定義するときは、ワークフローの基礎となるブループリントを選択します。その後、ワークフローをオンデマンドで、またはスケジュールに従って実行できます。

Lake Formation で作成したワークフローは、に表示されます。AWS Glue コンソールは、指向非循環グラフ () として使用されますDAG。を使用するとDAG、ワークフローの進行状況を追跡し、トラブルシューティングを実行できます。

データカタログ

Data Catalog は、永続的なメタデータストアです。これは、Apache Hive メタストアと同じ方法でメタデータを AWS クラウドに保存、注釈付け、共有できるマネージドサービスです。異種システムがデータサイロ内のデータを追跡するためのメタデータを保存して検索できる均一なリポジトリを提供し、そのメタデータを使用してデータのクエリと変換を行います。Lake Formation はを使用します。AWS Glue Data Catalog は、データレイク、データソース、変換、ターゲットに関するメタデータを保存します。

データソースとターゲットに関するメタデータは、データベースとテーブルの形式になっています。テーブルは、スキーマ情報、およびロケーション情報などを保存します。データベースはテーブルのコレクションです。Lake Formation は、Data Catalog 内のデータベースとテーブルへのアクセスを制御するための許可の階層を提供します。

各 AWS アカウントには、 AWS リージョンごとに 1 つのデータカタログがあります。

基盤となるデータ

基盤となるデータとは、Data Catalog テーブルがポイントするソースデータまたはデータレイク内のデータのことです。

Principal

プリンシパルは、 AWS Identity and Access Management （IAM) ユーザーまたはロール、または Active Directory ユーザーです。

データレイク管理者

データレイク管理者は、あらゆる Data Catalog リソースまたはデータロケーションに対する許可を任意のプリンシパル (自分自身を含む) に付与できるプリンシパルです。データレイク管理者は、Data Catalog の最初のユーザーとして指定します。このユーザーは、リソースのより詳細な許可を他のプリンシパルに付与できるようになります。

注記

IAM 管理ユーザー - AdministratorAccess AWS 管理ポリシーを持つユーザーは、自動的にデータレイク管理者ではありません。例えば、IAM 管理ユーザーがカタログオブジェクトに対する Lake Formation 許可を付与できるのは、これを実行する許可が IAM 管理ユーザー付与されている場合のみになります。ただし、Lake Formation コンソールまたはを使用して、自身APIをデータレイク管理者として指定できます。

データレイク管理者の能力については、「黙示的な Lake Formation 許可」を参照してください。ユーザーのデータレイク管理者としての指定については、「データレイク管理者を作成する」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Lake Formation コンポーネント

AWS Lake Formation とのサービス統合