翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS CloudTrail ソースからのデータレイクの作成
このチュートリアルでは、AWS CloudTrail ソースから最初のデータレイクを作成してロードするために、Lake Formation コンソールで実行するアクションについて詳しく説明します。
データレイクを作成するための大まかなステップ
Amazon Simple Storage Service (Amazon S3) パスをデータレイクとして登録します。
Lake Formation に、Data Catalog、およびデータレイク内の Amazon S3 ロケーションに書き込みを行うための許可を付与します。
Data Catalog 内のメタデータテーブルを整理するためのデータベースを作成します。
ブループリントを使用してワークフローを作成します。ワークフローを実行して、データソースからデータを取り込みます。
-
他のユーザーが Data Catalog とデータレイク内のデータを管理できるようにする Lake Formation 許可を設定します。
Amazon S3 データレイクにインポートしたデータをクエリするように Amazon Athena をセットアップします。
一部のデータストアタイプについては、Amazon S3 データレイクにインポートしたデータをクエリするように Amazon Redshift Spectrum をセットアップします。
トピック
- 対象者
- 前提条件
- ステップ 1: データアナリストユーザーの作成
- ステップ 2: ワークフローロールに AWS CloudTrail ログを読み取る許可を追加する
- ステップ 3: データレイクとしての Amazon S3 バケットを作成する
- ステップ 4: Amazon S3 パスを登録する
- ステップ 5: データのロケーションの許可を付与する
- ステップ 6: Data Catalog でデータベースを作成する
- ステップ 7: データの許可を付与する
- ステップ 8: ブループリントを使用してワークフローを作成する
- ステップ 9: ワークフローを実行する
- ステップ 10: テーブルに対する SELECT を付与する
- ステップ 11: Amazon Athena を使用してデータレイクをクエリする
対象者
次の表は、このチュートリアルでデータレイクを作成するために使用しているロールのリストです。
ロール | 説明 |
---|---|
IAM 管理者 | AWS マネージドポリシーをを持っています: AdministratorAccess 。IAM ロールと Amazon S3 バケットを作成できます。 |
データレイク管理者 | Data Catalog へのアクセス、データベースの作成、および他のユーザーへの Lake Formation 許可の付与を実行できるユーザー。IAM 許可の数は IAM 管理者よりも少ないですが、データレイクを管理するには十分な許可を持っています。 |
データアナリスト | データレイクに対してクエリを実行できるユーザー。クエリを実行するために十分な許可のみを持っています。 |
ワークフローロール | ワークフローを実行するために必要な IAM ポリシーを持つロール。詳細については、「(オプション) ワークフロー用の IAM ロールを作成する」を参照してください。 |
前提条件
開始する前に、以下を確認してください。
-
「セットアップ AWS Lake Formation」のタスクを完了していること。
-
CloudTrail ログのロケーションを把握していること。
-
Athena では、データアナリストペルソナが Athena を使用する前に、クエリ結果を保存するための Amazon S3 バケットを作成する必要があります。
AWS Identity and Access Management (IAM) に精通していることが前提となっています。IAM については、「IAM ユーザーガイド」を参照してください。
ステップ 1: データアナリストユーザーの作成
このユーザーは、データレイクをクエリするための最小限の許可セットを持っています。
-
IAM コンソール (https://console.aws.amazon.com/iam
) を開きます。管理アクセスを持つユーザーを作成する で作成した管理者ユーザー、または AdministratorAccess
AWS マネージドポリシーを持つユーザーとしてサインインします。 -
以下の設定で、
datalake_user
という名前のユーザーを作成します。-
AWS Management Consoleへのアクセスを有効にする。
-
パスワードを設定して、パスワードのリセットを不要にする。
-
AmazonAthenaFullAccess
AWS マネージドポリシーをアタッチする。 -
以下のインラインポリシーをアタッチする。ポリシーには
DatalakeUserBasic
という名前を付けます。{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess", "glue:GetTable", "glue:GetTables", "glue:SearchTables", "glue:GetDatabase", "glue:GetDatabases", "glue:GetPartitions", "lakeformation:GetResourceLFTags", "lakeformation:ListLFTags", "lakeformation:GetLFTag", "lakeformation:SearchTablesByLFTags", "lakeformation:SearchDatabasesByLFTags" ], "Resource": "*" } ] }
-
ステップ 2: ワークフローロールに AWS CloudTrail ログを読み取る許可を追加する
-
以下のインラインポリシーを
LakeFormationWorkflowRole
ロールにアタッチします。このポリシーは、AWS CloudTrail ログの読み取る許可を付与します。ポリシーにはDatalakeGetCloudTrail
という名前を付けます。LakeFormationWorkflowRole
ロールを作成するには、「(オプション) ワークフロー用の IAM ロールを作成する」を参照してください。重要
<your-s3-cloudtrail-bucket>
は、CloudTrail データの Amazon S3 ロケーションに置き換えてください。{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "s3:GetObject", "Resource": ["arn:aws:s3:::
<your-s3-cloudtrail-bucket>
/*"] } ] } -
ロールに 3 つのポリシーがアタッチされていることを確認します。
ステップ 3: データレイクとしての Amazon S3 バケットを作成する
データレイクのルートロケーションになる Amazon S3 バケットを作成します。
-
Amazon S3 コンソール (https://console.aws.amazon.com/s3/
) を開き、管理アクセスを持つユーザーを作成する で作成した管理者ユーザーとしてサインインします。 -
[Create bucket] (バケットを作成) を選択し、ウィザードをすべて実行して
という名前のバケットを作成します。<yourName>
-datalake-cloudtrail<yourName>
はユーザーの名前のイニシャルと苗字の組み合わせです。例:jdoe-datalake-cloudtrail
。Amazon S3 バケットの詳しい作成手順については、「バケットの作成」を参照してください。
ステップ 4: Amazon S3 パスを登録する
Amazon S3 パスをデータレイクのルートロケーションとして登録します。
-
Lake Formation コンソール (https://console.aws.amazon.com/lakeformation/
) を開きます。データレイク管理者としてサインインします。 -
ナビゲーションペインの [Register and ingest] (登録および取り込み) で [Data lake locations] (データレイクのロケーション) を選択します。
-
[Register location] (ロケーションを登録) を選択してから、[Browse] (参照) を選択します。
-
前に作成した
バケットを選択し、デフォルトの IAM ロール<yourName>
-datalake-cloudtrailAWSServiceRoleForLakeFormationDataAccess
を受け入れ、[Register location] (ロケーションを登録) を選択します。ロケーションの登録に関する詳細については、「データレイクへの Amazon S3 ロケーションの追加」を参照してください。
ステップ 5: データのロケーションの許可を付与する
プリンシパルは、作成する Data Catalog のテーブルまたはデータベースのポイント先となるデータレイクロケーションに対するデータロケーション許可を持っている必要があります。ワークフローの IAM ロールにデータロケーション許可を付与して、ワークフローがデータ取り込み先に書き込みを実行できるようにする必要があります。
-
ナビゲーションペインの [Permissions] (許可) で [Data locations] (データのロケーション) を選択します。
-
[Grant] (付与) を選択し、[Grant permissions] (許可の付与) ダイアログボックスで、以下の選択を行います。
-
[IAM user and roles] (IAM ユーザーおよびロール) で、
LakeFormationWorkflowRole
を選択します。 -
[Storage locations] (ストレージのロケーション) で、使用する
バケットを選択します。<yourName>
-datalake-cloudtrail
-
-
[Grant] (付与) を選択します。
データロケーション許可については、「Underlying data access control」を参照してください。
ステップ 6: Data Catalog でデータベースを作成する
Lake Formation Data Catalog のメタデータテーブルは、データベース内に保存されます。
-
ナビゲーションペインの [Data catalog] で [Databases] (データベース) を選択します。
-
[Create database] (データベースを作成) を選択し、[Database details] (データベースの詳細) で
lakeformation_cloudtrail
という名前を入力します。 -
他のフィールドは空欄のままにしておき、[Create database] (データベースを作成) を選択します。
ステップ 7: データの許可を付与する
Data Catalog でメタデータテーブルを作成するための許可を付与する必要があります。ワークフローは LakeFormationWorkflowRole
ロールを使用して実行されるため、これらの許可をロールに付与する必要があります。
-
Lake Formation コンソールのナビゲーションペインにある [Data catalog] で [Databases] (データベース) を選択します。
-
lakeformation_cloudtrail
データベースを選択してから、[Actions] (アクション) ドロップダウンリストで、[Permissions] (許可) の見出しの下にある [Grant] (付与) を選択します。 -
[Grant data permissions] (データ許可の付与) ダイアログボックスで、以下の選択を行います。
-
[Principals] (プリンシパル) の [IAM user and roles] (IAM ユーザーおよびロール) で
LakeFormationWorkflowRole
を選択します。 -
[LF-Tags or catalog resources] (LF タグまたはカタログリソース) で、[Named data catalog resources] (名前付きの Data Catalog リソース) を選択します。
-
[Databases] (データベース) については、
lakeformation_cloudtrail
データベースがすでに追加されていることが確認できるはずです。 -
[Database permissions] (データベースの許可) で、[Create table] (テーブルの作成)、[Alter] (変更)、および [Drop] (ドロップ) をオンにして、[Super] (スーパー) が選択されている場合はそれをオフにします。
[Grant data permissions] (データ許可の付与) ダイアログボックスは、今の時点で以下のスクリーンショットのようになっているはずです。
-
-
[Grant] (付与) を選択します。
Lake Formation 許可の付与に関する詳細ついては、「Lake Formation 許可の管理」を参照してください。
ステップ 8: ブループリントを使用してワークフローを作成する
CloudTrail ログを読み取り、その構造を理解し、Data Catalog で適切なテーブルを作成するには、AWS Glue クローラ、ジョブ、トリガー、およびワークフローで構成されるワークフローをセットアップする必要があります。Lake Formation のブループリントを使用すると、このプロセスが容易になります。
ワークフローは、データを検出してデータレイクに取り込むジョブ、クローラ、およびトリガーを生成します。ワークフローは、事前定義された Lake Formation ブループリントのいずれかに基づいて作成します。
-
Lake Formation コンソールのナビゲーションペインで [Blueprints] (ブループリント) を選択してから、[Use blueprint] (ブループリントを使用) を選択します。
-
[Use a blueprint] (ブループリントの使用) ページの [Blueprint type] (ブループリントタイプ) で [AWS CloudTrail]を選択します。
-
[Import source] (インポートソース) で、CloudTrail ソースと開始日を選択します。
-
[Import target] (インポートターゲット) で、以下のパラメータを指定します。
[Target database] (ターゲットデータベース) lakeformation_cloudtrail
[Target storage location] (ターゲットストレージロケーション) s3://
<yourName>
-datalake-cloudtrail[Data format] (データ形式) Parquet -
[Import Frequency] (インポート頻度) には、[Run on demand] (オンデマンドで実行) を選択します。
-
[Import target] (インポートオプション) で、以下のパラメータを指定します。
[Workflow name] (ワークフロー名) lakeformationcloudtrailtest
[IAM role] (IAM ロール) LakeFormationWorkflowRole
[Table prefix] (テーブルプレフィックス) cloudtrailtest
注記
小文字を使用する必要があります。
-
[Create] (作成) を選択し、ワークフローが正常に作成されたことコンソールが報告するまで待機します。
ヒント
以下のエラーメッセージが表示されましたか?
User: arn:aws:iam::
<account-id>
:user/<datalake_administrator_user>
is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>
:role/LakeFormationWorkflowRole...表示された場合は、データレイク管理者ユーザーのインラインポリシーにある
<account-id>
が有効な AWS アカウント番号に置き換えられているかどうかをチェックしてください。
ステップ 9: ワークフローを実行する
ワークフローがオンデマンドで実行されることを指定したので、ワークフローは手動で開始する必要があります。
-
[Blueprints] (ブループリント) ページでワークフロー
lakeformationcloudtrailtest
を選択し、[Actions] (アクション) メニューから [Start] (開始) を選択します。ワークフローの実行に伴って、その進捗状況を [Last run status] (最終実行ステータス) 列で確認できます。更新ボタンを随時選択します。
ステータスは、[RUNNING] (実行中) から、[Discovering] (検出中)、[Importing] (インポート中)、[COMPLETED] (完了) と移行します。
ワークフローが完了すると、以下のようになります。
-
Data Catalog に新しいメタデータテーブルがある。
-
CloudTrail ログがデータレイクに取り込まれる。
ワークフローが失敗する場合は、以下を実行します。
-
ワークフローを選択し、[Actions] (アクション) メニューで [View graph] (グラフを表示) を選択します。
AWS Glue コンソールでワークフローが開きます。
-
そのワークフローが選択されていることを確認し、[History] (履歴) タブを選択します。
-
[History] (履歴) で、最新の実行を選択し、[View run details] (実行の詳細を表示) を選択します。
-
動的 (ランタイム) グラフで失敗したジョブまたはクローラを選択し、エラーメッセージを確認します。障害が発生したノードは赤色または黄色のいずれかになっています。
-
ステップ 10: テーブルに対する SELECT を付与する
テーブルがポイントするデータをデータアナリストがクエリできるように、新しい Data Catalog テーブルに対する SELECT
許可を付与する必要があります。
注記
ワークフローは、ワークフローが作成するテーブルに対する SELECT
許可を、ワークフローを実行したユーザーに自動的に付与します。このワークフローはデータレイク管理者が実行したので、データアナリストに SELECT
を付与する必要があります。
-
Lake Formation コンソールのナビゲーションペインにある [Data catalog] で [Databases] (データベース) を選択します。
-
lakeformation_cloudtrail
データベースを選択してから、[Actions] (アクション) ドロップダウンリストで、[Permissions] (許可) の見出しの下にある [Grant] (付与) を選択します。 -
[Grant data permissions] (データ許可の付与) ダイアログボックスで、以下の選択を行います。
-
[Principals] (プリンシパル) の [IAM user and roles] (IAM ユーザーおよびロール) で
datalake_user
を選択します。 -
[LF-Tags or catalog resources] (LF タグまたはカタログリソース) で、[Named data catalog resources] (名前付きの Data Catalog リソース) を選択します。
-
[Databases] (データベース) については、
lakeformation_cloudtrail
データベースがすでに選択されているはずです。 -
[Tables] (テーブル) には
cloudtrailtest-cloudtrail
を選択します。 -
[Table and column permissions] (テーブルと列の許可) で [Select] (選択) をオンにします。
-
-
[Grant] (付与) を選択します。
次のステップは、データアナリストとして実行します。
ステップ 11: Amazon Athena を使用してデータレイクをクエリする
Amazon Athena コンソールを使用して、データレイク内の CloudTrail データをクエリします。
-
Athena コンソール (https://console.aws.amazon.com/athena/
) を開き、データアナリストのユーザー datalake_user
としてサインインします。 -
必要に応じて [Get Started] (開始する) を選択して、Athena クエリエディタに進みます。
-
[Data source] (データソース) で [AwsDataCatalog] を選択します。
-
[Database] (データベース) で、
lakeformation_cloudtrail
を選択します。[Tables] (テーブル) リストが表示されます。
-
テーブル
cloudtrailtest-cloudtrail
の横にあるオーバーフローメニュー (縦方向に並んだ 3 つの点) で、[Preview table] (表をプレビュー)、[Run] (実行) の順に選択します。クエリが実行され、10 行のデータが表示されます。
これまで Athena を使用したことがないという場合は、最初に Athena コンソールでクエリ結果を保存するための Amazon S3 ロケーションを設定する必要があります。
datalake_user
は、ユーザーが選択した Amazon S3 バケットへのアクセスに必要な許可を持っている必要があります。
注記
チュートリアルが完了したところで、次は組織内のプリンシパルにデータ許可とデータロケーション許可を付与します。