AWS Lake Formation でのの使用 AWS Glue

データエンジニアと DevOps プロフェッショナルは、Apache Spark AWS Glue で Extract、Transform、Load (ETL) を使用して Amazon S3 のデータセットで変換を実行し、変換されたデータを分析、機械学習、アプリケーション開発用のデータレイクとデータウェアハウスにロードします。複数のチームが Amazon S3 の同じデータセットにアクセスする場合、それぞれのロールに基づいてアクセス許可を付与および制限することが不可欠です。

AWS Lake Formation は上に構築されており AWS Glue、サービスは次の方法でやり取りします。

Lake Formation と AWS Glue 同じデータカタログを共有します。
次の Lake Formation コンソール機能は、を呼び出します。AWS Glue コンソール：
- ジョブ – 詳細については、AWS Glue デベロッパーガイドの「ジョブを追加する」を参照してください。
- クローラー – 詳細については、AWS Glue デベロッパーガイドの「クローラーを使用したテーブルのカタログ化」を参照してください。
Lake Formation ブループリントの使用時に生成されるワークフローは次のとおりです。AWS Glue ワークフロー。これらのワークフローは、Lake Formation コンソールとの両方で表示および管理できます。AWS Glue console。
機械学習変換は Lake Formation で提供され、上に構築されます。AWS Glue API オペレーション。で機械学習変換を作成および管理します。AWS Glue console。詳細については、「AWS Glue デベロッパーガイド」の「機械学習変換」を参照してください。

Lake Formation の細粒度のアクセスコントロールを使用して、既存のデータカタログリソースと Amazon S3 データロケーションを管理できます。

注記

AWS Glue ETL では、基盤となる Amazon S3 の場所からデータを取得するときに、テーブル全体へのフルアクセスが必要です。 AWS Glue ETLテーブルに列レベルのアクセス許可を適用すると、ジョブは失敗します。

トランザクションテーブルタイプのサポート

Lake Formation アクセス許可を適用すると、Amazon S3 ベースのデータレイク内のトランザクションデータを保護できます。以下の表は、 AWS Glue および Lake Formation アクセス許可でサポートされているトランザクションテーブル形式を示しています。Lake Formation は AWS Glue 、オペレーションにこれらのアクセス許可を適用します。

サポートされるテーブル形式
テーブル形式	説明と許可されるオペレーション	でサポートされる Lake Formation アクセス許可 AWS Glue
Apache Hudi	増分データ処理とデータパイプラインの開発を簡素化するために使用されるオープンテーブル形式。例については、「」の「Hudi フレームワークの使用 AWS Glue」を参照してください。	テーブルレベルのアクセス許可は、Hudi テーブルで利用できます。詳細については、「制限」を参照してください。
Apache Iceberg	大量のファイルのコレクションをテーブルとして管理するオープンテーブル形式。例については、「」の「Iceberg フレームワークの使用 AWS Glue」を参照してください。	テーブルレベルのアクセス許可は、Iceberg テーブルで利用できます。詳細については、「制限」を参照してください。
Linux Foundation Delta Lake	Delta Lake は、Amazon S3 または Hadoop 分散ファイルシステム () 上に一般的に構築されている最新のデータレイクアーキテクチャの実装に役立つオープンソースプロジェクトですHDFS。例については、「」の「Delta Lake フレームワークの使用 AWS Glue」を参照してください。	テーブルレベルのアクセス許可は、Delta Lake テーブルで利用できます。詳細については、「制限」を参照してください。

追加リソース

ブログ投稿とリポジトリ

AWS Glue コネクタを使用して、ACIDトランザクションを含む Apache Iceberg テーブルの読み取りと書き込みを行い、タイムトラベルを実行します。
AWS Glue カスタムコネクタを使用した Apache Hudi テーブルへの書き込み
AWS 、Apache Hudi AWS Glue、Amazon S3 を使用してストリーミングデータを分析するための Cloudformation テンプレートと pyspark コードサンプルのリポジトリ。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Redshift Spectrum

Amazon EMR

AWS Lake Formation での の使用 AWS Glue

注記

トランザクションテーブルタイプのサポート

追加リソース

ブログ投稿とリポジトリ

AWS Lake Formation でのの使用 AWS Glue