翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Lake Formation での の使用 AWS Glue
データエンジニアと DevOps プロフェッショナルは、Apache Spark AWS Glue で Extract、Transform、Load (ETL) を使用して Amazon S3 のデータセットで変換を実行し、変換されたデータを分析、機械学習、アプリケーション開発用のデータレイクとデータウェアハウスにロードします。複数のチームが Amazon S3 の同じデータセットにアクセスする場合、それぞれのロールに基づいてアクセス許可を付与および制限することが不可欠です。
AWS Lake Formation は 上に構築されており AWS Glue、サービスは次の方法でやり取りします。
-
Lake Formation と AWS Glue 同じデータカタログを共有します。
-
次の Lake Formation コンソール機能は、 を呼び出します。AWS Glue コンソール:
-
ジョブ – 詳細については、AWS Glue デベロッパーガイドの「ジョブを追加する」を参照してください。
-
クローラー – 詳細については、AWS Glue デベロッパーガイドの「クローラーを使用したテーブルのカタログ化」を参照してください。
-
-
Lake Formation ブループリントの使用時に生成されるワークフローは次のとおりです。AWS Glue ワークフロー。これらのワークフローは、Lake Formation コンソールと の両方で表示および管理できます。AWS Glue console。
-
機械学習変換は Lake Formation で提供され、 上に構築されます。AWS Glue API オペレーション。で機械学習変換を作成および管理します。AWS Glue console。詳細については、「AWS Glue デベロッパーガイド」の「機械学習変換」を参照してください。
Lake Formation の細粒度のアクセスコントロールを使用して、既存のデータカタログリソースと Amazon S3 データロケーションを管理できます。
注記
AWS Glue ETL では、基盤となる Amazon S3 の場所からデータを取得するときに、テーブル全体へのフルアクセスが必要です。 AWS Glue ETLテーブルに列レベルのアクセス許可を適用すると、ジョブは失敗します。
トランザクションテーブルタイプのサポート
Lake Formation アクセス許可を適用すると、Amazon S3 ベースのデータレイク内のトランザクションデータを保護できます。以下の表は、 AWS Glue および Lake Formation アクセス許可でサポートされているトランザクションテーブル形式を示しています。Lake Formation は AWS Glue 、オペレーションにこれらのアクセス許可を適用します。
テーブル形式 | 説明と許可されるオペレーション | でサポートされる Lake Formation アクセス許可 AWS Glue |
---|---|---|
Apache Hudi |
増分データ処理とデータパイプラインの開発を簡素化するために使用されるオープンテーブル形式。 例については、「」の「Hudi フレームワークの使用 AWS Glue」を参照してください。 |
テーブルレベルのアクセス許可は、Hudi テーブルで利用できます。 詳細については、「制限」を参照してください。 |
Apache Iceberg |
大量のファイルのコレクションをテーブルとして管理するオープンテーブル形式。 例については、「」の「Iceberg フレームワークの使用 AWS Glue」を参照してください。 |
テーブルレベルのアクセス許可は、Iceberg テーブルで利用できます。 詳細については、「制限」を参照してください。 |
Linux Foundation Delta Lake |
Delta Lake は、Amazon S3 または Hadoop 分散ファイルシステム () 上に一般的に構築されている最新のデータレイクアーキテクチャの実装に役立つオープンソースプロジェクトですHDFS。 例については、「」の「Delta Lake フレームワークの使用 AWS Glue」を参照してください。 |
テーブルレベルのアクセス許可は、Delta Lake テーブルで利用できます。 詳細については、「制限」を参照してください。 |
追加リソース
ブログ投稿とリポジトリ
-
AWS Glue コネクタを使用して、ACIDトランザクションを含む Apache Iceberg テーブルの読み取りと書き込みを行い、タイムトラベルを実行します。
-
AWS 、Apache Hudi AWS Glue、Amazon S3 を使用してストリーミングデータを分析するための Cloudformation テンプレートと pyspark コードサンプルの
リポジトリ。