Amazon AWS Lake Formation での の使用 EMR - AWS Lake Formation

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon AWS Lake Formation での の使用 EMR

Amazon EMR は、Hadoop Map-Reduce、Spark、Hive、Presto など、サポートされているビッグデータフレームワークで任意のカスタムコードを実行することができる柔軟な AWS マネージドクラスタープラットフォームです。また、組織は Amazon を使用して、高度EMRに分散されたクラスター全体でバッチデータ処理アプリケーションとストリームデータ処理アプリケーションの両方を実行します。Amazon で Apache Spark を使用するとEMR、Lake Formation によってアクセス許可が管理されているデータベースとテーブルでデータ変換とカスタムコードを実行できます。

Amazon をデプロイするには、次の 3 つのオプションがありますEMR。

  • EMR 上の EC2

  • EMR サーバーレス

  • EMR での Amazon EKS

詳細については、「Amazon EMRを Lake Formation と統合する」または「 でEMRサーバーレスを使用してきめ細かなアクセスコントロール AWS Lake Formation を行う」を参照してください。

トランザクションテーブル形式のサポート

Amazon EMRリリース 6.15.0 以降には、Spark でデータを読み書きする場合の Apache HudiApache Iceberg、および Delta Lake テーブル形式の Lake Formation テーブル、行、列、およびセルレベルのアクセスコントロール許可のサポートが含まれていますSQL。 https://github.com/aws-samples/amazon-emr-with-delta-lake

制限については、「Lake Formation EMRを使用した Amazon の考慮事項」を参照してください。

サポートされるテーブル形式
テーブル形式 説明と許可されるオペレーション Amazon でサポートされている Lake Formation 許可 EMR

Apache Hudi

増分データ処理とデータパイプラインの開発を簡素化するために使用されるオープンテーブル形式。

サポートされているオペレーションのリストについては、「Apache Hudi と Lake Formation」を参照してください。

Amazon EMR は、Apache Hudi によるテーブル、行、列、およびセルレベルのアクセスコントロールをサポートしています。

Apache Iceberg

大量のファイルのコレクションをテーブルとして管理するオープンテーブル形式。

サポートされているオペレーションのリストについては、「Apache Iceberg と Lake Formation」を参照してください。

Amazon EMR は、Apache Iceberg によるテーブル、行、列、およびセルレベルのアクセスコントロールをサポートしています。

Linux Foundation Delta Lake

Delta Lake は、Amazon S3 または Hadoop Distributed File System () に一般的に構築されている最新のデータレイクアーキテクチャの実装を支援するオープンソースプロジェクトですHDFS。

サポートされているオペレーションのリストについては、「Delta Lake と Lake Formation」を参照してください。

Amazon EMR は、Delta Lake テーブルによるテーブル、行、列、およびセルレベルのアクセスコントロールをサポートしています。

追加リソース