Amazon EMRリリース 6.4.0 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMRリリース 6.4.0

6.4.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています。 Flink, Ganglia, HBase, HCatalog, Hadoop, Hive, Hudi, Hue, JupyterEnterpriseGateway, JupyterHub, Livy, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Trino, Zeppelin、および ZooKeeper.

次の表に、Amazon のこのリリースで利用可能なアプリケーションバージョンEMRと、前の 3 つの Amazon EMRリリース (該当する場合) のアプリケーションバージョンを示します。

Amazon の各リリースのアプリケーションバージョンの包括的な履歴についてはEMR、以下のトピックを参照してください。

アプリケーションバージョン情報
emr-6.4.0 emr-6.3.1 emr-6.3.0 emr-6.2.1
AWS SDK for Java 1.12.311.11.9771.11.9771.11.880
Python 2.7、3.72.7、3.72.7、3.72.7、3.7
Scala 2.12.102.12.102.12.102.12.10
AmazonCloudWatchAgent - - - -
Delta - - - -
Flink1.13.11.12.11.12.11.11.2
Ganglia3.7.23.7.23.7.23.7.2
HBase2.4.42.2.62.2.62.2.6-amzn-0
HCatalog3.1.23.1.23.1.23.1.2
Hadoop3.2.13.2.13.2.13.2.1
[Hive]3.1.23.1.23.1.23.1.2
Hudi0.8.0-amzn-00.7.0-amzn-00.7.0-amzn-00.6.0-amzn-1
Hue4.9.04.9.04.9.04.8.0
Iceberg - - - -
JupyterEnterpriseGateway2.1.02.1.02.1.02.1.0
JupyterHub1.4.11.2.21.2.21.1.0
Livy0.7.10.7.00.7.00.7.0
MXNet1.8.01.7.01.7.01.7.0
Mahout - - - -
Oozie5.2.15.2.15.2.15.2.0
フェニックス5.1.25.0.05.0.05.0.0
Pig0.17.00.17.00.17.00.17.0
Presto0.254.10.245.10.245.10.238.3
Spark3.1.23.1.13.1.13.0.1
Sqoop1.4.71.4.71.4.71.4.7
TensorFlow2.4.12.4.12.4.12.3.1
Tez0.9.20.9.20.9.20.9.2
Trino (PrestoSQL)359350350343
Zeppelin0.9.00.9.00.9.00.9.0
ZooKeeper3.5.73.4.143.4.143.4.14

6.4.0 リリースノート

次のリリースノートには、Amazon EMRリリース 6.4.0 に関する情報が含まれています。6.3.0 からの変更が含まれています。

初回リリース日: 2021 年 9 月 20 日

更新リリース日: 2022 年 3 月 21 日

サポートされているアプリケーション
  • AWS SDK for Java バージョン 1.12.31

  • CloudWatch シンクバージョン 2.2.0

  • DynamoDB Connector バージョン 4.16.0

  • EMRFS バージョン 2.47.0

  • Amazon EMR Goodies バージョン 3.2.0

  • Amazon EMR Kinesis Connector バージョン 3.5.0

  • Amazon EMR Record Server バージョン 2.1.0

  • Amazon EMR Scripts バージョン 2.5.0

  • Flink バージョン 1.13.1

  • Ganglia バージョン 3.7.2

  • AWS Glue Hive メタストアクライアントバージョン 3.3.0

  • Hadoop バージョン 3.2.1-amzn-4

  • HBase バージョン 2.4.4-amzn-0

  • HBase-operator-tools 1.1.0

  • HCatalog バージョン 3.1.2-amzn-5

  • Hive バージョン 3.1.2-amzn-5

  • Hudi バージョン 0.8.0-amzn-0

  • Hue バージョン 4.9.0

  • Java JDKバージョン Corretto-8.302.08.1 (ビルド 1.8.0_302-b08)

  • JupyterHub バージョン 1.4.1

  • Livy バージョン 0.7.1-incubating

  • MXNet バージョン 1.8.0

  • Oozie バージョン 5.2.1

  • Phoenix バージョン 5.1.2

  • Pig バージョン 0.17.0

  • Presto バージョン 0.254.1-amzn-0

  • Trino バージョン 359

  • Apache Ranger KMS (マルチマスター透過的暗号化) バージョン 2.0.0

  • ranger-plugins 2.0.1-amzn-0

  • ranger-s3-plugin 1.2.0

  • SageMaker Spark SDKバージョン 1.4.1

  • Scala バージョン 2.12.10 (64-Bitサーバー VM、Java 1.8.0_282 を開くJDK)

  • Spark バージョン 3.1.2-amzn-0

  • spark-rapids 0.4.1

  • Sqoop バージョン 1.4.7

  • TensorFlow バージョン 2.4.1

  • tez バージョン 0.9.2

  • Zeppelin バージョン 0.9.0

  • Zookeeper バージョン 3.5.7

  • コネクタおよびドライバー: DynamoDB Connector 4.16.0

新機能
  • 〔マネージドスケーリング] Spark シャッフルデータマネージドスケーリングの最適化 - Amazon EMRバージョン 5.34.0 以降、およびEMRバージョン 6.4.0 以降では、マネージドスケーリングが Spark シャッフルデータ対応になりました (Spark が特定のオペレーションを実行するためにパーティション間で再分散するデータ)。シャッフルオペレーションの詳細については、「Amazon 管理ガイド」および「Spark プログラミングガイド」の「Amazon でのEMRマネージドスケーリングEMRの使用」を参照してください。 EMR https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations

  • Apache Ranger 対応の Amazon EMRクラスターでは、Apache Spark を使用してSQL、INSERT INTO、、INSERT OVERWRITEおよび を使用して Apache Hive メタストアテーブルにデータを挿入または更新できますALTER TABLE。Spark ALTERTABLEで を使用する場合SQL、パーティションの場所はテーブルの場所の子ディレクトリである必要があります。Amazon EMRは現在、パーティションの場所がテーブルの場所と異なるパーティションへのデータの挿入をサポートしていません。

  • PrestoSQL の名前が Trino に変更されました。

  • Hive: LIMIT句を含む単純なSELECTクエリの実行は、LIMIT句に記載されているレコード数が取得されるとすぐにクエリの実行を停止することで高速化されます。簡易SELECTクエリは、GROUPBY / ORDER by 句を持たないクエリ、またはリデューサーステージを持たないクエリです。例えば、SELECT * from <TABLE> WHERE <Condition> LIMIT <Number> と指定します。

Hudi の同時実行制御
  • Hudi では、Optimistic Concurrency Control (OCC) がサポートされるようになりました。これは、 UPSERTや などの書き込みオペレーションで活用INSERTでき、複数のライターから同じ Hudi テーブルに変更を加えることができます。これはファイルレベル であるためOCC、変更が競合しない場合、2 つのコミット (またはライター) が同じテーブルに書き込むことができます。詳細については、「Hudi Concurrency Control」を参照してください。

  • Amazon EMRクラスターには Zookeeper がインストールされており、 のロックプロバイダーとして利用できますOCC。この機能を簡単に使用するために、Amazon EMRクラスターには以下のプロパティが事前設定されています。

    hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<EMR Zookeeper URL> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port> hoodie.write.lock.zookeeper.base_path=/hudi

    を有効にするにはOCC、Hudi ジョブオプションを使用するか、Amazon EMR設定 を使用してクラスターレベルで次のプロパティを設定する必要がありますAPI。

    hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=<Key to uniquely identify the Hudi table> (Table Name is a good option)
Hudi モニタリング: Hudi メトリクスを報告する Amazon CloudWatch 統合
  • Amazon EMRは、Amazon への Hudi メトリクスの発行をサポートしています CloudWatch。これを有効にするには、次の必要な設定を行います。

    hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
  • 変更できるオプションの Hudi 設定を以下に示します。

    設定 説明

    hoodie.metrics.cloudwatch.report.period.seconds

    Amazon にメトリクスを報告する頻度 (秒単位) CloudWatch

    デフォルト値は 60 秒です。これは、Amazon が提供するデフォルトの 1 分間の解像度で問題ありません。 CloudWatch

    hoodie.metrics.cloudwatch.metric.prefix

    各メトリクス名に追加するプレフィックス

    デフォルト値は空です (プレフィックスなし)

    hoodie.metrics.cloudwatch.namespace

    メトリクスが公開される Amazon CloudWatch 名前空間

    デフォルト値は Hudi です

    ":".metrics.cloudwatch.maxDatumsPerRequest

    Amazon への 1 つのリクエストに含めるデータムの最大数 CloudWatch

    デフォルト値は 20 で、Amazon の CloudWatch デフォルトと同じです。

Amazon EMR Hudi 設定のサポートと改善
  • お客様は、EMR設定APIと再設定機能を活用して、クラスターレベルで Hudi 設定を設定できるようになりました。Spark、Hive などの他のアプリケーションの行に沿って、新しいファイルベースの設定サポート via /etc/hudi/conf/hudi-defaults.conf が導入されました。 は、ユーザーエクスペリエンスを向上させるためにいくつかのデフォルトEMRを設定します。

    hoodie.datasource.hive_sync.jdbcurl はクラスター Hive サーバーに設定URLされ、指定する必要はありません。これは、以前に Amazon EMRマスター IP を指定する必要がありましたが、Spark クラスターモードでジョブを実行する場合に特に便利です。

    — Hudi でHBaseインデックスを使用するのに役立つHBase特定の設定。

    — 同時実行制御で説明されているように、Zookeeper ロックプロバイダー固有の設定。これにより、オプティミスティック同時実行制御 () の使用が容易になりますOCC。

  • 渡す必要がある設定の数を減らし、可能な場合は自動的に推測するために、追加の変更が導入されました。

    partitionBy キーワードは、パーティション列を指定するために使用できます。

    — Hive Sync を有効にすると、HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY を渡すのは必須ではなくなります。これらの値は、Hudi テーブル名とパーティションフィールドから推測できます。

    KEYGENERATOR_CLASS_OPT_KEY を渡すのは必須ではなく、より単純な SimpleKeyGenerator および ComplexKeyGenerator のケースから推測できます。

Hudi Caveats
  • Hudi では、読み取り時マージ (MoR) テーブルおよびブートストラップテーブルの Hive でのベクトル化された実行をサポートしていません。例えば、hive.vectorized.execution.enabled が true に設定されている場合、Hudi リアルタイムテーブルで count(*) は失敗します。回避策として、hive.vectorized.execution.enabledfalse に設定して、ベクトル化された読み取りを無効にすることができます。

  • マルチライターサポートは、Hudi ブートストラップ機能とは互換性がありません。

  • Flink Streamer と Flink SQLは、このリリースの実験的な機能です。これらの機能は、実稼働環境での使用はお勧めしません。

変更点、機能強化、解決した問題

これは、クラスターのスケールアップ/スケールダウンに失敗した場合、またはアプリケーション障害が発生した場合の Amazon EMR Scaling の問題を修正するためのリリースです。

  • 以前は、マルチマスタークラスターでリソースマネージャーを手動で再起動すると、Zookeeper などの Amazon クラスターEMR上のデーモンが、Zookeeper の znode ファイルで以前に廃止されたノードまたは失われたノードをすべて再ロードしていました。これにより、特定の状況でデフォルトの制限を超えることがありました。Amazon EMRは、1 時間以上経過した廃止または紛失したノードレコードを Zookeeper ファイルから削除し、内部制限が引き上げられました。

  • Amazon クラスターEMR上のデーモンがYARNノードの状態やノードの状態の収集などのヘルスチェックアクティビティを実行している場合、大規模で使用率の高いクラスターでスケーリングリクエストが失敗する問題を修正しましたHDFS。これは、クラスター上のデーモンがノードのヘルスステータスデータを内部 Amazon EMRコンポーネントに伝達できなかったために発生しました。

  • クラスターEMR上のデーモンが改善され、IP アドレスが再利用されたときにノードの状態が正しく追跡され、スケーリングオペレーション中の信頼性が向上しました。

  • SPARK-29683。Spark が使用可能なすべてのノードが拒否リストに登録されていると想定していたため、クラスターのスケールダウン中にジョブエラーが発生する問題を修正しました。

  • YARN-9011。クラスターがスケールアップまたはスケールダウンしようとしたときにYARN、廃止時の競合状態が原因でジョブが失敗する問題を修正しました。

  • Amazon クラスターEMR上のデーモンと YARN/ の間でノードの状態が常に一貫しているようにすることで、クラスターのスケーリング中にステップまたはジョブが失敗する問題を修正しましたHDFS。

  • Kerberos 認証が有効になっている Amazon クラスターでスケールダウンやステップ送信などのEMRクラスターオペレーションが失敗する問題を修正しました。これは、Amazon クラスターEMR上のデーモンが Kerberos チケットを更新しなかったためです。これは、プライマリノードで実行されている HDFSとYARN安全に通信するために必要です。

  • Apache YARN Timeline Server バージョン 1 および 1.5 のパフォーマンスの問題を修正するためのクラスターの設定

    Apache YARN Timeline Server バージョン 1 および 1.5 では、非常にアクティブで大規模なEMRクラスター、特に Amazon のデフォルト設定yarn.resourcemanager.system-metrics-publisher.enabled=trueである でパフォーマンスの問題が発生する可能性がありますEMR。オープンソースの YARN Timeline Server v2 は、YARNTimeline Server のスケーラビリティに関連するパフォーマンスの問題を解決します。

    この問題の他の回避策には、次のものがあります。

    • yarn-sitesystem-metrics-publisher.xml での yarn.resourcemanager..enabled=false の設定。

    • クラスターの作成時にこの問題の修正を有効にします (以下を参照)。

    次の Amazon EMRリリースには、この YARN Timeline Server のパフォーマンスの問題に対する修正が含まれています。

    EMR 5.30.2、5.31.1、5.32.1、5.33.1、5.34.x、6.0.1、6.1.1、6.2.1、6.3.1、6.4.x

    上記の Amazon EMRリリースのいずれかで修正を有効にするには、aws emr create-clusterコマンドパラメータ を使用して渡される設定JSONファイルtrueで、これらのプロパティを に設定します--configurations file://./configurations.json。または、再構成コンソール UI を使用して修正を有効にします。

    configurations.json ファイルの内容の例

    [ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
  • ウェブHDFSサーバーと HttpFS サーバーはデフォルトで無効になっています。Hadoop 設定 を使用してウェブHDFSを再度有効にできますdfs.webhdfs.enabled。HttpFS サーバーを起動するには、sudo systemctl start hadoop-httpfs を使用します。

  • HTTPS が Amazon Linux リポジトリでデフォルトで有効になりました。Amazon S3 VPCEポリシーを使用して特定のバケットへのアクセスを制限する場合は、新しい Amazon Linux バケットARNarn:aws:s3:::amazonlinux-2-repos-$region/*をポリシーに追加する必要があります ( をエンドポイントがあるリージョン$regionに置き換えます)。詳細については、 AWS ディスカッションフォーラムのこのトピックを参照してください。発表: Amazon Linux 2 では、パッケージリポジトリ への接続HTTPS中に を使用する機能がサポートされるようになりました

  • Hive: 最後のジョブHDFSで のスクラッチディレクトリを使用できるようにすることで、書き込みクエリのパフォーマンスが向上します。最終ジョブの一時データは Amazon S3 HDFSではなく に書き込まれ、データが Amazon S3 デバイス間ではなくHDFS最終テーブルの場所 (Amazon S3) に移動されるため、パフォーマンスが向上します。

  • Hive: Glue メタストアパーティションプルーニングにより、クエリのコンパイル時間が最大 2.5 倍に改善されています。

  • デフォルトでは、Hive によって組み込みが Hive メタストアサーバーに渡UDFsされると、 Glue は限定表現演算子のみをサポートしているため、これらの組み込みのサブセットのみが Glue メタストアに渡UDFsされます。hive.glue.partition.pruning.client=true を設定した場合、パーティションのプルーニングはすべてクライアント側で行われます。hive.glue.partition.pruning.server=true を設定した場合、パーティションのプルーニングはすべてサーバー側で行われます。

既知の問題
  • Apache EMR Hadoop HttpFS サーバーはデフォルトで無効になっているため、Hue クエリは Amazon 6.4.0 では機能しません。Amazon 6.4.0 EMR で Hue を使用するには、 を使用して Amazon EMRプライマリノードで HttpFS サーバーを手動で起動するかsudo systemctl start hadoop-httpfsAmazon EMR ステップを使用します

  • HttpFS はデフォルトで無効になっているため、Livy ユーザー偽装で使用される Amazon EMR Notebooks 機能は機能しません。この場合、EMRノートブックは Livy なりすましが有効になっているクラスターに接続できません。回避策は、 を使用してEMRノートブックをクラスターに接続する前に HttpFS サーバーを起動することですsudo systemctl start hadoop-httpfs

  • Amazon EMRバージョン 6.4.0 では、Phoenix は Phoenix コネクタコンポーネントをサポートしていません。

  • Apache Oozie で Spark アクションを使用するには、以下の設定を Oozie workflow.xml ファイルに追加する必要があります。そうしないと、Hadoop や などのいくつかの重要なライブラリが、Oozie が起動する Spark エグゼキュターのクラスパスから欠落EMRFSします。

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • Hive パーティションの場所の書式設定で Spark を使用して Amazon S3 でデータを読み取るときに、Amazon EMRリリース 5.30.0 から 5.36.0、および 6.2.0 から 6.9.0 で Spark を実行すると、クラスターがデータを正しく読み取れない問題が発生する可能性があります。これは、パーティションに以下の特徴がすべて当てはまる場合に発生する可能性があります。

    • 同じテーブルから 2 つ以上のパーティションがスキャンされます。

    • 少なくとも 1 つのパーティションディレクトリパスが、少なくとも 1 つの他のパーティションディレクトリパスのプレフィックスです。例えば、s3://bucket/table/p=as3://bucket/table/p=a b のプレフィックスです。

    • 他のパーティションディレクトリのプレフィックスに続く最初の文字は、 / 文字 (U+002F) より小さい UTF-8 値を持ちます。例えば、s3://bucket/table/p=a b の a と b の間にあるスペース文字 (U+0020) はこのカテゴリに該当します。非制御文字は他にも 14 個あることに注意してください: !"#$%&‘()*+,-。詳細については、UTF「-8 エンコーディングテーブル」と「Unicode 文字」を参照してください。

    この問題の回避策として、spark-defaults 分類の spark.sql.sources.fastS3PartitionDiscovery.enabled 設定を false にセットします。

6.4.0 コンポーネントバージョン

このリリースで Amazon がEMRインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon に固有のものでEMR、システムプロセスと機能用にインストールされます。これらは通常、emr または aws で開始されます。最新の Amazon EMRリリースのビッグデータアプリケーションパッケージは、通常、コミュニティにある最新バージョンです。コミュニティリリースEMRは、できるだけ早く Amazon で利用可能になります。

Amazon の一部のコンポーネントEMRは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。例えば、バージョン 2.2 myapp-componentの という名前のオープンソースコミュニティコンポーネントが、異なる Amazon EMRリリースに含めるために 3 回変更された場合、そのリリースバージョンは としてリストされます2.2-amzn-2

コンポーネント Version 説明
aws-sagemaker-spark-sdk1.4.1Amazon SageMaker Spark SDK
emr-ddb4.16.0Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies3.2.0Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis3.5.0Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-notebook-env1.3.0Jupyter エンタープライズゲートウェイを含む emr ノートブック用 Conda env
emr-s3-dist-cp2.18.0Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select2.1.0EMR S3Select コネクタ
emrfs2.47.0Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client1.13.1Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
flink-jobmanager-config1.13.1Apache Flink のEMRノード上のリソースの管理 JobManager。
ganglia-monitor3.7.2Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector3.7.2Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web3.7.1Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client3.2.1-amzn-4'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode3.2.1-amzn-4HDFS ブロックを保存するための ノードレベルのサービス。
hadoop-hdfs-library3.2.1-amzn-4HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode3.2.1-amzn-4HDFS ファイル名とブロックの場所を追跡するための サービス。
hadoop-hdfs-journalnode3.2.1-amzn-4HDFS HA クラスターで Hadoop ファイルシステムジャーナルを管理するための サービス。
hadoop-httpfs-server3.2.1-amzn-4HTTP HDFSオペレーションの エンドポイント。
hadoop-kms-server3.2.1-amzn-4Hadoop の に基づく暗号化キー管理サーバー KeyProvider API。
hadoop-mapred3.2.1-amzn-4MapReduce MapReduce アプリケーションを実行するための 実行エンジンライブラリ。
hadoop-yarn-nodemanager3.2.1-amzn-4YARN 個々のノードのコンテナを管理するための サービス。
hadoop-yarn-resourcemanager3.2.1-amzn-4YARN クラスターリソースと分散アプリケーションの割り当てと管理のための サービス。
hadoop-yarn-timeline-server3.2.1-amzn-4YARN アプリケーションの現在および履歴情報を取得するためのサービス。
hbase-hmaster2.4.4-amzn-0リージョンの調整と管理コマンドの実行を担当する HBaseクラスターのサービス。
hbase-region-server2.4.4-amzn-01 つ以上のHBaseリージョンに対応するサービス。
hbase-client2.4.4-amzn-0HBase コマンドラインクライアント。
hbase-rest-server2.4.4-amzn-0のRESTfulHTTPエンドポイントを提供するサービスHBase。
hbase-thrift-server2.4.4-amzn-0Thrift エンドポイントを に提供するサービスHBase。
hcatalog-client3.1.2-amzn-5hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server3.1.2-amzn-5分散アプリケーション用のテーブルおよびストレージ管理レイヤーHCatalogである を提供するサービス。
hcatalog-webhcat-server3.1.2-amzn-5HTTP へのRESTインターフェイスを提供する エンドポイントHCatalog。
hive-client3.1.2-amzn-5Hive コマンドラインクライアント。
hive-hbase3.1.2-amzn-5Hive-hbase クライアント。
hive-metastore-server3.1.2-amzn-5Hadoop オペレーションで のメタデータを保存するセマンティックリポジトリである Hive SQL メタストアにアクセスするためのサービス。
hive-server23.1.2-amzn-5Hive クエリをウェブリクエストとして受け入れるサービス。
hudi0.8.0-amzn-0データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-presto0.8.0-amzn-0Presto を Hudi で実行するためのバンドルライブラリ。
hudi-trino0.8.0-amzn-0Trino を Hudi で実行するためのバンドルライブラリ。
hudi-spark0.8.0-amzn-0Spark を Hudi で実行するためのバンドルライブラリ。
hue-server4.9.0Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub1.4.1Jupyter Notebook のマルチユーザーサーバー
livy-server0.7.1-incubatingREST Apache Spark とやり取りするための インターフェイス
nginx1.12.1nginx [エンジン x] は HTTPおよびリバースプロキシサーバーです
mxnet1.8.0フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mariadb-server5.5.68+MariaDB データベースサーバー。
nvidia-cuda10.1.243Nvidia ドライバーと Cuda ツールキット
oozie-client5.2.1Oozie コマンドラインクライアント。
oozie-server5.2.1Oozie ワークフローリクエストを受け入れるサービス。
opencv4.5.0オープンソースのコンピュータビジョンライブラリ。
phoenix-library5.1.2サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server5.1.2Avatica JDBCへのアクセスとプロトコルバッファ、JSONフォーマットアクセスを提供する軽量サーバー API
presto-coordinator0.254.1-amzn-0presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker0.254.1-amzn-0いくつかのクエリを実行するサービス。
presto-client0.254.1-amzn-0Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
trino-coordinator359trino-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
trino-worker359いくつかのクエリを実行するサービス。
trino-client359Trino サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Trino コマンドラインクライアント。
pig-client0.17.0Pig コマンドラインクライアント。
r4.0.2統計的コンピューティング用 R プロジェクト
ranger-kms-server2.0.0Apache Ranger Key Management System
spark-client3.1.2-amzn-0Spark コマンドラインクライアント。
spark-history-server3.1.2-amzn-0完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn3.1.2-amzn-0のインメモリ実行エンジンYARN。
spark-yarn-slave3.1.2-amzn-0YARN スレーブに必要な Apache Spark ライブラリ。
spark-rapids0.4.1で Apache Spark を高速化する Nvidia Spark RAPIDSプラグインGPUs。
sqoop-client1.4.7Apache Sqoop コマンドラインクライアント。
tensorflow2.4.1TensorFlow 高性能な数値計算用の オープンソースソフトウェアライブラリ。
tez-on-yarn0.9.2Tez YARNアプリケーションとライブラリ。
webserver2.4.41+Apache HTTPサーバー。
zeppelin-server0.9.0インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server3.5.7設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client3.5.7ZooKeeper コマンドラインクライアント。

6.4.0 設定分類

設定分類を使用すると、アプリケーションをカスタマイズできます。これらは、多くの場合、 などのアプリケーションの設定XMLファイルに対応しますhive-site.xml。詳細については、「アプリケーションの設定」を参照してください。

再設定アクションは、実行中のクラスターのインスタンスグループの設定を指定すると発生します。Amazon は、変更した分類に対してEMRのみ再設定アクションを開始します。詳細については、「実行中のクラスター内のインスタンスグループの再設定」を参照してください。

emr-6.4.0 分類
分類 説明 再設定アクション

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

Restarts the ResourceManager service.

container-executor

Hadoop YARNの container-executor.cfg ファイルの値を変更します。

Not available.

container-log4j

Hadoop YARNの container-log4j.properties ファイルの値を変更します。

Not available.

core-site

Hadoop の core-site.xml ファイルの値を変更します。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Ranger KMS, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

Docker 関連の設定を変更します。

Not available.

emrfs-site

EMRFS 設定を変更します。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts HBaseRegionserver, HBaseMaster, HBaseThrift, HBaseRest, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer.

flink-conf

flink-conf.yaml の設定を変更します。

Restarts Flink history server.

flink-log4j

Flink log4j.properties の設定を変更します。

Restarts Flink history server.

flink-log4j-session

Kubernetes/Yarn セッションの Flink log4j-session.properties 設定を変更します。

Restarts Flink history server.

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

Restarts Flink history server.

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts PhoenixQueryserver, HiveServer2, Hive MetaStore, and MapReduce-HistoryServer.

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

Not available.

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

Not available.

hbase

Apache の Amazon EMRが厳選した設定HBase。

Custom EMR specific property. Sets emrfs-site and hbase-site configs. See those for their associated restarts.

hbase-env

HBaseの環境の値を変更します。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-log4j

HBaseの hbase-log4j.properties ファイルの値を変更します。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-metrics

HBaseの hadoop-metrics2-hbase.properties ファイルの値を変更します。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-policy

HBaseの hbase-policy.xml ファイルの値を変更します。

Not available.

hbase-site

HBaseの hbase-site.xml ファイルの値を変更します。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. Additionally restarts Phoenix QueryServer.

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

This classification should not be reconfigured.

hdfs-env

HDFS 環境の値を変更します。

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

HDFSの hdfs-site.xml の値を変更します。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

hcatalog-env

HCatalogの環境の値を変更します。

Restarts Hive HCatalog Server.

hcatalog-server-jndi

HCatalogの jndi.properties の値を変更します。

Restarts Hive HCatalog Server.

hcatalog-server-proto-hive-site

HCatalog's proto-hive-site.xml の値を変更します。

Restarts Hive HCatalog Server.

hcatalog-webhcat-env

HCatalog W ebHCatの環境の値を変更します。

Restarts Hive WebHCat server.

hcatalog-webhcat-log4j2

HCatalog W ebHCatの log4j2.properties の値を変更します。

Restarts Hive WebHCat server.

hcatalog-webhcat-site

HCatalog W ebHCatの webhcat-site.xml ファイルの値を変更します。

Restarts Hive WebHCat server.

hive

Apache Hive の Amazon EMRが厳選した設定。

Sets configurations to launch Hive LLAP service.

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

Not available.

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

Not available.

hive-env

Hive 環境の値を変更します。

Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore.

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

Not available.

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

Not available.

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

Not available.

hive-site

Hive の hive-site.xml ファイルの値を変更します

Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. Also restarts Oozie and Zeppelin.

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

Not available.

hue-ini

Hue の ini ファイルの値を変更します

Restarts Hue. Also activates Hue config override CLI commands to pick up new configurations.

httpfs-env

HTTPFS 環境の値を変更します。

Restarts Hadoop Httpfs service.

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

Restarts Hadoop Httpfs service.

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

Not available.

hadoop-kms-env

Hadoop KMS環境の値を変更します。

Restarts Hadoop-KMS service.

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

Not available.

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

Restarts Hadoop-KMS and Ranger-KMS service.

hudi-env

Hudi 環境の値を変更します。

Not available.

hudi-defaults

Hudi の hudi-defaults.conf ファイルの値を変更します。

Not available.

jupyter-notebook-conf

Jupyter Notebook の jupyter_notebook_config.py ファイルの値を変更します。

Not available.

jupyter-hub-conf

JupyterHubsの jupyterhub_config.py ファイルの値を変更します。

Not available.

jupyter-s3-conf

Jupyter Notebook の S3 の永続性を設定します。

Not available.

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

Not available.

livy-conf

Livy の livy.conf ファイルの値を変更します。

Restarts Livy Server.

livy-env

Livy 環境の値を変更します。

Restarts Livy Server.

livy-log4j

Livy の log4j.properties の設定を変更します。

Restarts Livy Server.

mapred-env

MapReduce アプリケーションの環境の値を変更します。

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

Restarts Hadoop MapReduce-HistoryServer.

oozie-env

Oozie の環境の値を変更します。

Restarts Oozie.

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

Restarts Oozie.

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

Restarts Oozie.

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

Not available.

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

Not available.

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

Restarts Phoenix-QueryServer.

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

Not available.

pig-env

Pig 環境の値を変更します。

Not available.

pig-properties

Pig の pig.properties ファイルの値を変更します。

Restarts Oozie.

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

Not available.

presto-log

Presto の log.properties ファイルの値を変更します。

Restarts Presto-Server (for PrestoDB)

presto-config

Presto の config.properties ファイルの値を変更します。

Restarts Presto-Server (for PrestoDB)

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

Not available.

presto-env

Presto の presto-env.sh ファイルの値を変更します。

Restarts Presto-Server (for PrestoDB)

presto-node

Presto の node.properties ファイルの値を変更します。

Not available.

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

Not available.

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

Not available.

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

Restarts Presto-Server (for PrestoDB)

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

Not available.

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

Not available.

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

Not available.

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

Not available.

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

Not available.

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

Not available.

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

Not available.

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

Not available.

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

Not available.

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

Not available.

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

Not available.

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

Not available.

trino-log

Trino の log.properties ファイルの値を変更します。

Restarts Trino-Server (for Trino)

trino-config

Trino の config.properties ファイルの値を変更します。

Restarts Trino-Server (for Trino)

trino-password-authenticator

Trino の password-authenticator.properties ファイルの値を変更します。

Restarts Trino-Server (for Trino)

trino-env

Trino の trino-env.sh ファイルの値を変更します。

Restarts Trino-Server (for Trino)

trino-node

Trino の node.properties ファイルの値を変更します。

Not available.

trino-connector-blackhole

Trino の blackhole.properties ファイルの値を変更します。

Not available.

trino-connector-cassandra

Trino の cassandra.properties ファイルの値を変更します。

Not available.

trino-connector-hive

Trino の hive.properties ファイルの値を変更します。

Restarts Trino-Server (for Trino)

trino-connector-jmx

Trino の jmx.properties ファイルの値を変更します。

Not available.

trino-connector-kafka

Trino の kafka.properties ファイルの値を変更します。

Not available.

trino-connector-localfile

Trino の localfile.properties ファイルの値を変更します。

Not available.

trino-connector-memory

Trino の memory.properties ファイルの値を変更します。

Not available.

trino-connector-mongodb

Trino の mongodb.properties ファイルの値を変更します。

Not available.

trino-connector-mysql

Trino の mysql.properties ファイルの値を変更します。

Not available.

trino-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

Not available.

trino-connector-raptor

Trino の raptor.properties ファイルの値を変更します。

Not available.

trino-connector-redis

Trino の redis.properties ファイルの値を変更します。

Not available.

trino-connector-redshift

Trino の redshift.properties ファイルの値を変更します。

Not available.

trino-connector-tpch

Trino の tpch.properties ファイルの値を変更します。

Not available.

trino-connector-tpcds

Trino の tpcds.properties ファイルの値を変更します。

Not available.

ranger-kms-dbks-site

Ranger の dbks-site.xml ファイルの値を変更しますKMS。

Restarts Ranger KMS Server.

ranger-kms-site

Ranger の ranger-kms-site.xml ファイルの値を変更しますKMS。

Restarts Ranger KMS Server.

ranger-kms-env

Ranger KMS環境の値を変更します。

Restarts Ranger KMS Server.

ranger-kms-log4j

Ranger の kms-log4j.properties ファイルの値を変更しますKMS。

Not available.

ranger-kms-db-ca

Ranger との S3 for MySQL SSL接続の CA ファイルの値を変更しますKMS。

Not available.

spark

Apache EMRSpark の Amazon が厳選した設定。

This property modifies spark-defaults. See actions there.

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

Restarts Spark history server and Spark thrift server.

spark-env

Spark 環境の値を変更します。

Restarts Spark history server and Spark thrift server.

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

Not available.

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

Restarts Spark history server and Spark thrift server.

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

Restarts Spark history server and Spark thrift server.

sqoop-env

Sqoop の環境の値を変更します。

Not available.

sqoop-oraoop-site

Sqoop OraOopの oraoop-site.xml ファイルの値を変更します。

Not available.

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

Not available.

tez-site

Tez の tez-site.xml ファイルの値を変更します。

Restart Oozie and HiveServer2.

yarn-env

YARN 環境の値を変更します。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

YARNの yarn-site.xml ファイルの値を変更します。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zeppelin-env

Zeppelin 環境の値を変更します。

Restarts Zeppelin.

zeppelin-site

zeppelin-site.xml の構成設定を変更します。

Restarts Zeppelin.

zookeeper-config

ZooKeeperの zoo.cfg ファイルの値を変更します。

Restarts Zookeeper server.

zookeeper-log4j

ZooKeeperlog4j.properties ファイルの値を変更します。

Restarts Zookeeper server.