翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon EMRリリース 6.4.0
6.4.0 アプリケーションバージョン
このリリースでは、次のアプリケーションがサポートされています。 Flink
次の表に、Amazon のこのリリースで利用可能なアプリケーションバージョンEMRと、前の 3 つの Amazon EMRリリース (該当する場合) のアプリケーションバージョンを示します。
Amazon の各リリースのアプリケーションバージョンの包括的な履歴についてはEMR、以下のトピックを参照してください。
emr-6.4.0 | emr-6.3.1 | emr-6.3.0 | emr-6.2.1 | |
---|---|---|---|---|
AWS SDK for Java | 1.12.31 | 1.11.977 | 1.11.977 | 1.11.880 |
Python | 2.7、3.7 | 2.7、3.7 | 2.7、3.7 | 2.7、3.7 |
Scala | 2.12.10 | 2.12.10 | 2.12.10 | 2.12.10 |
AmazonCloudWatchAgent | - | - | - | - |
Delta | - | - | - | - |
Flink | 1.13.1 | 1.12.1 | 1.12.1 | 1.11.2 |
Ganglia | 3.7.2 | 3.7.2 | 3.7.2 | 3.7.2 |
HBase | 2.4.4 | 2.2.6 | 2.2.6 | 2.2.6-amzn-0 |
HCatalog | 3.1.2 | 3.1.2 | 3.1.2 | 3.1.2 |
Hadoop | 3.2.1 | 3.2.1 | 3.2.1 | 3.2.1 |
[Hive] | 3.1.2 | 3.1.2 | 3.1.2 | 3.1.2 |
Hudi | 0.8.0-amzn-0 | 0.7.0-amzn-0 | 0.7.0-amzn-0 | 0.6.0-amzn-1 |
Hue | 4.9.0 | 4.9.0 | 4.9.0 | 4.8.0 |
Iceberg | - | - | - | - |
JupyterEnterpriseGateway | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 |
JupyterHub | 1.4.1 | 1.2.2 | 1.2.2 | 1.1.0 |
Livy | 0.7.1 | 0.7.0 | 0.7.0 | 0.7.0 |
MXNet | 1.8.0 | 1.7.0 | 1.7.0 | 1.7.0 |
Mahout | - | - | - | - |
Oozie | 5.2.1 | 5.2.1 | 5.2.1 | 5.2.0 |
フェニックス | 5.1.2 | 5.0.0 | 5.0.0 | 5.0.0 |
Pig | 0.17.0 | 0.17.0 | 0.17.0 | 0.17.0 |
Presto | 0.254.1 | 0.245.1 | 0.245.1 | 0.238.3 |
Spark | 3.1.2 | 3.1.1 | 3.1.1 | 3.0.1 |
Sqoop | 1.4.7 | 1.4.7 | 1.4.7 | 1.4.7 |
TensorFlow | 2.4.1 | 2.4.1 | 2.4.1 | 2.3.1 |
Tez | 0.9.2 | 0.9.2 | 0.9.2 | 0.9.2 |
Trino (PrestoSQL) | 359 | 350 | 350 | 343 |
Zeppelin | 0.9.0 | 0.9.0 | 0.9.0 | 0.9.0 |
ZooKeeper | 3.5.7 | 3.4.14 | 3.4.14 | 3.4.14 |
6.4.0 リリースノート
次のリリースノートには、Amazon EMRリリース 6.4.0 に関する情報が含まれています。6.3.0 からの変更が含まれています。
初回リリース日: 2021 年 9 月 20 日
更新リリース日: 2022 年 3 月 21 日
サポートされているアプリケーション
-
AWS SDK for Java バージョン 1.12.31
-
CloudWatch シンクバージョン 2.2.0
-
DynamoDB Connector バージョン 4.16.0
-
EMRFS バージョン 2.47.0
-
Amazon EMR Goodies バージョン 3.2.0
-
Amazon EMR Kinesis Connector バージョン 3.5.0
-
Amazon EMR Record Server バージョン 2.1.0
-
Amazon EMR Scripts バージョン 2.5.0
-
Flink バージョン 1.13.1
-
Ganglia バージョン 3.7.2
-
AWS Glue Hive メタストアクライアントバージョン 3.3.0
-
Hadoop バージョン 3.2.1-amzn-4
-
HBase バージョン 2.4.4-amzn-0
-
HBase-operator-tools 1.1.0
-
HCatalog バージョン 3.1.2-amzn-5
-
Hive バージョン 3.1.2-amzn-5
-
Hudi バージョン 0.8.0-amzn-0
-
Hue バージョン 4.9.0
-
Java JDKバージョン Corretto-8.302.08.1 (ビルド 1.8.0_302-b08)
-
JupyterHub バージョン 1.4.1
-
Livy バージョン 0.7.1-incubating
-
MXNet バージョン 1.8.0
-
Oozie バージョン 5.2.1
-
Phoenix バージョン 5.1.2
-
Pig バージョン 0.17.0
-
Presto バージョン 0.254.1-amzn-0
-
Trino バージョン 359
-
Apache Ranger KMS (マルチマスター透過的暗号化) バージョン 2.0.0
-
ranger-plugins 2.0.1-amzn-0
-
ranger-s3-plugin 1.2.0
-
SageMaker Spark SDKバージョン 1.4.1
-
Scala バージョン 2.12.10 (64-Bitサーバー VM、Java 1.8.0_282 を開くJDK)
-
Spark バージョン 3.1.2-amzn-0
-
spark-rapids 0.4.1
-
Sqoop バージョン 1.4.7
-
TensorFlow バージョン 2.4.1
-
tez バージョン 0.9.2
-
Zeppelin バージョン 0.9.0
-
Zookeeper バージョン 3.5.7
-
コネクタおよびドライバー: DynamoDB Connector 4.16.0
新機能
-
〔マネージドスケーリング] Spark シャッフルデータマネージドスケーリングの最適化 - Amazon EMRバージョン 5.34.0 以降、およびEMRバージョン 6.4.0 以降では、マネージドスケーリングが Spark シャッフルデータ対応になりました (Spark が特定のオペレーションを実行するためにパーティション間で再分散するデータ)。シャッフルオペレーションの詳細については、「Amazon 管理ガイド」および「Spark プログラミングガイド」の「Amazon でのEMRマネージドスケーリングEMRの使用」を参照してください。 EMR https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations
-
Apache Ranger 対応の Amazon EMRクラスターでは、Apache Spark を使用してSQL、
INSERT INTO
、、INSERT OVERWRITE
および を使用して Apache Hive メタストアテーブルにデータを挿入または更新できますALTER TABLE
。Spark ALTERTABLEで を使用する場合SQL、パーティションの場所はテーブルの場所の子ディレクトリである必要があります。Amazon EMRは現在、パーティションの場所がテーブルの場所と異なるパーティションへのデータの挿入をサポートしていません。 -
PrestoSQL の名前が Trino に変更されました。
-
Hive: LIMIT句を含む単純なSELECTクエリの実行は、LIMIT句に記載されているレコード数が取得されるとすぐにクエリの実行を停止することで高速化されます。簡易SELECTクエリは、GROUPBY / ORDER by 句を持たないクエリ、またはリデューサーステージを持たないクエリです。例えば、
SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>
と指定します。
Hudi の同時実行制御
-
Hudi では、Optimistic Concurrency Control (OCC) がサポートされるようになりました。これは、 UPSERTや などの書き込みオペレーションで活用INSERTでき、複数のライターから同じ Hudi テーブルに変更を加えることができます。これはファイルレベル であるためOCC、変更が競合しない場合、2 つのコミット (またはライター) が同じテーブルに書き込むことができます。詳細については、「Hudi Concurrency Control
」を参照してください。 -
Amazon EMRクラスターには Zookeeper がインストールされており、 のロックプロバイダーとして利用できますOCC。この機能を簡単に使用するために、Amazon EMRクラスターには以下のプロパティが事前設定されています。
hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<
EMR Zookeeper URL
> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port
> hoodie.write.lock.zookeeper.base_path=/hudiを有効にするにはOCC、Hudi ジョブオプションを使用するか、Amazon EMR設定 を使用してクラスターレベルで次のプロパティを設定する必要がありますAPI。
hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=
<Key to uniquely identify the Hudi table>
(Table Name is a good option)
Hudi モニタリング: Hudi メトリクスを報告する Amazon CloudWatch 統合
-
Amazon EMRは、Amazon への Hudi メトリクスの発行をサポートしています CloudWatch。これを有効にするには、次の必要な設定を行います。
hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
変更できるオプションの Hudi 設定を以下に示します。
設定 説明 値 hoodie.metrics.cloudwatch.report.period.seconds
Amazon にメトリクスを報告する頻度 (秒単位) CloudWatch
デフォルト値は 60 秒です。これは、Amazon が提供するデフォルトの 1 分間の解像度で問題ありません。 CloudWatch
hoodie.metrics.cloudwatch.metric.prefix
各メトリクス名に追加するプレフィックス
デフォルト値は空です (プレフィックスなし)
hoodie.metrics.cloudwatch.namespace
メトリクスが公開される Amazon CloudWatch 名前空間
デフォルト値は Hudi です
":".metrics.cloudwatch.maxDatumsPerRequest
Amazon への 1 つのリクエストに含めるデータムの最大数 CloudWatch
デフォルト値は 20 で、Amazon の CloudWatch デフォルトと同じです。
Amazon EMR Hudi 設定のサポートと改善
-
お客様は、EMR設定APIと再設定機能を活用して、クラスターレベルで Hudi 設定を設定できるようになりました。Spark、Hive などの他のアプリケーションの行に沿って、新しいファイルベースの設定サポート via /etc/hudi/conf/hudi-defaults.conf が導入されました。 は、ユーザーエクスペリエンスを向上させるためにいくつかのデフォルトEMRを設定します。
—
hoodie.datasource.hive_sync.jdbcurl
はクラスター Hive サーバーに設定URLされ、指定する必要はありません。これは、以前に Amazon EMRマスター IP を指定する必要がありましたが、Spark クラスターモードでジョブを実行する場合に特に便利です。— Hudi でHBaseインデックスを使用するのに役立つHBase特定の設定。
— 同時実行制御で説明されているように、Zookeeper ロックプロバイダー固有の設定。これにより、オプティミスティック同時実行制御 () の使用が容易になりますOCC。
-
渡す必要がある設定の数を減らし、可能な場合は自動的に推測するために、追加の変更が導入されました。
—
partitionBy
キーワードは、パーティション列を指定するために使用できます。— Hive Sync を有効にすると、
HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY
を渡すのは必須ではなくなります。これらの値は、Hudi テーブル名とパーティションフィールドから推測できます。—
KEYGENERATOR_CLASS_OPT_KEY
を渡すのは必須ではなく、より単純なSimpleKeyGenerator
およびComplexKeyGenerator
のケースから推測できます。
Hudi Caveats
-
Hudi では、読み取り時マージ (MoR) テーブルおよびブートストラップテーブルの Hive でのベクトル化された実行をサポートしていません。例えば、
hive.vectorized.execution.enabled
が true に設定されている場合、Hudi リアルタイムテーブルでcount(*)
は失敗します。回避策として、hive.vectorized.execution.enabled
をfalse
に設定して、ベクトル化された読み取りを無効にすることができます。 -
マルチライターサポートは、Hudi ブートストラップ機能とは互換性がありません。
-
Flink Streamer と Flink SQLは、このリリースの実験的な機能です。これらの機能は、実稼働環境での使用はお勧めしません。
変更点、機能強化、解決した問題
これは、クラスターのスケールアップ/スケールダウンに失敗した場合、またはアプリケーション障害が発生した場合の Amazon EMR Scaling の問題を修正するためのリリースです。
以前は、マルチマスタークラスターでリソースマネージャーを手動で再起動すると、Zookeeper などの Amazon クラスターEMR上のデーモンが、Zookeeper の znode ファイルで以前に廃止されたノードまたは失われたノードをすべて再ロードしていました。これにより、特定の状況でデフォルトの制限を超えることがありました。Amazon EMRは、1 時間以上経過した廃止または紛失したノードレコードを Zookeeper ファイルから削除し、内部制限が引き上げられました。
Amazon クラスターEMR上のデーモンがYARNノードの状態やノードの状態の収集などのヘルスチェックアクティビティを実行している場合、大規模で使用率の高いクラスターでスケーリングリクエストが失敗する問題を修正しましたHDFS。これは、クラスター上のデーモンがノードのヘルスステータスデータを内部 Amazon EMRコンポーネントに伝達できなかったために発生しました。
クラスターEMR上のデーモンが改善され、IP アドレスが再利用されたときにノードの状態が正しく追跡され、スケーリングオペレーション中の信頼性が向上しました。
SPARK-29683
。Spark が使用可能なすべてのノードが拒否リストに登録されていると想定していたため、クラスターのスケールダウン中にジョブエラーが発生する問題を修正しました。 YARN-9011
。クラスターがスケールアップまたはスケールダウンしようとしたときにYARN、廃止時の競合状態が原因でジョブが失敗する問題を修正しました。 Amazon クラスターEMR上のデーモンと YARN/ の間でノードの状態が常に一貫しているようにすることで、クラスターのスケーリング中にステップまたはジョブが失敗する問題を修正しましたHDFS。
Kerberos 認証が有効になっている Amazon クラスターでスケールダウンやステップ送信などのEMRクラスターオペレーションが失敗する問題を修正しました。これは、Amazon クラスターEMR上のデーモンが Kerberos チケットを更新しなかったためです。これは、プライマリノードで実行されている HDFSとYARN安全に通信するために必要です。
-
Apache YARN Timeline Server バージョン 1 および 1.5 のパフォーマンスの問題を修正するためのクラスターの設定
Apache YARN Timeline Server バージョン 1 および 1.5 では、非常にアクティブで大規模なEMRクラスター、特に Amazon のデフォルト設定
yarn.resourcemanager.system-metrics-publisher.enabled=true
である でパフォーマンスの問題が発生する可能性がありますEMR。オープンソースの YARN Timeline Server v2 は、YARNTimeline Server のスケーラビリティに関連するパフォーマンスの問題を解決します。この問題の他の回避策には、次のものがあります。
yarn-sitesystem-metrics-publisher.xml での yarn.resourcemanager..enabled=false の設定。
クラスターの作成時にこの問題の修正を有効にします (以下を参照)。
次の Amazon EMRリリースには、この YARN Timeline Server のパフォーマンスの問題に対する修正が含まれています。
EMR 5.30.2、5.31.1、5.32.1、5.33.1、5.34.x、6.0.1、6.1.1、6.2.1、6.3.1、6.4.x
上記の Amazon EMRリリースのいずれかで修正を有効にするには、
aws emr create-cluster
コマンドパラメータ を使用して渡される設定JSONファイルtrue
で、これらのプロパティを に設定します--configurations file://./configurations.json
。または、再構成コンソール UI を使用して修正を有効にします。configurations.json ファイルの内容の例
[ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
ウェブHDFSサーバーと HttpFS サーバーはデフォルトで無効になっています。Hadoop 設定 を使用してウェブHDFSを再度有効にできます
dfs.webhdfs.enabled
。HttpFS サーバーを起動するには、sudo systemctl start hadoop-httpfs
を使用します。-
HTTPS が Amazon Linux リポジトリでデフォルトで有効になりました。Amazon S3 VPCEポリシーを使用して特定のバケットへのアクセスを制限する場合は、新しい Amazon Linux バケットARN
arn:aws:s3:::amazonlinux-2-repos-$region/*
をポリシーに追加する必要があります ( をエンドポイントがあるリージョン$region
に置き換えます)。詳細については、 AWS ディスカッションフォーラムのこのトピックを参照してください。発表: Amazon Linux 2 では、パッケージリポジトリ への接続HTTPS中に を使用する機能がサポートされるようになりました。 -
Hive: 最後のジョブHDFSで のスクラッチディレクトリを使用できるようにすることで、書き込みクエリのパフォーマンスが向上します。最終ジョブの一時データは Amazon S3 HDFSではなく に書き込まれ、データが Amazon S3 デバイス間ではなくHDFS最終テーブルの場所 (Amazon S3) に移動されるため、パフォーマンスが向上します。
-
Hive: Glue メタストアパーティションプルーニングにより、クエリのコンパイル時間が最大 2.5 倍に改善されています。
-
デフォルトでは、Hive によって組み込みが Hive メタストアサーバーに渡UDFsされると、 Glue は限定表現演算子のみをサポートしているため、これらの組み込みのサブセットのみが Glue メタストアに渡UDFsされます。
hive.glue.partition.pruning.client=true
を設定した場合、パーティションのプルーニングはすべてクライアント側で行われます。hive.glue.partition.pruning.server=true
を設定した場合、パーティションのプルーニングはすべてサーバー側で行われます。
既知の問題
Apache EMR Hadoop HttpFS サーバーはデフォルトで無効になっているため、Hue クエリは Amazon 6.4.0 では機能しません。Amazon 6.4.0 EMR で Hue を使用するには、 を使用して Amazon EMRプライマリノードで HttpFS サーバーを手動で起動するか
sudo systemctl start hadoop-httpfs
、Amazon EMR ステップを使用します。HttpFS はデフォルトで無効になっているため、Livy ユーザー偽装で使用される Amazon EMR Notebooks 機能は機能しません。この場合、EMRノートブックは Livy なりすましが有効になっているクラスターに接続できません。回避策は、 を使用してEMRノートブックをクラスターに接続する前に HttpFS サーバーを起動することです
sudo systemctl start hadoop-httpfs
。Amazon EMRバージョン 6.4.0 では、Phoenix は Phoenix コネクタコンポーネントをサポートしていません。
Apache Oozie で Spark アクションを使用するには、以下の設定を Oozie
workflow.xml
ファイルに追加する必要があります。そうしないと、Hadoop や などのいくつかの重要なライブラリが、Oozie が起動する Spark エグゼキュターのクラスパスから欠落EMRFSします。<spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
Hive パーティションの場所の書式設定で Spark を使用して Amazon S3 でデータを読み取るときに、Amazon EMRリリース 5.30.0 から 5.36.0、および 6.2.0 から 6.9.0 で Spark を実行すると、クラスターがデータを正しく読み取れない問題が発生する可能性があります。これは、パーティションに以下の特徴がすべて当てはまる場合に発生する可能性があります。
-
同じテーブルから 2 つ以上のパーティションがスキャンされます。
-
少なくとも 1 つのパーティションディレクトリパスが、少なくとも 1 つの他のパーティションディレクトリパスのプレフィックスです。例えば、
s3://bucket/table/p=a
はs3://bucket/table/p=a b
のプレフィックスです。 -
他のパーティションディレクトリのプレフィックスに続く最初の文字は、
/
文字 (U+002F) より小さい UTF-8 値を持ちます。例えば、s3://bucket/table/p=a b
の a と b の間にあるスペース文字 (U+0020) はこのカテゴリに該当します。非制御文字は他にも 14 個あることに注意してください:!"#$%&‘()*+,-
。詳細については、UTF「-8 エンコーディングテーブル」と「Unicode 文字」を参照してください。
この問題の回避策として、
spark-defaults
分類のspark.sql.sources.fastS3PartitionDiscovery.enabled
設定をfalse
にセットします。-
6.4.0 コンポーネントバージョン
このリリースで Amazon がEMRインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon に固有のものでEMR、システムプロセスと機能用にインストールされます。これらは通常、emr
または aws
で開始されます。最新の Amazon EMRリリースのビッグデータアプリケーションパッケージは、通常、コミュニティにある最新バージョンです。コミュニティリリースEMRは、できるだけ早く Amazon で利用可能になります。
Amazon の一部のコンポーネントEMRは、コミュニティバージョンとは異なります。これらのコンポーネントには、
の形式のバージョンラベルがあります。CommunityVersion
-amzn-EmrVersion
は 0 から始まります。例えば、バージョン 2.2 EmrVersion
myapp-component
の という名前のオープンソースコミュニティコンポーネントが、異なる Amazon EMRリリースに含めるために 3 回変更された場合、そのリリースバージョンは としてリストされます2.2-amzn-2
。
コンポーネント | Version | 説明 |
---|---|---|
aws-sagemaker-spark-sdk | 1.4.1 | Amazon SageMaker Spark SDK |
emr-ddb | 4.16.0 | Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。 |
emr-goodies | 3.2.0 | Hadoop エコシステムに役立つ追加のライブラリ。 |
emr-kinesis | 3.5.0 | Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。 |
emr-notebook-env | 1.3.0 | Jupyter エンタープライズゲートウェイを含む emr ノートブック用 Conda env |
emr-s3-dist-cp | 2.18.0 | Amazon S3 に最適化された分散コピーアプリケーション。 |
emr-s3-select | 2.1.0 | EMR S3Select コネクタ |
emrfs | 2.47.0 | Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。 |
flink-client | 1.13.1 | Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。 |
flink-jobmanager-config | 1.13.1 | Apache Flink のEMRノード上のリソースの管理 JobManager。 |
ganglia-monitor | 3.7.2 | Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。 |
ganglia-metadata-collector | 3.7.2 | Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。 |
ganglia-web | 3.7.1 | Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。 |
hadoop-client | 3.2.1-amzn-4 | 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。 |
hadoop-hdfs-datanode | 3.2.1-amzn-4 | HDFS ブロックを保存するための ノードレベルのサービス。 |
hadoop-hdfs-library | 3.2.1-amzn-4 | HDFS コマンドラインクライアントとライブラリ |
hadoop-hdfs-namenode | 3.2.1-amzn-4 | HDFS ファイル名とブロックの場所を追跡するための サービス。 |
hadoop-hdfs-journalnode | 3.2.1-amzn-4 | HDFS HA クラスターで Hadoop ファイルシステムジャーナルを管理するための サービス。 |
hadoop-httpfs-server | 3.2.1-amzn-4 | HTTP HDFSオペレーションの エンドポイント。 |
hadoop-kms-server | 3.2.1-amzn-4 | Hadoop の に基づく暗号化キー管理サーバー KeyProvider API。 |
hadoop-mapred | 3.2.1-amzn-4 | MapReduce MapReduce アプリケーションを実行するための 実行エンジンライブラリ。 |
hadoop-yarn-nodemanager | 3.2.1-amzn-4 | YARN 個々のノードのコンテナを管理するための サービス。 |
hadoop-yarn-resourcemanager | 3.2.1-amzn-4 | YARN クラスターリソースと分散アプリケーションの割り当てと管理のための サービス。 |
hadoop-yarn-timeline-server | 3.2.1-amzn-4 | YARN アプリケーションの現在および履歴情報を取得するためのサービス。 |
hbase-hmaster | 2.4.4-amzn-0 | リージョンの調整と管理コマンドの実行を担当する HBaseクラスターのサービス。 |
hbase-region-server | 2.4.4-amzn-0 | 1 つ以上のHBaseリージョンに対応するサービス。 |
hbase-client | 2.4.4-amzn-0 | HBase コマンドラインクライアント。 |
hbase-rest-server | 2.4.4-amzn-0 | のRESTfulHTTPエンドポイントを提供するサービスHBase。 |
hbase-thrift-server | 2.4.4-amzn-0 | Thrift エンドポイントを に提供するサービスHBase。 |
hcatalog-client | 3.1.2-amzn-5 | hcatalog-server を操作するための 'hcat' コマンドラインクライアント。 |
hcatalog-server | 3.1.2-amzn-5 | 分散アプリケーション用のテーブルおよびストレージ管理レイヤーHCatalogである を提供するサービス。 |
hcatalog-webhcat-server | 3.1.2-amzn-5 | HTTP へのRESTインターフェイスを提供する エンドポイントHCatalog。 |
hive-client | 3.1.2-amzn-5 | Hive コマンドラインクライアント。 |
hive-hbase | 3.1.2-amzn-5 | Hive-hbase クライアント。 |
hive-metastore-server | 3.1.2-amzn-5 | Hadoop オペレーションで のメタデータを保存するセマンティックリポジトリである Hive SQL メタストアにアクセスするためのサービス。 |
hive-server2 | 3.1.2-amzn-5 | Hive クエリをウェブリクエストとして受け入れるサービス。 |
hudi | 0.8.0-amzn-0 | データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。 |
hudi-presto | 0.8.0-amzn-0 | Presto を Hudi で実行するためのバンドルライブラリ。 |
hudi-trino | 0.8.0-amzn-0 | Trino を Hudi で実行するためのバンドルライブラリ。 |
hudi-spark | 0.8.0-amzn-0 | Spark を Hudi で実行するためのバンドルライブラリ。 |
hue-server | 4.9.0 | Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション |
jupyterhub | 1.4.1 | Jupyter Notebook のマルチユーザーサーバー |
livy-server | 0.7.1-incubating | REST Apache Spark とやり取りするための インターフェイス |
nginx | 1.12.1 | nginx [エンジン x] は HTTPおよびリバースプロキシサーバーです |
mxnet | 1.8.0 | フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。 |
mariadb-server | 5.5.68+ | MariaDB データベースサーバー。 |
nvidia-cuda | 10.1.243 | Nvidia ドライバーと Cuda ツールキット |
oozie-client | 5.2.1 | Oozie コマンドラインクライアント。 |
oozie-server | 5.2.1 | Oozie ワークフローリクエストを受け入れるサービス。 |
opencv | 4.5.0 | オープンソースのコンピュータビジョンライブラリ。 |
phoenix-library | 5.1.2 | サーバーとクライアントの Phoenix ライブラリ |
phoenix-query-server | 5.1.2 | Avatica JDBCへのアクセスとプロトコルバッファ、JSONフォーマットアクセスを提供する軽量サーバー API |
presto-coordinator | 0.254.1-amzn-0 | presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 |
presto-worker | 0.254.1-amzn-0 | いくつかのクエリを実行するサービス。 |
presto-client | 0.254.1-amzn-0 | Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。 |
trino-coordinator | 359 | trino-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 |
trino-worker | 359 | いくつかのクエリを実行するサービス。 |
trino-client | 359 | Trino サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Trino コマンドラインクライアント。 |
pig-client | 0.17.0 | Pig コマンドラインクライアント。 |
r | 4.0.2 | 統計的コンピューティング用 R プロジェクト |
ranger-kms-server | 2.0.0 | Apache Ranger Key Management System |
spark-client | 3.1.2-amzn-0 | Spark コマンドラインクライアント。 |
spark-history-server | 3.1.2-amzn-0 | 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。 |
spark-on-yarn | 3.1.2-amzn-0 | のインメモリ実行エンジンYARN。 |
spark-yarn-slave | 3.1.2-amzn-0 | YARN スレーブに必要な Apache Spark ライブラリ。 |
spark-rapids | 0.4.1 | で Apache Spark を高速化する Nvidia Spark RAPIDSプラグインGPUs。 |
sqoop-client | 1.4.7 | Apache Sqoop コマンドラインクライアント。 |
tensorflow | 2.4.1 | TensorFlow 高性能な数値計算用の オープンソースソフトウェアライブラリ。 |
tez-on-yarn | 0.9.2 | Tez YARNアプリケーションとライブラリ。 |
webserver | 2.4.41+ | Apache HTTPサーバー。 |
zeppelin-server | 0.9.0 | インタラクティブなデータ分析を可能にするウェブベースのノートブック。 |
zookeeper-server | 3.5.7 | 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。 |
zookeeper-client | 3.5.7 | ZooKeeper コマンドラインクライアント。 |
6.4.0 設定分類
設定分類を使用すると、アプリケーションをカスタマイズできます。これらは、多くの場合、 などのアプリケーションの設定XMLファイルに対応しますhive-site.xml
。詳細については、「アプリケーションの設定」を参照してください。
再設定アクションは、実行中のクラスターのインスタンスグループの設定を指定すると発生します。Amazon は、変更した分類に対してEMRのみ再設定アクションを開始します。詳細については、「実行中のクラスター内のインスタンスグループの再設定」を参照してください。
分類 | 説明 | 再設定アクション |
---|---|---|
capacity-scheduler | Hadoop の capacity-scheduler.xml ファイルの値を変更します。 | Restarts the ResourceManager service. |
container-executor | Hadoop YARNの container-executor.cfg ファイルの値を変更します。 | Not available. |
container-log4j | Hadoop YARNの container-log4j.properties ファイルの値を変更します。 | Not available. |
core-site | Hadoop の core-site.xml ファイルの値を変更します。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Ranger KMS, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer. |
docker-conf | Docker 関連の設定を変更します。 | Not available. |
emrfs-site | EMRFS 設定を変更します。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts HBaseRegionserver, HBaseMaster, HBaseThrift, HBaseRest, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer. |
flink-conf | flink-conf.yaml の設定を変更します。 | Restarts Flink history server. |
flink-log4j | Flink log4j.properties の設定を変更します。 | Restarts Flink history server. |
flink-log4j-session | Kubernetes/Yarn セッションの Flink log4j-session.properties 設定を変更します。 | Restarts Flink history server. |
flink-log4j-cli | Flink log4j-cli.properties の設定を変更します。 | Restarts Flink history server. |
hadoop-env | Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts PhoenixQueryserver, HiveServer2, Hive MetaStore, and MapReduce-HistoryServer. |
hadoop-log4j | Hadoop の log4j.properties ファイルの値を変更します。 | Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
hadoop-ssl-server | Hadoop ssl のサーバー設定を変更します。 | Not available. |
hadoop-ssl-client | Hadoop ssl のクライアント設定を変更します。 | Not available. |
hbase | Apache の Amazon EMRが厳選した設定HBase。 | Custom EMR specific property. Sets emrfs-site and hbase-site configs. See those for their associated restarts. |
hbase-env | HBaseの環境の値を変更します。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-log4j | HBaseの hbase-log4j.properties ファイルの値を変更します。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-metrics | HBaseの hadoop-metrics2-hbase.properties ファイルの値を変更します。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-policy | HBaseの hbase-policy.xml ファイルの値を変更します。 | Not available. |
hbase-site | HBaseの hbase-site.xml ファイルの値を変更します。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. Additionally restarts Phoenix QueryServer. |
hdfs-encryption-zones | HDFS 暗号化ゾーンを設定します。 | This classification should not be reconfigured. |
hdfs-env | HDFS 環境の値を変更します。 | Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC. |
hdfs-site | HDFSの hdfs-site.xml の値を変更します。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs. |
hcatalog-env | HCatalogの環境の値を変更します。 | Restarts Hive HCatalog Server. |
hcatalog-server-jndi | HCatalogの jndi.properties の値を変更します。 | Restarts Hive HCatalog Server. |
hcatalog-server-proto-hive-site | HCatalog's proto-hive-site.xml の値を変更します。 | Restarts Hive HCatalog Server. |
hcatalog-webhcat-env | HCatalog W ebHCatの環境の値を変更します。 | Restarts Hive WebHCat server. |
hcatalog-webhcat-log4j2 | HCatalog W ebHCatの log4j2.properties の値を変更します。 | Restarts Hive WebHCat server. |
hcatalog-webhcat-site | HCatalog W ebHCatの webhcat-site.xml ファイルの値を変更します。 | Restarts Hive WebHCat server. |
hive | Apache Hive の Amazon EMRが厳選した設定。 | Sets configurations to launch Hive LLAP service. |
hive-beeline-log4j2 | Hive の beeline-log4j2.properties ファイルの値を変更します。 | Not available. |
hive-parquet-logging | Hive の parquet-logging.properties ファイルの値を変更します。 | Not available. |
hive-env | Hive 環境の値を変更します。 | Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. |
hive-exec-log4j2 | Hive の hive-exec-log4j2.properties ファイルの値を変更します。 | Not available. |
hive-llap-daemon-log4j2 | Hive の llap-daemon-log4j2.properties ファイルの値を変更します。 | Not available. |
hive-log4j2 | Hive の hive-log4j2.properties ファイルの値を変更します。 | Not available. |
hive-site | Hive の hive-site.xml ファイルの値を変更します | Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. Also restarts Oozie and Zeppelin. |
hiveserver2-site | Hive Server2 の hiveserver2-site.xml ファイルの値を変更します | Not available. |
hue-ini | Hue の ini ファイルの値を変更します | Restarts Hue. Also activates Hue config override CLI commands to pick up new configurations. |
httpfs-env | HTTPFS 環境の値を変更します。 | Restarts Hadoop Httpfs service. |
httpfs-site | Hadoop の httpfs-site.xml ファイルの値を変更します。 | Restarts Hadoop Httpfs service. |
hadoop-kms-acls | Hadoop の kms-acls.xml ファイルの値を変更します。 | Not available. |
hadoop-kms-env | Hadoop KMS環境の値を変更します。 | Restarts Hadoop-KMS service. |
hadoop-kms-log4j | Hadoop の kms-log4j.properties ファイルの値を変更します。 | Not available. |
hadoop-kms-site | Hadoop の kms-site.xml ファイルの値を変更します。 | Restarts Hadoop-KMS and Ranger-KMS service. |
hudi-env | Hudi 環境の値を変更します。 | Not available. |
hudi-defaults | Hudi の hudi-defaults.conf ファイルの値を変更します。 | Not available. |
jupyter-notebook-conf | Jupyter Notebook の jupyter_notebook_config.py ファイルの値を変更します。 | Not available. |
jupyter-hub-conf | JupyterHubsの jupyterhub_config.py ファイルの値を変更します。 | Not available. |
jupyter-s3-conf | Jupyter Notebook の S3 の永続性を設定します。 | Not available. |
jupyter-sparkmagic-conf | Sparkmagic の config.json ファイルの値を変更します。 | Not available. |
livy-conf | Livy の livy.conf ファイルの値を変更します。 | Restarts Livy Server. |
livy-env | Livy 環境の値を変更します。 | Restarts Livy Server. |
livy-log4j | Livy の log4j.properties の設定を変更します。 | Restarts Livy Server. |
mapred-env | MapReduce アプリケーションの環境の値を変更します。 | Restarts Hadoop MapReduce-HistoryServer. |
mapred-site | MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。 | Restarts Hadoop MapReduce-HistoryServer. |
oozie-env | Oozie の環境の値を変更します。 | Restarts Oozie. |
oozie-log4j | Oozie の oozie-log4j.properties ファイルの値を変更します。 | Restarts Oozie. |
oozie-site | Oozie の oozie-site.xml ファイルの値を変更します。 | Restarts Oozie. |
phoenix-hbase-metrics | Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。 | Not available. |
phoenix-hbase-site | Phoenix の hbase-site.xml ファイルの値を変更します。 | Not available. |
phoenix-log4j | Phoenix の log4j.properties ファイルの値を変更します。 | Restarts Phoenix-QueryServer. |
phoenix-metrics | Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。 | Not available. |
pig-env | Pig 環境の値を変更します。 | Not available. |
pig-properties | Pig の pig.properties ファイルの値を変更します。 | Restarts Oozie. |
pig-log4j | Pig の log4j.properties ファイルの値を変更します。 | Not available. |
presto-log | Presto の log.properties ファイルの値を変更します。 | Restarts Presto-Server (for PrestoDB) |
presto-config | Presto の config.properties ファイルの値を変更します。 | Restarts Presto-Server (for PrestoDB) |
presto-password-authenticator | Presto の password-authenticator.properties ファイルの値を変更します。 | Not available. |
presto-env | Presto の presto-env.sh ファイルの値を変更します。 | Restarts Presto-Server (for PrestoDB) |
presto-node | Presto の node.properties ファイルの値を変更します。 | Not available. |
presto-connector-blackhole | Presto の blackhole.properties ファイルの値を変更します。 | Not available. |
presto-connector-cassandra | Presto の cassandra.properties ファイルの値を変更します。 | Not available. |
presto-connector-hive | Presto の hive.properties ファイルの値を変更します。 | Restarts Presto-Server (for PrestoDB) |
presto-connector-jmx | Presto の jmx.properties ファイルの値を変更します。 | Not available. |
presto-connector-kafka | Presto の kafka.properties ファイルの値を変更します。 | Not available. |
presto-connector-localfile | Presto の localfile.properties ファイルの値を変更します。 | Not available. |
presto-connector-memory | Presto の memory.properties ファイルの値を変更します。 | Not available. |
presto-connector-mongodb | Presto の mongodb.properties ファイルの値を変更します。 | Not available. |
presto-connector-mysql | Presto の musql.properties ファイルの値を変更します。 | Not available. |
presto-connector-postgresql | Presto の postgresql.properties ファイルの値を変更します。 | Not available. |
presto-connector-raptor | Presto の raptor.properties ファイルの値を変更します。 | Not available. |
presto-connector-redis | Presto の redis.properties ファイルの値を変更します。 | Not available. |
presto-connector-redshift | Presto の redshift.properties ファイルの値を変更します。 | Not available. |
presto-connector-tpch | Presto の tpcj.properties ファイルの値を変更します。 | Not available. |
presto-connector-tpcds | Presto の tpcds.properties ファイルの値を変更します。 | Not available. |
trino-log | Trino の log.properties ファイルの値を変更します。 | Restarts Trino-Server (for Trino) |
trino-config | Trino の config.properties ファイルの値を変更します。 | Restarts Trino-Server (for Trino) |
trino-password-authenticator | Trino の password-authenticator.properties ファイルの値を変更します。 | Restarts Trino-Server (for Trino) |
trino-env | Trino の trino-env.sh ファイルの値を変更します。 | Restarts Trino-Server (for Trino) |
trino-node | Trino の node.properties ファイルの値を変更します。 | Not available. |
trino-connector-blackhole | Trino の blackhole.properties ファイルの値を変更します。 | Not available. |
trino-connector-cassandra | Trino の cassandra.properties ファイルの値を変更します。 | Not available. |
trino-connector-hive | Trino の hive.properties ファイルの値を変更します。 | Restarts Trino-Server (for Trino) |
trino-connector-jmx | Trino の jmx.properties ファイルの値を変更します。 | Not available. |
trino-connector-kafka | Trino の kafka.properties ファイルの値を変更します。 | Not available. |
trino-connector-localfile | Trino の localfile.properties ファイルの値を変更します。 | Not available. |
trino-connector-memory | Trino の memory.properties ファイルの値を変更します。 | Not available. |
trino-connector-mongodb | Trino の mongodb.properties ファイルの値を変更します。 | Not available. |
trino-connector-mysql | Trino の mysql.properties ファイルの値を変更します。 | Not available. |
trino-connector-postgresql | Presto の postgresql.properties ファイルの値を変更します。 | Not available. |
trino-connector-raptor | Trino の raptor.properties ファイルの値を変更します。 | Not available. |
trino-connector-redis | Trino の redis.properties ファイルの値を変更します。 | Not available. |
trino-connector-redshift | Trino の redshift.properties ファイルの値を変更します。 | Not available. |
trino-connector-tpch | Trino の tpch.properties ファイルの値を変更します。 | Not available. |
trino-connector-tpcds | Trino の tpcds.properties ファイルの値を変更します。 | Not available. |
ranger-kms-dbks-site | Ranger の dbks-site.xml ファイルの値を変更しますKMS。 | Restarts Ranger KMS Server. |
ranger-kms-site | Ranger の ranger-kms-site.xml ファイルの値を変更しますKMS。 | Restarts Ranger KMS Server. |
ranger-kms-env | Ranger KMS環境の値を変更します。 | Restarts Ranger KMS Server. |
ranger-kms-log4j | Ranger の kms-log4j.properties ファイルの値を変更しますKMS。 | Not available. |
ranger-kms-db-ca | Ranger との S3 for MySQL SSL接続の CA ファイルの値を変更しますKMS。 | Not available. |
spark | Apache EMRSpark の Amazon が厳選した設定。 | This property modifies spark-defaults. See actions there. |
spark-defaults | Spark の spark-defaults.conf ファイルの値を変更します。 | Restarts Spark history server and Spark thrift server. |
spark-env | Spark 環境の値を変更します。 | Restarts Spark history server and Spark thrift server. |
spark-hive-site | Spark の hive-site.xml ファイルの値を変更します | Not available. |
spark-log4j | Spark の log4j.properties ファイルの値を変更します。 | Restarts Spark history server and Spark thrift server. |
spark-metrics | Spark の metrics.properties ファイルの値を変更します。 | Restarts Spark history server and Spark thrift server. |
sqoop-env | Sqoop の環境の値を変更します。 | Not available. |
sqoop-oraoop-site | Sqoop OraOopの oraoop-site.xml ファイルの値を変更します。 | Not available. |
sqoop-site | Sqoop の sqoop-site.xml ファイルの値を変更します。 | Not available. |
tez-site | Tez の tez-site.xml ファイルの値を変更します。 | Restart Oozie and HiveServer2. |
yarn-env | YARN 環境の値を変更します。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
yarn-site | YARNの yarn-site.xml ファイルの値を変更します。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer. |
zeppelin-env | Zeppelin 環境の値を変更します。 | Restarts Zeppelin. |
zeppelin-site | zeppelin-site.xml の構成設定を変更します。 | Restarts Zeppelin. |
zookeeper-config | ZooKeeperの zoo.cfg ファイルの値を変更します。 | Restarts Zookeeper server. |
zookeeper-log4j | ZooKeeperlog4j.properties ファイルの値を変更します。 | Restarts Zookeeper server. |