翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon EMR リリース 6.4.0
6.4.0 アプリケーションバージョン
このリリースには、Flink
以下の表は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 3 つの Amazon EMR リリース (該当する場合) で利用可能なアプリケーションバージョンを示しています。
Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下のトピックを参照してください。
emr-6.4.0 | emr-6.3.1 | emr-6.3.0 | emr-6.2.1 | |
---|---|---|---|---|
AWS SDK for Java | 1.12.31 | 1.11.977 | 1.11.977 | 1.11.880 |
Python | 2.7、3.7 | 2.7、3.7 | 2.7、3.7 | 2.7、3.7 |
Scala | 2.12.10 | 2.12.10 | 2.12.10 | 2.12.10 |
AmazonCloudWatchAgent | - | - | - | - |
Delta | - | - | - | - |
Flink | 1.13.1 | 1.12.1 | 1.12.1 | 1.11.2 |
Ganglia | 3.7.2 | 3.7.2 | 3.7.2 | 3.7.2 |
HBase | 2.4.4 | 2.2.6 | 2.2.6 | 2.2.6-amzn-0 |
HCatalog | 3.1.2 | 3.1.2 | 3.1.2 | 3.1.2 |
Hadoop | 3.2.1 | 3.2.1 | 3.2.1 | 3.2.1 |
Hive | 3.1.2 | 3.1.2 | 3.1.2 | 3.1.2 |
Hudi | 0.8.0-amzn-0 | 0.7.0-amzn-0 | 0.7.0-amzn-0 | 0.6.0-amzn-1 |
Hue | 4.9.0 | 4.9.0 | 4.9.0 | 4.8.0 |
Iceberg | - | - | - | - |
JupyterEnterpriseGateway | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 |
JupyterHub | 1.4.1 | 1.2.2 | 1.2.2 | 1.1.0 |
Livy | 0.7.1 | 0.7.0 | 0.7.0 | 0.7.0 |
MXNet | 1.8.0 | 1.7.0 | 1.7.0 | 1.7.0 |
Mahout | - | - | - | - |
Oozie | 5.2.1 | 5.2.1 | 5.2.1 | 5.2.0 |
Phoenix | 5.1.2 | 5.0.0 | 5.0.0 | 5.0.0 |
Pig | 0.17.0 | 0.17.0 | 0.17.0 | 0.17.0 |
Presto | 0.254.1 | 0.245.1 | 0.245.1 | 0.238.3 |
Spark | 3.1.2 | 3.1.1 | 3.1.1 | 3.0.1 |
Sqoop | 1.4.7 | 1.4.7 | 1.4.7 | 1.4.7 |
TensorFlow | 2.4.1 | 2.4.1 | 2.4.1 | 2.3.1 |
Tez | 0.9.2 | 0.9.2 | 0.9.2 | 0.9.2 |
Trino (PrestoSQL) | 359 | 350 | 350 | 343 |
Zeppelin | 0.9.0 | 0.9.0 | 0.9.0 | 0.9.0 |
ZooKeeper | 3.5.7 | 3.4.14 | 3.4.14 | 3.4.14 |
6.4.0 リリースノート
次のリリースノートには、Amazon EMR リリース 6.4.0 に関する情報が含まれています。6.3.0 からの変更が含まれています。
初回リリース日: 2021 年 9 月 20 日
更新リリース日: 2022 年 3 月 21 日
サポートされているアプリケーション
-
AWS SDK for Java バージョン 1.12.31
-
CloudWatch Sink バージョン 2.2.0
-
DynamoDB Connector バージョン 4.16.0
-
EMRFS バージョン 2.47.0
-
Amazon EMR Goodies バージョン 3.2.0
-
Amazon EMR Kinesis Connector バージョン 3.5.0
-
Amazon EMR Record Server バージョン 2.1.0
-
Amazon EMR Scripts バージョン 2.5.0
-
Flink バージョン 1.13.1
-
Ganglia バージョン 3.7.2
-
AWS Glue Hive メタストアクライアントバージョン 3.3.0
-
Hadoop バージョン 3.2.1-amzn-4
-
HBase バージョン 2.4.4-amzn-0
-
HBase-operator-tools 1.1.0
-
HCatalog バージョン 3.1.2-amzn-5
-
Hive バージョン 3.1.2-amzn-5
-
Hudi バージョン 0.8.0-amzn-0
-
Hue バージョン 4.9.0
-
Java JDK バージョン Corretto-8.302.08.1 (ビルド 1.8.0_302-b08)
-
JupyterHub バージョン 1.4.1
-
Livy バージョン 0.7.1-incubating
-
MXNet バージョン 1.8.0
-
Oozie バージョン 5.2.1
-
Phoenix バージョン 5.1.2
-
Pig バージョン 0.17.0
-
Presto バージョン 0.254.1-amzn-0
-
Trino バージョン 359
-
Apache Ranger KMS (マルチマスター透過的暗号化) バージョン 2.0.0
-
ranger-plugins 2.0.1-amzn-0
-
ranger-s3-plugin 1.2.0
-
SageMaker Spark SDK バージョン 1.4.1
-
Scala バージョン 2.12.10 (OpenJDK 64 ビットサーバー VM、Java 1.8.0_282)
-
Spark バージョン 3.1.2-amzn-0
-
spark-rapids 0.4.1
-
Sqoop バージョン 1.4.7
-
TensorFlow バージョン 2.4.1
-
tez バージョン 0.9.2
-
Zeppelin バージョン 0.9.0
-
Zookeeper バージョン 3.5.7
-
コネクタおよびドライバー: DynamoDB Connector 4.16.0
新機能
-
[マネージドスケーリング] Spark シャッフルデータマネージドスケーリング最適化 - Amazon EMR バージョン 5.34.0 以降、および EMR バージョン 6.4.0 以降では、マネージドスケーリングは Spark シャッフルデータ (Spark が特定の操作を実行するためにパーティション間で再分配するデータ) 対応になりました。シャッフル操作の詳細については、「Amazon EMR 管理ガイド」および「Spark のプログラミングガイド
」の「Amazon EMR での EMR マネージドスケーリングの使用」を参照してください。 -
Apache Ranger 対応の Amazon EMR クラスターでは、Apache Spark SQL を使用して、
INSERT INTO
、INSERT OVERWRITE
、およびALTER TABLE
で Apache Hive メタストアテーブルでデータの挿入または更新を実行できます。Spark SQL で ALTER TABLE を使用する場合、パーティションの場所はテーブルの場所の子ディレクトリである必要があります。Amazon EMR は現在、パーティションの場所がテーブルの場所と異なるパーティションへのデータの挿入をサポートしていません。 -
PrestoSQL は Trino に名称変更
されています。 -
Hive: LIMIT 句を使用した簡単な SELECT クエリの実行は、LIMIT 句に記述されているレコード数がフェッチされたらすぐにクエリの実行を停止すると、高速化されます。簡単な SELECT クエリは、GROUP BY/ORDER BY 句のないクエリ、またはリデューサーステージのないクエリです。例えば、
SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>
と指定します。
Hudi の同時実行制御
-
Hudi はオプティミスティック同時実行制御 (OCC) をサポートするようになりました。この OCC を UPSERT や INSERT などの書き込みオペレーションで利用して、複数のライターから同じ Hudi テーブルへの変更を許可できます。これはファイルレベルの OCC であるため、2 つのコミット (またはライター) は、その変更が競合しなければ、同じテーブルに書き込むことができます。詳細については、「Hudi Concurrency Control
」を参照してください。 -
Amazon EMR クラスターには Zookeeper がインストールされており、OCC のロックプロバイダーとして利用できます。この機能を使いやすくするために、Amazon EMR クラスターには次のプロパティが事前設定されています。
hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<
EMR Zookeeper URL
> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port
> hoodie.write.lock.zookeeper.base_path=/hudiOCC を有効にするには、Hudi ジョブオプションを使用して、または Amazon EMR 設定 API を使用してクラスターレベルで、次のプロパティを設定する必要があります。
hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=
<Key to uniquely identify the Hudi table>
(Table Name is a good option)
Hudi モニタリング: Hudi メトリクスをレポートするための Amazon CloudWatch の統合
-
Amazon EMR は、Amazon CloudWatch への Hudi メトリクスの公開をサポートしています。これを有効にするには、次の必要な設定を行います。
hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
変更できるオプションの Hudi 設定を以下に示します。
設定 説明 値 hoodie.metrics.cloudwatch.report.period.seconds
Amazon CloudWatch にメトリクスをレポートする頻度 (秒単位)
デフォルト値は 60 秒で、Amazon CloudWatch が提供するデフォルトの 1 分の解像度では問題ありません
hoodie.metrics.cloudwatch.metric.prefix
各メトリクス名に追加するプレフィックス
デフォルト値は空です (プレフィックスなし)
hoodie.metrics.cloudwatch.namespace
メトリクスが公開される Amazon CloudWatch 名前空間
デフォルト値は Hudi です
hoodie.metrics.cloudwatch.maxDatumsPerRequest
Amazon CloudWatch への 1 つのリクエストに含めるデータムの最大数
デフォルト値は 20 で、Amazon CloudWatch のデフォルトと同じです
Amazon EMR Hudi の設定のサポートと改善
-
EMR 設定 API と再設定機能を利用して、クラスターレベルで Hudi 設定を構成できるようになりました。Spark、Hive などの他のアプリケーションに似た /etc/hudi/conf/hudi-defaults.conf を使用して、新しいファイルベースの設定のサポートが導入されました。EMR では、ユーザーエクスペリエンスを向上させるためにデフォルト設定はほとんどありません。
—
hoodie.datasource.hive_sync.jdbcurl
はクラスター Hive サーバ URL に設定されるため、指定する必要がなくなりました。これは、Spark クラスターモードでジョブを実行する場合に特に便利です。この場合、以前は Amazon EMR マスター IP を指定する必要がありました。— HBase 固有の設定。Hbase のインデックスを Hudi で使用する場合に役立ちます。
— 同時実行制御で説明されているように、Zookeeper はプロバイダー固有の設定をロックします。これにより、オプティミスティック同時実行制御 (OCC) の使用が容易になります。
-
渡す必要がある設定の数を減らし、可能な場合は自動的に推測するために、追加の変更が導入されました。
—
partitionBy
キーワードは、パーティション列を指定するために使用できます。— Hive Sync を有効にすると、
HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY
を渡すのは必須ではなくなります。これらの値は、Hudi テーブル名とパーティションフィールドから推測できます。—
KEYGENERATOR_CLASS_OPT_KEY
を渡すのは必須ではなく、より単純なSimpleKeyGenerator
およびComplexKeyGenerator
のケースから推測できます。
Hudi Caveats
-
Hudi では、読み取り時マージ (MoR) テーブルおよびブートストラップテーブルの Hive でのベクトル化された実行をサポートしていません。例えば、
hive.vectorized.execution.enabled
が true に設定されている場合、Hudi リアルタイムテーブルでcount(*)
は失敗します。回避策として、hive.vectorized.execution.enabled
をfalse
に設定して、ベクトル化された読み取りを無効にすることができます。 -
マルチライターサポートは、Hudi ブートストラップ機能とは互換性がありません。
-
Flink Streamer と Flink SQL は、このリリースでは実験的な機能です。これらの機能は、実稼働環境での使用はお勧めしません。
変更点、機能強化、解決した問題
これは、Amazon EMR Scaling がクラスターを正常にスケールアップ/スケールダウンできない場合や、アプリケーション障害を引き起こした場合の問題点を修正するためのリリースです。
以前は、マルチマスタークラスターでリソースマネージャーを手動で再起動すると、Zookeeper などの Amazon EMR のクラスター上のデーモンが、Zookeeper znode ファイル内の以前に廃止された、または失われたすべてのノードを再ロードしていました。これにより、特定の状況でデフォルトの制限を超えることがありました。Amazon EMR では、1 時間以上経過した、廃止された、または失われたノードレコードが Zookeeper ファイルから削除されるようになり、内部制限も引き上げられました。
Amazon EMR のクラスター上のデーモンが YARN ノード状態や HDFS ノード状態の収集などのヘルスチェックアクティビティを実行しているときに、大規模で使用率の高いクラスターのスケーリングリクエストが失敗する問題を修正しました。これは、クラスター上のデーモンがノードのヘルスステータスデータを内部の Amazon EMR コンポーネントに伝達できなかったために発生していました。
EMR のクラスター上のデーモンが改善され、IP アドレスが再利用されるときにノードの状態を正しく追跡できるようになり、スケーリング操作中の信頼性が向上しました。
SPARK-29683
。Spark が使用可能なすべてのノードが拒否リストに登録されていると想定していたため、クラスターのスケールダウン中にジョブエラーが発生する問題を修正しました。 YARN-9011
。クラスターがスケールアップまたはスケールダウンを試みたときに YARN 廃止の競合状態が原因でジョブ障害が発生する問題を修正しました。 Amazon EMR のクラスター上のデーモンと YARN/HDFS の間でノードの状態が常に一致するようにすることで、クラスターのスケーリング中のステップまたはジョブの障害に関する問題を修正しました。
Kerberos 認証で有効になっている Amazon EMR クラスターで、スケールダウンやステップ送信などのクラスター操作が失敗する問題を修正しました。これは、Amazon EMR のクラスター上のデーモンが、プライマリノードで実行されている HDFS/YARN と安全に通信するために必要な Kerberos チケットを更新しなかったためです。
-
Apache YARN タイムラインサーバーのバージョン 1 および 1.5 のパフォーマンスの問題を修正するためのクラスターの設定
Apache YARN タイムラインサーバーのバージョン 1 および 1.5 では、特に Amazon EMR のデフォルト設定である
yarn.resourcemanager.system-metrics-publisher.enabled=true
を使用する場合に、非常にアクティブで大規模な EMR クラスターでパフォーマンスの問題が発生する可能性があります。オープンソースの YARN タイムラインサーバー v2 では、YARN タイムラインサーバーのスケーラビリティに関連するパフォーマンスの問題が解決されています。この問題の他の回避策には、次のものがあります。
yarn-site.xml で yarn.resourcemanager.system-metrics-publisher.enabled=false を設定します。
クラスターの作成時にこの問題の修正を有効にします (以下を参照)。
次の Amazon EMR リリースには、この YARN タイムラインサーバーのパフォーマンス問題の修正が含まれています。
EMR 5.30.2、5.31.1、5.32.1、5.33.1、5.34.x、6.0.1、6.1.1、6.2.1、6.3.1、6.4.x
上記に示されている Amazon EMR リリースで修正を有効にするには、
aws emr create-cluster
コマンドのパラメータ--configurations file://./configurations.json
で渡される設定の JSON ファイルで、以下のプロパティをtrue
に設定します。または、再構成コンソール UI を使用して修正を有効にします。configurations.json ファイルの内容の例
[ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
WebHDFS と HttpFS サーバーはデフォルトで無効になっています。Hadoop 設定
dfs.webhdfs.enabled
を使用して WebHDF を再度有効にすることができます。HttpFS サーバーを起動するには、sudo systemctl start hadoop-httpfs
を使用します。-
Amazon Linux リポジトリでは、現在、HTTPS がデフォルトで有効になります。Amazon S3 VPCE ポリシーを使用して特定のバケットへのアクセスを制限する場合は、新しい Amazon Linux バケット ARN
arn:aws:s3:::amazonlinux-2-repos-$region/*
をポリシーに追加する ($region
を、エンドポイントがあるリージョンに置き換える) 必要があります。詳細については、 AWS ディスカッションフォーラムのこのトピックを参照してください。Announcement: Amazon Linux 2 now supports the ability to use HTTPS while connecting to package repositories -
Hive: 最後のジョブに HDFS でスクラッチディレクトリを使用できるようにすると、書き込みクエリのパフォーマンスが向上します。最後のジョブの一時データは Amazon S3 ではなく HDFS に書き込まれ、データは Amazon S3 デバイス間ではなく HDFS から最後のテーブルの場所 (Amazon S3) に移動されるため、パフォーマンスが向上します。
-
Hive: Glue メタストアパーティションプルーニングにより、クエリのコンパイル時間が最大 2.5 倍に改善されています。
-
デフォルトでは、組み込みの UDF が Hive から Hive メタストアサーバーに渡されると、Glue は限定された式演算子しかサポートしていないため、組み込みの UDF のサブセットのみが Glue メタストアに渡されます。
hive.glue.partition.pruning.client=true
を設定した場合、パーティションのプルーニングはすべてクライアント側で行われます。hive.glue.partition.pruning.server=true
を設定した場合、パーティションのプルーニングはすべてサーバー側で行われます。
既知の問題
Apache Hadoop HttpFS サーバーはデフォルトで無効になるため、Hue クエリは Amazon EMR 6.4.0 では機能しません。Amazon EMR 6.4.0 で Hue を使用するには、
sudo systemctl start hadoop-httpfs
を使用して Amazon EMR プライマリノードで HttpFS サーバーを手動で起動するか、または Amazon EMR のステップを使用します。Livy ユーザー偽装で使用される Amazon EMR Notebooks 機能は、HttpFS がデフォルトで無効になっているため機能しません。この場合、EMR notebooks は Livy 偽装が有効になっているクラスターに接続できません。回避策は、
sudo systemctl start hadoop-httpfs
を使用して EMR notebooks をクラスターに接続する前に、HttpFS サーバーを起動することです。Amazon EMR バージョン 6.4.0 では、Phoenix は Phoenix コネクタコンポーネントをサポートしていません。
Apache Oozie で Spark アクションを使用するには、以下の設定を Oozie
workflow.xml
ファイルに追加する必要があります。そうしないと、Hadoop や EMRFS などのいくつかの重要なライブラリが、Oozie が起動する Spark エグゼキューターのクラスパスから失われてしまいます。<spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
Hive パーティション場所の形式設定で Spark を使用して Amazon S3 のデータを読み取り、Amazon EMR リリース 5.30.0 から 5.36.0、および 6.2.0 から 6.9.0 で Spark を実行すると、クラスターがデータを正しく読み取れなくなる問題が発生する可能性があります。これは、パーティションに以下の特徴がすべて当てはまる場合に発生する可能性があります。
-
同じテーブルから 2 つ以上のパーティションがスキャンされます。
-
少なくとも 1 つのパーティションディレクトリパスが、少なくとも 1 つの他のパーティションディレクトリパスのプレフィックスです。例えば、
s3://bucket/table/p=a
はs3://bucket/table/p=a b
のプレフィックスです。 -
他のパーティションディレクトリのプレフィックスに続く最初の文字が、
/
文字 (U+002F) より小さい UTF-8 値を持ちます。例えば、s3://bucket/table/p=a b
の a と b の間にあるスペース文字 (U+0020) はこのカテゴリに該当します。非制御文字は他にも 14 個あることに注意してください:!"#$%&‘()*+,-
。詳細については、「UTF-8 encoding table and Unicode characters」を参照してください。
この問題の回避策として、
spark-defaults
分類のspark.sql.sources.fastS3PartitionDiscovery.enabled
設定をfalse
にセットします。-
6.4.0 コンポーネントバージョン
このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr
または aws
で開始されます。通常、最新の Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。
Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、
の形式のバージョンラベルがあります。CommunityVersion
-amzn-EmrVersion
は 0 から始まります。例えば、バージョン 2.2 の EmrVersion
myapp-component
というオープンソースコミュニティコンポーネントが、異なる Amazon EMR リリースに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2
として表示されます。
コンポーネント | バージョン | 説明 |
---|---|---|
aws-sagemaker-spark-sdk | 1.4.1 | Amazon SageMaker Spark SDK |
emr-ddb | 4.16.0 | Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。 |
emr-goodies | 3.2.0 | Hadoop エコシステムに役立つ追加のライブラリ。 |
emr-kinesis | 3.5.0 | Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。 |
emr-notebook-env | 1.3.0 | Jupyter エンタープライズゲートウェイを含む emr ノートブック用 Conda env |
emr-s3-dist-cp | 2.18.0 | Amazon S3 に最適化された分散コピーアプリケーション。 |
emr-s3-select | 2.1.0 | EMR S3Select コネクター |
emrfs | 2.47.0 | Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。 |
flink-client | 1.13.1 | Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。 |
flink-jobmanager-config | 1.13.1 | Apache Flink JobManager 用の EMR ノード上のリソースの管理。 |
ganglia-monitor | 3.7.2 | Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。 |
ganglia-metadata-collector | 3.7.2 | Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。 |
ganglia-web | 3.7.1 | Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。 |
hadoop-client | 3.2.1-amzn-4 | 'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。 |
hadoop-hdfs-datanode | 3.2.1-amzn-4 | ブロックを保存する HDFS ノードレベルのサービス。 |
hadoop-hdfs-library | 3.2.1-amzn-4 | HDFS コマンドラインクライアントとライブラリ |
hadoop-hdfs-namenode | 3.2.1-amzn-4 | ファイル名を追跡し、場所をブロックする HDFS サービス。 |
hadoop-hdfs-journalnode | 3.2.1-amzn-4 | HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。 |
hadoop-httpfs-server | 3.2.1-amzn-4 | HDFS オペレーションの HTTP エンドポイント。 |
hadoop-kms-server | 3.2.1-amzn-4 | Hadoop の KeyProvider API に基づく暗号キー管理サーバー。 |
hadoop-mapred | 3.2.1-amzn-4 | MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。 |
hadoop-yarn-nodemanager | 3.2.1-amzn-4 | 個別のノードでコンテナを管理する YARN サービス。 |
hadoop-yarn-resourcemanager | 3.2.1-amzn-4 | クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。 |
hadoop-yarn-timeline-server | 3.2.1-amzn-4 | YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。 |
hbase-hmaster | 2.4.4-amzn-0 | リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。 |
hbase-region-server | 2.4.4-amzn-0 | 1 つ以上の HBase リージョンに対応するサービス。 |
hbase-client | 2.4.4-amzn-0 | HBase コマンドラインクライアント。 |
hbase-rest-server | 2.4.4-amzn-0 | HBase の RESTful HTTP エンドポイントを提供するサービス。 |
hbase-thrift-server | 2.4.4-amzn-0 | HBase に Thrift エンドポイントを提供するサービス。 |
hcatalog-client | 3.1.2-amzn-5 | hcatalog-server を操作するための 'hcat' コマンドラインクライアント。 |
hcatalog-server | 3.1.2-amzn-5 | 分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。 |
hcatalog-webhcat-server | 3.1.2-amzn-5 | HCatalog に REST インターフェイスを提供する HTTP エンドポイント。 |
hive-client | 3.1.2-amzn-5 | Hive コマンドラインクライアント。 |
hive-hbase | 3.1.2-amzn-5 | Hive-hbase クライアント。 |
hive-metastore-server | 3.1.2-amzn-5 | Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。 |
hive-server2 | 3.1.2-amzn-5 | Hive クエリをウェブリクエストとして受け入れるサービス。 |
hudi | 0.8.0-amzn-0 | データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。 |
hudi-presto | 0.8.0-amzn-0 | Presto を Hudi で実行するためのバンドルライブラリ。 |
hudi-trino | 0.8.0-amzn-0 | Trino を Hudi で実行するためのバンドルライブラリ。 |
hudi-spark | 0.8.0-amzn-0 | Spark を Hudi で実行するためのバンドルライブラリ。 |
hue-server | 4.9.0 | Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション |
jupyterhub | 1.4.1 | Jupyter Notebook のマルチユーザーサーバー |
livy-server | 0.7.1-incubating | Apache Spark を操作するための REST インターフェイス |
nginx | 1.12.1 | nginx [engine x] は HTTP およびリバースプロキシサーバー |
mxnet | 1.8.0 | フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。 |
mariadb-server | 5.5.68+ | MariaDB データベースサーバー。 |
nvidia-cuda | 10.1.243 | Nvidia ドライバーと Cuda ツールキット |
oozie-client | 5.2.1 | Oozie コマンドラインクライアント。 |
oozie-server | 5.2.1 | Oozie ワークフローリクエストを受け入れるサービス。 |
opencv | 4.5.0 | オープンソースのコンピュータビジョンライブラリ。 |
phoenix-library | 5.1.2 | サーバーとクライアントの Phoenix ライブラリ |
phoenix-query-server | 5.1.2 | JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー |
presto-coordinator | 0.254.1-amzn-0 | presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 |
presto-worker | 0.254.1-amzn-0 | いくつかのクエリを実行するサービス。 |
presto-client | 0.254.1-amzn-0 | Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。 |
trino-coordinator | 359 | trino-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。 |
trino-worker | 359 | いくつかのクエリを実行するサービス。 |
trino-client | 359 | Trino サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Trino コマンドラインクライアント。 |
pig-client | 0.17.0 | Pig コマンドラインクライアント。 |
r | 4.0.2 | 統計的コンピューティング用 R プロジェクト |
ranger-kms-server | 2.0.0 | Apache Ranger Key Management System |
spark-client | 3.1.2-amzn-0 | Spark コマンドラインクライアント。 |
spark-history-server | 3.1.2-amzn-0 | 完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。 |
spark-on-yarn | 3.1.2-amzn-0 | YARN のメモリ内実行エンジン。 |
spark-yarn-slave | 3.1.2-amzn-0 | YARN スレーブで必要な Apache Spark ライブラリ。 |
spark-rapids | 0.4.1 | GPU で Apache Spark を高速化する Nvidia Spark RAPIDS プラグイン。 |
sqoop-client | 1.4.7 | Apache Sqoop コマンドラインクライアント。 |
tensorflow | 2.4.1 | TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。 |
tez-on-yarn | 0.9.2 | tez YARN アプリケーションおよびライブラリ。 |
webserver | 2.4.41+ | Apache HTTP サーバー。 |
zeppelin-server | 0.9.0 | インタラクティブなデータ分析を可能にするウェブベースのノートブック。 |
zookeeper-server | 3.5.7 | 設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。 |
zookeeper-client | 3.5.7 | ZooKeeper コマンドラインクライアント。 |
6.4.0 設定分類
設定分類を使用すると、アプリケーションをカスタマイズできます。これらは多くの場合、hive-site.xml
などのアプリケーションの構成 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。
再設定アクションは、実行中のクラスターのインスタンスグループの設定を指定すると発生します。Amazon EMR によって、変更した分類に対してのみ再設定アクションが開始されます。詳細については、「実行中のクラスター内のインスタンスグループの再設定」を参照してください。
分類 | 説明 | 再設定アクション |
---|---|---|
capacity-scheduler | Hadoop の capacity-scheduler.xml ファイルの値を変更します。 | Restarts the ResourceManager service. |
container-executor | Hadoop YARN の container-executor.cfg ファイルの値を変更します。 | Not available. |
container-log4j | Hadoop YARN の container-log4j.properties ファイルの値を変更します。 | Not available. |
core-site | Hadoop の core-site.xml ファイルの値を変更します。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Ranger KMS, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer. |
docker-conf | Docker 関連の設定を変更します。 | Not available. |
emrfs-site | EMRFS の設定を変更します。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts HBaseRegionserver, HBaseMaster, HBaseThrift, HBaseRest, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer. |
flink-conf | flink-conf.yaml の設定を変更します。 | Restarts Flink history server. |
flink-log4j | Flink log4j.properties の設定を変更します。 | Restarts Flink history server. |
flink-log4j-session | Kubernetes/Yarn セッションの Flink log4j-session.properties 設定を変更します。 | Restarts Flink history server. |
flink-log4j-cli | Flink log4j-cli.properties の設定を変更します。 | Restarts Flink history server. |
hadoop-env | Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts PhoenixQueryserver, HiveServer2, Hive MetaStore, and MapReduce-HistoryServer. |
hadoop-log4j | Hadoop の log4j.properties ファイルの値を変更します。 | Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
hadoop-ssl-server | Hadoop ssl のサーバー設定を変更します。 | Not available. |
hadoop-ssl-client | Hadoop ssl のクライアント設定を変更します。 | Not available. |
hbase | Apache HBase 用の Amazon EMR-curated 設定。 | Custom EMR specific property. Sets emrfs-site and hbase-site configs. See those for their associated restarts. |
hbase-env | HBase の環境の値を変更します。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-log4j | HBase の hbase-log4j.properties ファイルの値を変更します。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-metrics | HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-policy | HBase の hbase-policy.xml ファイルの値を変更します。 | Not available. |
hbase-site | HBase の hbase-site.xml ファイルの値を変更します。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. Additionally restarts Phoenix QueryServer. |
hdfs-encryption-zones | HDFS 暗号化ゾーンを設定します。 | This classification should not be reconfigured. |
hdfs-env | HDFS 環境の値を変更します。 | Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC. |
hdfs-site | HDFS の hdfs-site.xml の値を変更します。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs. |
hcatalog-env | HCatalog 環境の値を変更します。 | Restarts Hive HCatalog Server. |
hcatalog-server-jndi | HCatalog の jndi.properties の値を変更します。 | Restarts Hive HCatalog Server. |
hcatalog-server-proto-hive-site | HCatalog の proto-hive-site.xml の値を変更します。 | Restarts Hive HCatalog Server. |
hcatalog-webhcat-env | HCatalog WebHCat 環境の値を変更します。 | Restarts Hive WebHCat server. |
hcatalog-webhcat-log4j2 | HCatalog WebHCat の log4j2.properties の値を変更します。 | Restarts Hive WebHCat server. |
hcatalog-webhcat-site | HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。 | Restarts Hive WebHCat server. |
hive | Apache Hive 用の Amazon EMR-curated 設定。 | Sets configurations to launch Hive LLAP service. |
hive-beeline-log4j2 | Hive の beeline-log4j2.properties ファイルの値を変更します。 | Not available. |
hive-parquet-logging | Hive の parquet-logging.properties ファイルの値を変更します。 | Not available. |
hive-env | Hive 環境の値を変更します。 | Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. |
hive-exec-log4j2 | Hive の hive-exec-log4j2.properties ファイルの値を変更します。 | Not available. |
hive-llap-daemon-log4j2 | Hive の llap-daemon-log4j2.properties ファイルの値を変更します。 | Not available. |
hive-log4j2 | Hive の hive-log4j2.properties ファイルの値を変更します。 | Not available. |
hive-site | Hive の hive-site.xml ファイルの値を変更します | Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. Also restarts Oozie and Zeppelin. |
hiveserver2-site | Hive Server2 の hiveserver2-site.xml ファイルの値を変更します | Not available. |
hue-ini | Hue の ini ファイルの値を変更します | Restarts Hue. Also activates Hue config override CLI commands to pick up new configurations. |
httpfs-env | HTTPFS 環境の値を変更します。 | Restarts Hadoop Httpfs service. |
httpfs-site | Hadoop の httpfs-site.xml ファイルの値を変更します。 | Restarts Hadoop Httpfs service. |
hadoop-kms-acls | Hadoop の kms-acls.xml ファイルの値を変更します。 | Not available. |
hadoop-kms-env | Hadoop KMS 環境の値を変更します。 | Restarts Hadoop-KMS service. |
hadoop-kms-log4j | Hadoop の kms-log4j.properties ファイルの値を変更します。 | Not available. |
hadoop-kms-site | Hadoop の kms-site.xml ファイルの値を変更します。 | Restarts Hadoop-KMS and Ranger-KMS service. |
hudi-env | Hudi 環境の値を変更します。 | Not available. |
hudi-defaults | Hudi の hudi-defaults.conf ファイルの値を変更します。 | Not available. |
jupyter-notebook-conf | Jupyter Notebook の jupyter_notebook_config.py ファイルの値を変更します。 | Not available. |
jupyter-hub-conf | JupyterHubs の jupyterhub_config.py ファイルの値を変更します。 | Not available. |
jupyter-s3-conf | Jupyter Notebook の S3 の永続性を設定します。 | Not available. |
jupyter-sparkmagic-conf | Sparkmagic の config.json ファイルの値を変更します。 | Not available. |
livy-conf | Livy の livy.conf ファイルの値を変更します。 | Restarts Livy Server. |
livy-env | Livy 環境の値を変更します。 | Restarts Livy Server. |
livy-log4j | Livy の log4j.properties の設定を変更します。 | Restarts Livy Server. |
mapred-env | MapReduce アプリケーションの環境の値を変更します。 | Restarts Hadoop MapReduce-HistoryServer. |
mapred-site | MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。 | Restarts Hadoop MapReduce-HistoryServer. |
oozie-env | Oozie の環境の値を変更します。 | Restarts Oozie. |
oozie-log4j | Oozie の oozie-log4j.properties ファイルの値を変更します。 | Restarts Oozie. |
oozie-site | Oozie の oozie-site.xml ファイルの値を変更します。 | Restarts Oozie. |
phoenix-hbase-metrics | Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。 | Not available. |
phoenix-hbase-site | Phoenix の hbase-site.xml ファイルの値を変更します。 | Not available. |
phoenix-log4j | Phoenix の log4j.properties ファイルの値を変更します。 | Restarts Phoenix-QueryServer. |
phoenix-metrics | Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。 | Not available. |
pig-env | Pig 環境の値を変更します。 | Not available. |
pig-properties | Pig の pig.properties ファイルの値を変更します。 | Restarts Oozie. |
pig-log4j | Pig の log4j.properties ファイルの値を変更します。 | Not available. |
presto-log | Presto の log.properties ファイルの値を変更します。 | Restarts Presto-Server (for PrestoDB) |
presto-config | Presto の config.properties ファイルの値を変更します。 | Restarts Presto-Server (for PrestoDB) |
presto-password-authenticator | Presto の password-authenticator.properties ファイルの値を変更します。 | Not available. |
presto-env | Presto の presto-env.sh ファイルの値を変更します。 | Restarts Presto-Server (for PrestoDB) |
presto-node | Presto の node.properties ファイルの値を変更します。 | Not available. |
presto-connector-blackhole | Presto の blackhole.properties ファイルの値を変更します。 | Not available. |
presto-connector-cassandra | Presto の cassandra.properties ファイルの値を変更します。 | Not available. |
presto-connector-hive | Presto の hive.properties ファイルの値を変更します。 | Restarts Presto-Server (for PrestoDB) |
presto-connector-jmx | Presto の jmx.properties ファイルの値を変更します。 | Not available. |
presto-connector-kafka | Presto の kafka.properties ファイルの値を変更します。 | Not available. |
presto-connector-localfile | Presto の localfile.properties ファイルの値を変更します。 | Not available. |
presto-connector-memory | Presto の memory.properties ファイルの値を変更します。 | Not available. |
presto-connector-mongodb | Presto の mongodb.properties ファイルの値を変更します。 | Not available. |
presto-connector-mysql | Presto の musql.properties ファイルの値を変更します。 | Not available. |
presto-connector-postgresql | Presto の postgresql.properties ファイルの値を変更します。 | Not available. |
presto-connector-raptor | Presto の raptor.properties ファイルの値を変更します。 | Not available. |
presto-connector-redis | Presto の redis.properties ファイルの値を変更します。 | Not available. |
presto-connector-redshift | Presto の redshift.properties ファイルの値を変更します。 | Not available. |
presto-connector-tpch | Presto の tpcj.properties ファイルの値を変更します。 | Not available. |
presto-connector-tpcds | Presto の tpcds.properties ファイルの値を変更します。 | Not available. |
trino-log | Trino の log.properties ファイルの値を変更します。 | Restarts Trino-Server (for Trino) |
trino-config | Trino の config.properties ファイルの値を変更します。 | Restarts Trino-Server (for Trino) |
trino-password-authenticator | Trino の password-authenticator.properties ファイルの値を変更します。 | Restarts Trino-Server (for Trino) |
trino-env | Trino の trino-env.sh ファイルの値を変更します。 | Restarts Trino-Server (for Trino) |
trino-node | Trino の node.properties ファイルの値を変更します。 | Not available. |
trino-connector-blackhole | Trino の blackhole.properties ファイルの値を変更します。 | Not available. |
trino-connector-cassandra | Trino の cassandra.properties ファイルの値を変更します。 | Not available. |
trino-connector-hive | Trino の hive.properties ファイルの値を変更します。 | Restarts Trino-Server (for Trino) |
trino-connector-jmx | Trino の jmx.properties ファイルの値を変更します。 | Not available. |
trino-connector-kafka | Trino の kafka.properties ファイルの値を変更します。 | Not available. |
trino-connector-localfile | Trino の localfile.properties ファイルの値を変更します。 | Not available. |
trino-connector-memory | Trino の memory.properties ファイルの値を変更します。 | Not available. |
trino-connector-mongodb | Trino の mongodb.properties ファイルの値を変更します。 | Not available. |
trino-connector-mysql | Trino の mysql.properties ファイルの値を変更します。 | Not available. |
trino-connector-postgresql | Presto の postgresql.properties ファイルの値を変更します。 | Not available. |
trino-connector-raptor | Trino の raptor.properties ファイルの値を変更します。 | Not available. |
trino-connector-redis | Trino の redis.properties ファイルの値を変更します。 | Not available. |
trino-connector-redshift | Trino の redshift.properties ファイルの値を変更します。 | Not available. |
trino-connector-tpch | Trino の tpch.properties ファイルの値を変更します。 | Not available. |
trino-connector-tpcds | Trino の tpcds.properties ファイルの値を変更します。 | Not available. |
ranger-kms-dbks-site | Ranger KMS の dbks-site.xml ファイルの値を変更します。 | Restarts Ranger KMS Server. |
ranger-kms-site | Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。 | Restarts Ranger KMS Server. |
ranger-kms-env | Ranger KMS 環境の値を変更します。 | Restarts Ranger KMS Server. |
ranger-kms-log4j | Ranger KMS の kms-log4j.properties ファイルの値を変更します。 | Not available. |
ranger-kms-db-ca | Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。 | Not available. |
spark | Apache Spark 用の Amazon EMR-curated 設定。 | This property modifies spark-defaults. See actions there. |
spark-defaults | Spark の spark-defaults.conf ファイルの値を変更します。 | Restarts Spark history server and Spark thrift server. |
spark-env | Spark 環境の値を変更します。 | Restarts Spark history server and Spark thrift server. |
spark-hive-site | Spark の hive-site.xml ファイルの値を変更します | Not available. |
spark-log4j | Spark の log4j.properties ファイルの値を変更します。 | Restarts Spark history server and Spark thrift server. |
spark-metrics | Spark の metrics.properties ファイルの値を変更します。 | Restarts Spark history server and Spark thrift server. |
sqoop-env | Sqoop の環境の値を変更します。 | Not available. |
sqoop-oraoop-site | Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。 | Not available. |
sqoop-site | Sqoop の sqoop-site.xml ファイルの値を変更します。 | Not available. |
tez-site | Tez の tez-site.xml ファイルの値を変更します。 | Restart Oozie and HiveServer2. |
yarn-env | YARN 環境の値を変更します。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
yarn-site | YARN の yarn-site.xml ファイルの値を変更します。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer. |
zeppelin-env | Zeppelin 環境の値を変更します。 | Restarts Zeppelin. |
zeppelin-site | zeppelin-site.xml の構成設定を変更します。 | Restarts Zeppelin. |
zookeeper-config | ZooKeeper の zoo.cfg ファイルの値を変更します。 | Restarts Zookeeper server. |
zookeeper-log4j | ZooKeeper の log4j.properties ファイルの値を変更します。 | Restarts Zookeeper server. |