Amazon EMR リリース 5.30.2 - Amazon EMR

Amazon EMR リリース 5.30.2

5.30.2 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています: FlinkGangliaHBaseHCatalogHadoopHiveHudiHueJupyterHubLivyMXNetMahoutOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelinZooKeeper

以下の表は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 3 つの Amazon EMR リリース (該当する場合) で利用可能なアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下のトピックを参照してください。

アプリケーションバージョン情報
emr-5.30.2 emr-5.30.1 emr-5.30.0 emr-5.29.0
AWS SDK for Java 1.11.7591.11.7591.11.7591.11.682
Python 2.7、3.72.7、3.72.7、3.72.7、3.6
Scala 2.11.122.11.122.11.122.11.12
AmazonCloudWatchAgent - - - -
Delta - - - -
Flink1.10.01.10.01.10.01.9.1
Ganglia3.7.23.7.23.7.23.7.2
HBase1.4.131.4.131.4.131.4.10
HCatalog2.3.62.3.62.3.62.3.6
Hadoop2.8.52.8.52.8.52.8.5
Hive2.3.62.3.62.3.62.3.6
Hudi0.5.2-incubating0.5.2-incubating0.5.2-incubating0.5.0-incubating
Hue4.6.04.6.04.6.04.4.0
Iceberg - - - -
JupyterEnterpriseGateway - - - -
JupyterHub1.1.01.1.01.1.01.0.0
Livy0.7.00.7.00.7.00.6.0
MXNet1.5.11.5.11.5.11.5.1
Mahout0.13.00.13.00.13.00.13.0
Oozie5.2.05.2.05.2.05.1.0
Phoenix4.14.34.14.34.14.34.14.3
Pig0.17.00.17.00.17.00.17.0
Presto0.2320.2320.2320.227
Spark2.4.52.4.52.4.52.4.4
Sqoop1.4.71.4.71.4.71.4.7
TensorFlow1.14.01.14.01.14.01.14.0
Tez0.9.20.9.20.9.20.9.2
Trino (PrestoSQL) - - - -
Zeppelin0.8.20.8.20.8.20.8.2
ZooKeeper3.4.143.4.143.4.143.4.14

5.30.2 リリースノート

これは、Amazon EMR Scaling がクラスターを正常にスケールアップ/スケールダウンできない場合や、アプリケーション障害を引き起こした場合の問題点を修正するためのリリースです。

変更、拡張、解決した問題
  • Amazon EMR のクラスター上のデーモンが YARN ノード状態や HDFS ノード状態の収集などのヘルスチェックアクティビティを実行しているときに、大規模で使用率の高いクラスターのスケーリングリクエストが失敗する問題を修正しました。これは、クラスター上のデーモンがノードのヘルスステータスデータを内部の Amazon EMR コンポーネントに伝達できなかったために発生していました。

  • EMR のクラスター上のデーモンが改善され、IP アドレスが再利用されるときにノードの状態を正しく追跡できるようになり、スケーリング操作中の信頼性が向上しました。

  • SPARK-29683。Spark が使用可能なすべてのノードが拒否リストに登録されていると想定していたため、クラスターのスケールダウン中にジョブエラーが発生する問題を修正しました。

  • YARN-9011。クラスターがスケールアップまたはスケールダウンを試みたときに YARN 廃止の競合状態が原因でジョブ障害が発生する問題を修正しました。

  • Amazon EMR のクラスター上のデーモンと YARN/HDFS の間でノードの状態が常に一致するようにすることで、クラスターのスケーリング中のステップまたはジョブの障害に関する問題を修正しました。

  • Kerberos 認証で有効になっている Amazon EMR クラスターで、スケールダウンやステップ送信などのクラスター操作が失敗する問題を修正しました。これは、Amazon EMR のクラスター上のデーモンが、プライマリノードで実行されている HDFS/YARN と安全に通信するために必要な Kerberos チケットを更新しなかったためです。

  • Amazon EMR の新しいリリースでは、Amazon EMR の古い AL2 で「最大オープンファイル」の上限が低い問題が修正されています。Amazon EMR リリース 5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0 以降には、「最大オープンファイル」設定が高くなった永続的な修正が含まれるようになりました。

  • Amazon Linux リポジトリでは、現在、HTTPS がデフォルトで有効になります。Amazon S3 VPCE ポリシーを使用して特定のバケットへのアクセスを制限する場合は、新しい Amazon Linux バケット ARN arn:aws:s3:::amazonlinux-2-repos-$region/* をポリシーに追加する ($region を、エンドポイントがあるリージョンに置き換える) 必要があります。詳細については、AWS フォーラムの次のトピックを参照してください。Announcement: Amazon Linux 2 now supports the ability to use HTTPS while connecting to package repositories

既知の問題
  • Hive パーティション場所の形式設定で Spark を使用して Amazon S3 のデータを読み取り、Amazon EMR リリース 5.30.0 から 5.36.0、および 6.2.0 から 6.9.0 で Spark を実行すると、クラスターがデータを正しく読み取れなくなる問題が発生する可能性があります。これは、パーティションに以下の特徴がすべて当てはまる場合に発生する可能性があります。

    • 同じテーブルから 2 つ以上のパーティションがスキャンされます。

    • 少なくとも 1 つのパーティションディレクトリパスが、少なくとも 1 つの他のパーティションディレクトリパスのプレフィックスです。例えば、s3://bucket/table/p=as3://bucket/table/p=a b のプレフィックスです。

    • 他のパーティションディレクトリのプレフィックスに続く最初の文字が、/ 文字 (U+002F) より小さい UTF-8 値を持ちます。例えば、s3://bucket/table/p=a b の a と b の間にあるスペース文字 (U+0020) はこのカテゴリに該当します。非制御文字は他にも 14 個あることに注意してください: !"#$%&‘()*+,-。詳細については、「UTF-8 encoding table and Unicode characters」を参照してください。

    この問題の回避策として、spark-defaults 分類の spark.sql.sources.fastS3PartitionDiscovery.enabled 設定を false にセットします。

5.30.2 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新の Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。例えば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なる Amazon EMR リリースに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント Version 説明
aws-sagemaker-spark-sdk1.3.0Amazon SageMaker Spark SDK
emr-ddb4.14.0Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies2.13.0Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis3.5.0Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-s3-dist-cp2.14.0Amazon S3 に最適化された分散コピーアプリケーション。
emr-s3-select1.5.0EMR S3Select コネクター
emrfs2.40.0Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client1.10.0Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor3.7.2Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector3.7.2Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web3.7.1Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client2.8.5-amzn-6.1'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode2.8.5-amzn-6.1ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library2.8.5-amzn-6.1HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode2.8.5-amzn-6.1ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-journalnode2.8.5-amzn-6.1HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server2.8.5-amzn-6.1HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server2.8.5-amzn-6.1Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred2.8.5-amzn-6.1MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager2.8.5-amzn-6.1個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager2.8.5-amzn-6.1クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server2.8.5-amzn-6.1YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster1.4.13リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server1.4.131 つ以上の HBase リージョンに対応するサービス。
hbase-client1.4.13HBase コマンドラインクライアント。
hbase-rest-server1.4.13HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server1.4.13HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client2.3.6-amzn-2hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server2.3.6-amzn-2分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server2.3.6-amzn-2HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client2.3.6-amzn-2Hive コマンドラインクライアント。
hive-hbase2.3.6-amzn-2Hive-hbase クライアント。
hive-metastore-server2.3.6-amzn-2Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server22.3.6-amzn-2Hive クエリをウェブリクエストとして受け入れるサービス。
hudi0.5.2-incubatingデータパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-presto0.5.2-incubatingPresto を Hudi で実行するためのバンドルライブラリ。
hue-server4.6.0Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
jupyterhub1.1.0Jupyter Notebook のマルチユーザーサーバー
livy-server0.7.0-incubatingApache Spark を操作するための REST インターフェイス
nginx1.12.1nginx [engine x] は HTTP およびリバースプロキシサーバー
mahout-client0.13.0機械学習用のライブラリ。
mxnet1.5.1フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mariadb-server5.5.64+MySQL データベースサーバー。
nvidia-cuda9.2.88Nvidia ドライバーと Cuda ツールキット
oozie-client5.2.0Oozie コマンドラインクライアント。
oozie-server5.2.0Oozie ワークフローリクエストを受け入れるサービス。
opencv3.4.0オープンソースのコンピュータビジョンライブラリ。
phoenix-library4.14.3-HBase-1.4サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server4.14.3-HBase-1.4JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator0.232presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker0.232いくつかのクエリを実行するサービス。
presto-client0.232Presto サーバーが起動されていない HA クラスターのスタンバイマスターにインストールされる Presto コマンドラインクライアント。
pig-client0.17.0Pig コマンドラインクライアント。
r3.4.3統計的コンピューティング用 R プロジェクト
ranger-kms-server1.2.0Apache Ranger Key Management System
spark-client2.4.5-amzn-0.1Spark コマンドラインクライアント。
spark-history-server2.4.5-amzn-0.1完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn2.4.5-amzn-0.1YARN のメモリ内実行エンジン。
spark-yarn-slave2.4.5-amzn-0.1YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client1.4.7Apache Sqoop コマンドラインクライアント。
tensorflow1.14.0TensorFlow は、高性能数値計算用のオープンソースのソフトウェアライブラリです。
tez-on-yarn0.9.2tez YARN アプリケーションおよびライブラリ。
webserver2.4.25+Apache HTTP サーバー。
zeppelin-server0.8.2インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server3.4.14設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client3.4.14ZooKeeper コマンドラインクライアント。

5.30.2 設定分類

設定分類を使用すると、アプリケーションをカスタマイズできます。これらは多くの場合、hive-site.xml などのアプリケーションの構成 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.30.2 の分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties の設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

hudi-env

Hudi 環境の値を変更します。

jupyter-notebook-conf

Jupyter Notebook の jupyter_notebook_config.py ファイルの値を変更します。

jupyter-hub-conf

JupyterHubs の jupyterhub_config.py ファイルの値を変更します。

jupyter-s3-conf

Jupyter Notebook の S3 の永続性を設定します。

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-env

Pig 環境の値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-password-authenticator

Presto の password-authenticator.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-memory

Presto の memory.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-redshift

Presto の redshift.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

presto-connector-tpcds

Presto の tpcds.properties ファイルの値を変更します。

ranger-kms-dbks-site

Ranger KMS の dbks-site.xml ファイルの値を変更します。

ranger-kms-site

Ranger KMS の ranger-kms-site.xml ファイルの値を変更します。

ranger-kms-env

Ranger KMS 環境の値を変更します。

ranger-kms-log4j

Ranger KMS の kms-log4j.properties ファイルの値を変更します。

ranger-kms-db-ca

Ranger KMS を使用した MySQL SSL 接続用の S3 の CA ファイルの値を変更します。

recordserver-env

EMR RecordServer 環境の値を変更します。

recordserver-conf

EMR RecordServer の erver.properties ファイルの値を変更します。

recordserver-log4j

EMR RecordServer の log4j.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOop の oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeper の log4j.properties ファイルの値を変更します。