以前のAMIバージョンの Amazon を使用したクラスターとアプリケーションの設定のカスタマイズ EMR - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

以前のAMIバージョンの Amazon を使用したクラスターとアプリケーションの設定のカスタマイズ EMR

Amazon EMRリリースバージョン 4.0.0 では、設定分類を使用してアプリケーションを設定する簡単な方法が導入されました。詳細については、「アプリケーションの設定」を参照してください。AMI バージョンを使用する場合は、ブートストラップアクションと渡す引数を使用してアプリケーションを設定します。例えば、 configure-hadoopおよび configure-daemonsブートストラップアクションは、Hadoop と のようなYARN固有の環境プロパティを設定します--namenode-heap-size。より新しいバージョンでは、これらは hadoop-envyarn-env 設定分類を使用して設定されます。一般的な設定を実行するブートストラップアクションについては、emr-bootstrap-actions Github の リポジトリを参照してください。

次の表は、最新の Amazon EMRリリースバージョンの設定分類にブートストラップアクションをマッピングしています。

Hadoop
影響を受けるアプリケーションファイル名 AMI バージョンブートストラップアクション 設定分類
core-site.xml configure-hadoop -c core-site
log4j.properties configure-hadoop -l hadoop-log4j
hdfs-site.xml configure-hadoop -s hdfs-site
該当なし 該当なし hdfs-encryption-zones
mapred-site.xml configure-hadoop -m mapred-site
yarn-site.xml configure-hadoop -y yarn-site
httpfs-site.xml configure-hadoop -t httpfs-site
capacity-scheduler.xml configure-hadoop -z capacity-scheduler
yarn-env.sh configure-daemons --resourcemanager-opts yarn-env
[Hive]
影響を受けるアプリケーションファイル名 AMI バージョンブートストラップアクション 設定分類
hive-env.sh 該当なし hive-env
hive-site.xml hive-script --install-hive-site ${MY_HIVE_SITE_FILE} hive-site
hive-exec-log4j.properties 該当なし hive-exec-log4j
hive-log4j.properties 該当なし hive-log4j
EMRFS
影響を受けるアプリケーションファイル名 AMI バージョンブートストラップアクション 設定分類
emrfs-site.xml configure-hadoop -e emrfs-site
該当なし s3get -s s3://custom-provider.jar -d /usr/share/aws/emr/auxlib/ emrfs-site (新しい設定 fs.s3.cse.encryptionMaterialsProvider.uri と併用)

全分類の一覧については、アプリケーションの設定 を参照してください。

アプリケーションの環境変数

AMI バージョンを使用する場合、hadoop-user-env.shスクリプトとconfigure-daemonsブートストラップアクションを使用して Hadoop 環境を設定します。スクリプトには、以下のアクションが含まれます。

#!/bin/bash export HADOOP_USER_CLASSPATH_FIRST=true; echo "HADOOP_CLASSPATH=/path/to/my.jar" >> /home/hadoop/conf/hadoop-user-env.sh

Amazon EMRリリース 4.x では、次の例に示すように、 hadoop-env設定分類を使用して同じ操作を行います。

[       {          "Classification":"hadoop-env",          "Properties":{          },          "Configurations":[             {                "Classification":"export",                "Properties":{                   "HADOOP_USER_CLASSPATH_FIRST":"true",                   "HADOOP_CLASSPATH":"/path/to/my.jar"                }             }          ]       }    ]

別の例として、configure-daemons の使用、--namenode-heap-size=2048 を渡すこと、--namenode-opts=-XX:GCTimeRatio=19 は以下の設定分類と同じです。

[       {          "Classification":"hadoop-env",          "Properties":{          },          "Configurations":[             {                "Classification":"export",                "Properties":{                   "HADOOP_DATANODE_HEAPSIZE": "2048", "HADOOP_NAMENODE_OPTS": "-XX:GCTimeRatio=19"                }             }          ]       }    ]

他のアプリケーションの環境変数は、/home/hadoop/.bashrc では定義されなくなりました。代わりに、コンポーネントやアプリケーションごとに、主に /etc/default のような /etc/default/hadoop ファイルで設定されます。アプリケーションによって/usr/bin/インストールされた のラッパースクリプトRPMsは、実際の bin スクリプトを含める前に、追加の環境変数を設定することもできます。

サービスポート

AMI バージョンを使用する場合、一部のサービスではカスタムポートが使用されます。

ポート設定の変更箇所
設定 AMI バージョン 3.x オープンソースのデフォルト
fs.default.name hdfs://emrDeterminedIP:9000 デフォルト (hdfs://emrDeterminedIP:8020)
dfs.datanode.address 0.0.0.0:9200 デフォルト (0.0.0.0:50010)
dfs.datanode.http.address 0.0.0.0:9102 デフォルト (0.0.0.0:50075)
dfs.datanode.https.address 0.0.0.0:9402 デフォルト (0.0.0.0:50475)
dfs.datanode.ipc.address 0.0.0.0:9201 デフォルト (0.0.0.0:50020)
dfs.http.address 0.0.0.0:9101 デフォルト (0.0.0.0:50070)
dfs.https.address 0.0.0.0:9202 デフォルト (0.0.0.0:50470)
dfs.secondary.http.address 0.0.0.0:9104 デフォルト (0.0.0.0:50090)
yarn.nodemanager.address 0.0.0.0:9103 デフォルト (${yarn.nodemanager.hostname}:0)
yarn.nodemanager.localizer.address 0.0.0.0:9033 デフォルト (${yarn.nodemanager.hostname}:8040)
yarn.nodemanager.webapp.address 0.0.0.0:9035 デフォルト (${yarn.nodemanager.hostname}:8042)
yarn.resourcemanager.address emrDeterminedIP:9022 デフォルト (${yarn.resourcemanager.hostname}:8032)
yarn.resourcemanager.admin.address emrDeterminedIP:9025 デフォルト (${yarn.resourcemanager.hostname}:8033)
yarn.resourcemanager.resource-tracker.address emrDeterminedIP:9023 デフォルト (${yarn.resourcemanager.hostname}:8031)
yarn.resourcemanager.scheduler.address emrDeterminedIP:9024 デフォルト (${yarn.resourcemanager.hostname}:8030)
yarn.resourcemanager.webapp.address 0.0.0.0:9026 デフォルト (${yarn.resourcemanager.hostname}:8088)
yarn.web-proxy.address emrDeterminedIP:9046 デフォルト (値なし)
yarn.resourcemanager.hostname 0.0.0.0 (デフォルト) emrDeterminedIP
注記

emrDeterminedIP は、Amazon によって生成される IP アドレスですEMR。

[ユーザー]

AMI バージョンを使用する場合、ユーザーはすべてのプロセスhadoopを実行し、すべてのファイルを所有します。Amazon EMRリリースバージョン 4.0.0 以降では、ユーザーはアプリケーションレベルとコンポーネントレベルに存在します。

インストールシーケンス、インストールされているアーティファクト、およびログファイルの場所

AMI バージョンを使用する場合、アプリケーションアーティファクトとその設定ディレクトリは /home/hadoop/application ディレクトリにインストールされます。たとえば、Hive をインストールした場合は、ディレクトリは /home/hadoop/hive でした。Amazon EMRリリース 4.0.0 以降では、アプリケーションアーティファクトは /usr/lib/application ディレクトリにインストールされます。AMI バージョンを使用する場合、ログファイルはさまざまな場所にあります。次の表に、場所を示します。

Amazon S3 のログの場所の変更
デーモンまたはアプリケーション ディレクトリの場所
instance-state node/instance-id/instance-state/
hadoop-hdfs-namenode デーモン/instance-id/hadoop-hadoop-namenode.log
hadoop-hdfs-datanode デーモン/instance-id/hadoop-hadoop-datanode.log
hadoop-yarn (ResourceManager) デーモン/instance-id/yarn-hadoop-resourcemanager
hadoop-yarn (プロキシサーバー) デーモン/instance-id/yarn-hadoop-proxyserver
mapred-historyserver デーモン/instance-id/
httpfs daemons/instance-id/httpfs.log
hive-server node/instance-id/hive-server/hive-server.log
hive-metastore node/instance-id/apps/hive.log
Hive CLI node/instance-id/apps/hive.log
YARN アプリケーションユーザーログとコンテナログ task-attempts/
Mahout 該当なし
Pig 該当なし
spark-historyserver 該当なし
MapReduce ジョブ履歴ファイル jobs/

Command runner

AMI バージョンを使用する場合、 などの多くのスクリプトやプログラムはシェルログインパス環境に配置され/home/hadoop/contrib/streaming/hadoop-streaming.jarないため、スクリプトを実行するために command-runner.jar や script-runner.jar などの jar ファイルを使用するときにフルパスを指定する必要があります。command-runner.jar は にあるAMIため、 の場合URIと同様に、完全な を知る必要はありませんscript-runner.jar

レプリケーション係数

レプリケーション係数を使用すると、Hadoop を起動するタイミングを設定できますJVM。タスクJVMごとに新しい Hadoop を開始してタスクの分離を改善したり、タスクJVMs間で共有してフレームワークのオーバーヘッドを削減したりできます。多数の小さなファイルを処理している場合は、起動コストを償却するためにJVM何回も再利用するのが理にかなっています。ただし、各タスクに長い時間がかかる場合や大量のデータを処理する場合は、 JVMを再利用しないことで、後続のタスクですべてのメモリが解放されるようにすることができます。AMI バージョンを使用する場合、configure-hadoopブートストラップアクションを使用してレプリケーション係数をカスタマイズし、 mapred.job.reuse.jvm.num.tasksプロパティを設定できます。

次の例は、無限JVM再利用のためのJVM再利用係数の設定を示しています。

注記

読みやすくするために、Linux 行連続文字 (\) が含まれています。Linux コマンドでは、これらは削除することも、使用することもできます。Windows の場合、削除するか、キャレット (^) に置き換えてください。

aws emr create-cluster --name "Test cluster" --ami-version 3.11.0 \ --applications Name=Hue Name=Hive Name=Pig \ --use-default-roles --ec2-attributes KeyName=myKey \ --instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType=m3.xlarge \ InstanceGroupType=CORE,InstanceCount=2,InstanceType=m3.xlarge \ --bootstrap-actions Path=s3://elasticmapreduce/bootstrap-actions/configure-hadoop,\ Name="Configuring infinite JVM reuse",Args=["-m","mapred.job.reuse.jvm.num.tasks=-1"]