4.3.0 애플리케이션 버전 4.3.0 릴리스 정보 4.3.0 구성 요소 버전 4.3.0 구성 분류

Amazon EMR 릴리스 4.3.0

4.3.0 애플리케이션 버전

이 릴리스에서 지원되는 애플리케이션은 Ganglia, Hadoop, Hive, Hue, Mahout, Oozie-Sandbox, Pig, Presto-Sandbox, Spark, Zeppelin-Sandbox입니다.

아래 테이블에는 이번 Amazon EMR 릴리스에서 사용할 수 있는 애플리케이션 버전과 이전 세 가지 Amazon EMR 릴리스(해당하는 경우)의 애플리케이션 버전이 나와 있습니다.

각 Amazon EMR 릴리스에서 애플리케이션 버전의 전체 기록은 다음 주제를 참조하세요.

애플리케이션 버전 정보
	emr-4.3.0	emr-4.2.0	emr-4.1.0	emr-4.0.0
Java용 AWS SDK	1.10.27	1.10.27	추적되지 않음	추적되지 않음
Python	추적되지 않음	추적되지 않음	추적되지 않음	추적되지 않음
Scala	추적되지 않음	추적되지 않음	추적되지 않음	추적되지 않음
AmazonCloudWatchAgent	-	-	-	-
Delta	-	-	-	-
Flink	-	-	-	-
Ganglia	3.7.2	3.6.0	-	-
HBase	-	-	-	-
HCatalog	-	-	-	-
Hadoop	2.7.1	2.6.0	2.6.0	2.6.0
Hive	1.0.0	1.0.0	1.0.0	1.0.0
Hudi	-	-	-	-
Hue	3.7.1	3.7.1	3.7.1	-
Iceberg	-	-	-	-
JupyterEnterpriseGateway	-	-	-	-
JupyterHub	-	-	-	-
Livy	-	-	-	-
MXNet	-	-	-	-
Mahout	0.11.0	0.11.0	0.11.0	0.10.0
Oozie	-	-	-	-
Oozie-Sandbox	4.2.0	4.2.0	4.0.1	-
Phoenix	-	-	-	-
Pig	0.14.0	0.14.0	0.14.0	0.14.0
Presto	-	-	-	-
Presto-Sandbox	0.130	0.125	0.119	-
Spark	1.6.0	1.5.2	1.5.0	1.4.1
Sqoop	-	-	-	-
Sqoop-Sandbox	-	-	-	-
TensorFlow	-	-	-	-
Tez	-	-	-	-
Trino (PrestoSQL)	-	-	-	-
Zeppelin	-	-	-	-
Zeppelin-Sandbox	0.5.5	0.5.5	0.6.0-SNAPSHOT	-
ZooKeeper	-	-	-	-
ZooKeeper-Sandbox	-	-	-	-

4.3.0 릴리스 정보

다음 릴리스 정보에는 Amazon EMR 릴리스 4.3.0에 대한 정보가 포함됩니다.

릴리스 날짜: 2016년 1월 19일

특성

Hadoop 2.7.1으로 업그레이드
Spark 1.6.0로 업그레이드
Ganglia를 3.7.2로 업그레이드
Presto를 0.130로 업그레이드
Amazon EMR에서 spark.dynamicAllocation.enabled를 true로 설정한 경우 이 설정이 약간 변경되었습니다. 이 설정은 기본적으로 false입니다. 이 값을 true로 설정하면 이 설정은 maximizeResourceAllocation 설정을 통해 지정된 기본값에 영향을 미칩니다.
- spark.dynamicAllocation.enabled가 true로 설정되면 spark.executor.instances에서 maximizeResourceAllocation가 설정되지 않습니다.
- 이제 spark.driver.memory 설정은 spark.executors.memory가 설정되는 방식과 비슷한 방식으로 클러스터의 인스턴스 유형에 따라 구성됩니다. 하지만 Spark 드라이버 애플리케이션을 마스터 또는 코어 인스턴스 중 하나에서(예를 들면 각각 YARN 클라이언트 및 클러스터 모드에서) 실행할 수 있으므로 spark.driver.memory 설정이 이러한 두 인스턴스 그룹 중 더 작은 인스턴스 유형에 따라 설정됩니다.
- 이제 spark.default.parallelism 설정은 YARN 컨테이너에 사용할 수 있는 CPU 코어 수의 두 배로 설정됩니다. 이전 릴리스에서 이 설정은 해당 값의 절반이었습니다.
- Spark YARN 프로세스에서 예약된 메모리 오버헤드에 대한 계산이 더 정확하게 조정되어 Spark에 사용 가능한 총 메모리 양(즉, spark.executor.memory)이 약간 증가했습니다.

이전 릴리스에서 해결된 알려진 문제

이제 YARN 로그 집계가 기본적으로 활성화됩니다.
YARN 로그 집계를 활성화하면 로그가 클러스터의 Amazon S3 로그 버킷에 푸시되지 않는 문제를 수정했습니다.
이제 YARN 컨테이너 크기의 새로운 최소값은 모든 노드 유형에서 32입니다.
대규모 클러스터의 프라이머리 노드에 과도한 디스크 I/O를 유발하는 Ganglia 문제를 수정했습니다.
클러스터를 종료할 때 애플리케이션 로그가 Amazon S3에 푸시되지 않는 문제를 수정했습니다.
EMRFS CLI에서 특정 명령이 실패하는 문제를 수정했습니다.
종속성이 기본 SparkContext에 로드되지 않는 Zeppelin 문제를 수정했습니다.
크기 조정을 실행하여 인스턴스를 추가하려고 할 때 발생하는 문제를 수정했습니다.
Hive에서 CREATE TABLE AS SELECT를 실행하면 Amazon S3에 대한 목록이 과도하게 직접 호출되는 문제를 수정했습니다.
Hue, Oozie 및 Ganglia를 설치하면 대규모 클러스터가 제대로 프로비저닝되지 않는 문제를 수정했습니다.
s3-dist-cp가 오류로 실패하더라도 0 종료 코드가 반환되는 문제를 수정했습니다.

4.3.0 구성 요소 버전

이 릴리스를 통해 Amazon EMR이 설치하는 구성 요소는 다음과 같습니다. 일부는 빅 데이터 애플리케이션 패키지의 일부로 설치됩니다. 나머지는 Amazon EMR에 고유하며 시스템 프로세스 및 기능을 위해 설치됩니다. 이는 일반적으로 emr 또는 aws로 시작됩니다. 최근 Amazon EMR 릴리스의 빅 데이터 애플리케이션 패키지는 일반적으로 커뮤니티에서 발견된 최신 버전입니다. 가능한 한 빨리 Amazon EMR에서 커뮤니티 릴리스를 제공합니다.

Amazon EMR의 일부 구성 요소는 커뮤니티 버전과 다릅니다. 이러한 구성 요소에는 CommunityVersion-amzn-EmrVersion 양식의 버전 레이블이 있습니다. EmrVersion은 0에서 시작합니다. 예를 들어, 버전 2.2의 myapp-component라는 오픈 소스 커뮤니티 구성 요소가 다른 Amazon EMR 릴리스에 포함되도록 세 번 수정된 경우 해당 릴리스 버전은 2.2-amzn-2로 나열됩니다.

구성 요소	버전	설명
emr-ddb	3.0.0	하둡 에코시스템 애플리케이션용 Amazon DynamoDB 커넥터
emr-goodies	2.0.0	편리한 하둡 에코시스템용 추가 라이브러리
emr-kinesis	3.1.0	하둡 에코시스템 애플리케이션용 Amazon Kinesis 커넥터.
emr-s3-dist-cp	2.1.0	Amazon S3용으로 최적화된 분사 복사 애플리케이션.
emrfs	2.3.0	하둡 에코시스템 애플리케이션용 Amazon S3 커넥터.
ganglia-monitor	3.7.2	하둡 에코시스템 애플리케이션용 내장형 Ganglia 에이전트와 Ganglia 모니터링 에이전트.
ganglia-metadata-collector	3.7.2	Ganglia 모니터링 에이전트의 측정치를 집계하기 위한 Ganglia 메타데이터 수집기.
ganglia-web	3.7.1	Ganglia 메타데이터 수집기에서 수집되는 측정치를 볼 수 있는 웹 애플리케이션.
hadoop-client	2.7.1-amzn-0	'hdfs', 'hadoop', 'yarn' 등과 같은 하둡 명령줄 클라이언트
hadoop-hdfs-datanode	2.7.1-amzn-0	블록을 저장하는 HDFS 노드 수준 서비스
hadoop-hdfs-library	2.7.1-amzn-0	HDFS 명령줄 클라이언트 및 라이브러리
hadoop-hdfs-namenode	2.7.1-amzn-0	파일 이름 및 블록 위치를 추적하는 HDFS 서비스
hadoop-httpfs-server	2.7.1-amzn-0	HDFS 작업에 대한 HTTP 엔드포인트
hadoop-kms-server	2.7.1-amzn-0	하둡의 KeyProvider API를 기반으로 하는 암호화 키 관리 서버
hadoop-mapred	2.7.1-amzn-0	MapReduce 애플리케이션을 실행하는 MapReduce 실행 엔진 라이브러리
hadoop-yarn-nodemanager	2.7.1-amzn-0	개별 노드의 컨테이너를 관리하는 YARN 서비스
hadoop-yarn-resourcemanager	2.7.1-amzn-0	클러스터 리소스 및 분산 애플리케이션을 할당 및 관리하는 YARN 서비스
hive-client	1.0.0-amzn-2	Hive 명령줄 클라이언트
hive-metastore-server	1.0.0-amzn-2	하둡 작업에 대한 SQL용 메타데이터가 저장되는 시맨틱 리포지토리인 Hive 메타스토어에 액세스하기 위한 서비스
hive-server	1.0.0-amzn-2	Hive 쿼리를 웹 요청으로 수락하기 위한 서비스
hue-server	3.7.1-amzn-5	하둡 에코시스템 애플리케이션을 사용하여 데이터를 분석하는 웹 애플리케이션.
mahout-client	0.11.0	머신 러닝을 위한 라이브러리.
mysql-server	5.5	MySQL 데이터베이스 서버.
oozie-client	4.2.0	Oozie 명령줄 클라이언트
oozie-server	4.2.0	Oozie 워크플로 요청을 수락하는 서비스
presto-coordinator	0.130	presto-worker의 쿼리를 수락하고 쿼리 실행을 관리하는 서비스.
presto-worker	0.130	여러 쿼리를 실행하는 서비스.
pig-client	0.14.0-amzn-0	Pig 명령줄 클라이언트.
spark-client	1.6.0	Spark 명령줄 클라이언트.
spark-history-server	1.6.0	완료된 Spark 애플리케이션의 수명에 대해 기록된 이벤트를 조회하는 웹 UI.
spark-on-yarn	1.6.0	YARN용 인 메모리 실행 엔진.
spark-yarn-slave	1.6.0	YARN 슬레이브에서 필요한 Apache Spark 라이브러리.
webserver	2.4	Apache HTTP 서버.
zeppelin-server	0.5.5-incubating-amzn-1	대화형 데이터 분석이 가능한 웹 기반 노트북

4.3.0 구성 분류

구성 분류를 사용하면 애플리케이션을 사용자 지정할 수 있습니다. 이는 종종 hive-site.xml과 같이 애플리케이션의 구성 XML 파일에 해당합니다. 자세한 내용은 애플리케이션 구성 단원을 참조하십시오.

emr-4.3.0 분류
분류	설명
capacity-scheduler	하둡 capacity-scheduler.xml 파일의 값을 변경합니다.
core-site	하둡 core-site.xml 파일의 값을 변경합니다.
emrfs-site	EMRFS 설정을 변경합니다.
hadoop-env	모든 하둡 구성 요소에 대한 하둡 환경의 값을 변경합니다.
hadoop-log4j	하둡 log4j.properties 파일의 값을 변경합니다.
hdfs-encryption-zones	HDFS 암호화 영역을 구성합니다.
hdfs-site	HDFS hdfs-site.xml의 값을 변경합니다.
hive-env	Hive 환경의 값을 변경합니다.
hive-exec-log4j	Hive's hive-exec-log4j.properties 파일의 값을 변경합니다.
hive-log4j	Hive's hive-log4j.properties 파일의 값을 변경합니다.
hive-site	Hive hive-site.xml 파일의 값을 변경합니다.
hue-ini	Hue ini 파일의 값을 변경합니다.
httpfs-env	HTTPFS 환경의 값을 변경합니다.
httpfs-site	하둡 httpfs-site.xml 파일의 값을 변경합니다.
hadoop-kms-acls	하둡 kms-acls.xml 파일의 값을 변경합니다.
hadoop-kms-env	하둡 KMS 환경의 값을 변경합니다.
hadoop-kms-log4j	하둡 kms-log4j.properties 파일의 값을 변경합니다.
hadoop-kms-site	하둡 kms-site.xml 파일의 값을 변경합니다.
mapred-env	MapReduce 애플리케이션 환경의 값을 변경합니다.
mapred-site	MapReduce 애플리케이션 mapred-site.xml 파일의 값을 변경합니다.
oozie-env	Oozie 환경의 값을 변경합니다.
oozie-log4j	Oozie oozie-log4j.properties 파일의 값을 변경합니다.
oozie-site	Oozie oozie-site.xml 파일의 값을 변경합니다.
pig-properties	Pig pig.properties 파일의 값을 변경합니다.
pig-log4j	Pig log4j.properties 파일의 값을 변경합니다.
presto-log	Presto log.properties 파일의 값을 변경합니다.
presto-config	Presto config.properties 파일의 값을 변경합니다.
presto-connector-hive	Presto hive.properties 파일의 값을 변경합니다.
spark	Apache Spark에 대한 Amazon EMR 큐레이트 설정입니다.
spark-defaults	Spark spark-defaults.conf 파일의 값을 변경합니다.
spark-env	the Spark 환경의 값을 변경합니다.
spark-log4j	Spark log4j.properties 파일의 값을 변경합니다.
spark-metrics	Spark metrics.properties 파일의 값을 변경합니다.
yarn-env	YARN 환경의 값을 변경합니다.
yarn-site	YARN yarn-site.xml 파일의 값을 변경합니다.
zeppelin-env	Zeppelin 환경의 값을 변경합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

emr-4.4.0

emr-4.2.0