기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon 릴리스 정보 EMR 아카이브
모든 Amazon 릴리스에 대한 EMR 릴리스 정보는 아래에서 확인할 수 있습니다. 각 릴리스의 포괄적인 릴리스 정보는 Amazon EMR 6.x 릴리스 버전, Amazon EMR 4.x 릴리스 버전, Amazon EMR 5.x 릴리스 버전 섹션을 참조하세요.
새 Amazon EMR 릴리스를 사용할 수 있을 때 업데이트를 받으려면 RSS Amazon EMR 릴리스 정보 피드를 구독하세요.
릴리스 6.14.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.14.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.13.0에 관련됩니다. 릴리스 일정에 대한 자세한 내용은 6.14.0 변경 로그 섹션을 참조하세요.
새로운 특성
-
Amazon EMR 6.14.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-2, Flink 1.17.1, Iceberg 1.3.1, and Trino 422.
-
이제 Amazon 6.14.0 이상에서 생성하는 클러스터에 대해 아시아 태평양(자카르타) 리전에서 Amazon EMR 관리형 스케일링을 사용할 수 있습니다.
ap-southeast-3
EMR
변경 사항, 향상된 기능 및 해결된 문제
-
6.14.0 릴리스는 Amazon에서 EMR 실행 중인 Amazon을 사용하여 로그 관리를 최적화합니다EC2. 따라서 클러스터 로그의 스토리지 비용이 조금 절감될 수 있습니다.
-
6.14.0 릴리스는 Amazon EBS 볼륨의 크기가 크게 달라지는 다양한 코어 인스턴스를 고려하도록 조정 워크플로를 개선합니다. 이 개선 사항은 코어 노드에만 적용되며, 태스크 노드의 스케일 다운 작업은 영향을 받지 않습니다.
-
6.14.0 릴리스는 Amazon이 다음과 같은 오픈 소스 애플리케이션과 EMR 상호 작용하는 방식을 개선합니다.Apache Hadoop YARN ResourceManager and HDFS NameNode. 이러한 개선은 클러스터 조정으로 인한 운영 지연 위험을 줄이고 오픈 소스 애플리케이션의 연결 문제로 인해 발생하는 시작 실패를 완화합니다.
-
6.14.0 릴리스에서는 클러스터 시작 시 애플리케이션 설치를 최적화합니다. 이렇게 하면 Amazon EMR 애플리케이션의 특정 조합에 대한 클러스터 시작 시간이 향상됩니다.
-
6.14.0 릴리스는 사용자 지정 도메인이 VPC 있는에서 실행 중인 클러스터에서 코어 또는 태스크 노드가 다시 시작될 때 클러스터 축소 작업이 중지될 수 있는 문제를 해결합니다.
Amazon 5.36 이상, EMR 6.6 이상 또는 7.0 이상의 최신 패치 릴리스로 클러스터를 시작하면 Amazon은 기본 Amazon EMR에 최신 Amazon Linux 2023 또는 Amazon Linux 2 릴리스를 EMR 사용합니다AMI. 자세한 내용은 기본 Amazon Linux AMI for Amazon 사용을 참조하세요EMR.
OsReleaseLabel (Amazon Linux 버전) Amazon Linux 커널 버전 사용 가능한 날짜 지원되는 리전 2.0.20240709.1 4.14.348 2024년 7월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 아시아 태평양(하이데라바드), 중동(UAE), 유럽(스페인), 유럽(취리히), 아시아 태평양(멜버른), 이스라엘(텔아비브), 캐나다 서부(캘거리) 2.0.20240223.0 4.14.336 2024년 3월 8일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240131.0 4.14.336 2024년 2월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240124.0 4.14.336 2024년 2월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240109.0 4.14.334 2024년 1월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부),이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20231218.0 4.14.330 2024년 1월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231206.0 4.14.330 2023년 12월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231116.0 4.14.328 2023년 12월 11일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231101.0 4.14.327 2023년 11월 17일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20230906.0 4.14.322 2023년 9월 11일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브)
릴리스 6.13.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.13.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.12.0에 관련됩니다. 릴리스 일정에 대한 자세한 내용은 6.13.0 변경 로그 섹션을 참조하세요.
새로운 특성
-
Amazon EMR 6.13.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-1, CUDA Toolkit 11.8.0, and JupyterHub 1.5.0.
변경 사항, 향상된 기능 및 해결된 문제
-
6.13.0 릴리스는 클러스터 종료 명령이 실행될 때 모든 EMR 로그가 정기적으로 Amazon S3에 업로드되도록 Amazon 로그 관리 데몬을 개선합니다. 이를 통해 클러스터 종료 속도가 빨라집니다.
-
6.13.0 릴리스는 Amazon S3에 모든 EMR 로그 파일을 일관되고 시기 적절하게 업로드할 수 Amazon S3 로그 관리 기능을 개선합니다. 이는 특히 장기 실행 EMR 클러스터에 도움이 됩니다.
Amazon 5.36 이상, EMR 6.6 이상 또는 7.0 이상의 최신 패치 릴리스로 클러스터를 시작하면 Amazon은 기본 Amazon EMR에 최신 Amazon Linux 2023 또는 Amazon Linux 2 릴리스를 EMR 사용합니다AMI. 자세한 내용은 기본 Amazon Linux AMI for Amazon 사용을 참조하세요EMR.
OsReleaseLabel (Amazon Linux 버전) Amazon Linux 커널 버전 사용 가능한 날짜 지원되는 리전 2.0.20241001.0 4.14.352 2024년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240816.0 4.14.350 2024년 8월 21일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240809.0 4.14.349 2024년 8월 20일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240719.0 4.14.348 2024년 7월 25일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240709.1 4.14.348 2024년 7월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 아시아 태평양(하이데라바드), 중동(UAE), 유럽(스페인), 유럽(취리히), 아시아 태평양(멜버른), 이스라엘(텔아비브), 캐나다 서부(캘거리) 2.0.20240223.0 4.14.336 2024년 3월 8일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240131.0 4.14.336 2024년 2월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240124.0 4.14.336 2024년 2월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240109.0 4.14.334 2024년 1월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20231218.0 4.14.330 2024년 1월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231206.0 4.14.330 2023년 12월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231116.0 4.14.328 2023년 12월 11일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231101.0 4.14.327 2023년 11월 16일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231020.1 4.14.326 2023년 11월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231012.1 4.14.326 2023년 10월 26일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20230926.0 4.14.322 2023년 10월 19일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20230906.0 4.14.322 2023년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230808.0 4.14.320 2023년 8월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브)
릴리스 6.12.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.12.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.11.0에 관련됩니다. 릴리스 일정에 대한 자세한 내용은 6.12.0 변경 로그 섹션을 참조하세요.
새로운 특성
-
Amazon EMR 6.12.0 supports Apache Spark 3.4.0, Apache Spark RAPIDS 23.06.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.1-amzn-0, Apache Iceberg 1.3.0-amzn-0, Trino 414, and PrestoDB 0.281.
-
Amazon은 Apache Livy, Apache Hive through 2(HS2), Trino, Presto 및 Hue와의 LDAP 통합을 지원하는 6.1 HiveServer2.0 이상을 EMR 릴리스합니다. 6.12.0 이상을 사용하는 EMR 클러스터에 Apache Spark 및 Apache Hadoop을 설치하고를 사용하도록 구성할 수도 있습니다LDAP. 자세한 내용은 Amazon에 대한 인증을 위해 Active Directory 또는 LDAP 서버 사용을 참조하세요EMR.
변경 사항, 향상된 기능 및 해결된 문제
-
Amazon EMR 릴리스 6.12.0 이상은 Flink에 대한 Java 11 런타임 지원을 제공합니다. 자세한 내용은 Java 11과 함께 실행하도록 Flink 구성 단원을 참조하십시오.
-
6.12.0 릴리스는 Presto 또는 Trino를 실행하는 클러스터의 EMR 클러스터 조정 워크플로에 새로운 재시도 메커니즘을 추가합니다. 이 개선 사항을 통해 크기 조정 작업의 한 번 실패로 인해 클러스터 크기 조정이 무기한 중단될 위험이 줄어듭니다. 또한 클러스터를 더 빠르게 스케일 업 및 스케일 다운하므로 클러스터 활용도가 향상됩니다.
-
6.12.0 릴리스는 정상적으로 사용 중지되는 코어 노드가 완전히 해제되기 전에 어떤 이유로든 비정상 상태가 되면 클러스터 스케일 다운 작업이 중단될 수 있는 문제를 수정합니다.
-
6.12.0 릴리스는 클러스터 스케일 다운 로직을 개선하여 클러스터가 클러스터의 HDFS 복제 인수 설정 미만으로 코어 노드의 스케일 다운을 시도하지 않도록 합니다. 이는 데이터 중복성 요구 사항에 부합하며 조정 작업이 중단될 가능성을 줄여줍니다.
-
6.12.0 릴리스는 인스턴스의 상태 변경을 로깅하는 속도를 EMR 높여 Amazon 상태 모니터링 서비스의 성능과 효율성을 향상시킵니다. 이 개선 사항을 통해 여러 사용자 지정 클라이언트 도구 또는 타사 애플리케이션을 실행하는 클러스터 노드에서 성능이 저하될 가능성이 줄어듭니다.
-
6.12.0 릴리스는 Amazon용 클러스터 내 로그 관리 데몬의 성능을 개선합니다EMR. 따라서 동시성이 높은 단계를 실행하는 EMR 클러스터를 사용하면 성능이 저하될 가능성이 줄어듭니다.
-
Amazon EMR 릴리스 6.12.0에서는 로그 관리 데몬이 로컬 인스턴스 스토리지의 열린 파일 핸들과 연결된 프로세스에서 활성 사용 중인 모든 로그를 식별하도록 업그레이드되었습니다. 이 업그레이드를 통해 Amazon은 Amazon S3에 로그를 보관한 후 파일을 EMR 올바르게 삭제하고 스토리지 공간을 회수할 수 있습니다.
-
6.12.0 릴리스에는 로컬 클러스터 파일 시스템에서 사용되지 않는 빈 단계 디렉터리를 삭제하는 로그 관리 대몬(daemon) 개선 사항이 포함되어 있습니다. 너무 많은 수의 빈 디렉터리는 Amazon EMR 데몬의 성능을 저하시키고 디스크 과다 사용으로 이어질 수 있습니다.
-
6.12.0 릴리스에서는 YARN 타임라인 서버 로그에 대한 로그 교체를 활성화합니다. 이를 통해 특히 장기 실행 클러스터의 경우 디스크 과다 사용 시나리오를 최소화할 수 있습니다.
Amazon 6.10.0 이상에서는 기본 루트 볼륨 크기가 EMR 15GB로 증가했습니다. 이전 릴리스에서 기본 루트 볼륨 크기는 10GB였습니다.
Amazon 5.36 이상, EMR 6.6 이상 또는 7.0 이상의 최신 패치 릴리스로 클러스터를 시작하면 Amazon은 기본 Amazon EMR에 최신 Amazon Linux 2023 또는 Amazon Linux 2 릴리스를 EMR 사용합니다AMI. 자세한 내용은 기본 Amazon Linux AMI for Amazon 사용을 참조하세요EMR.
OsReleaseLabel (Amazon Linux 버전) Amazon Linux 커널 버전 사용 가능한 날짜 지원되는 리전 2.0.20241001.0 4.14.352 2024년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240816.0 4.14.350 2024년 8월 21일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240809.0 4.14.349 2024년 8월 20일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240719.0 4.14.348 2024년 7월 25일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240709.1 4.14.348 2024년 7월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 아시아 태평양(하이데라바드), 중동(UAE), 유럽(스페인), 유럽(취리히), 아시아 태평양(멜버른), 이스라엘(텔아비브), 캐나다 서부(캘거리) 2.0.20240223.0 4.14.336 2024년 3월 8일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240131.0 4.14.336 2024년 2월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240124.0 4.14.336 2024년 2월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240109.0 4.14.334 2024년 1월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20231218.0 4.14.330 2024년 1월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231206.0 4.14.330 2023년 12월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231116.0 4.14.328 2023년 12월 11일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231101.0 4.14.327 2023년 11월 16일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231020.1 4.14.326 2023년 11월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231012.1 4.14.326 2023년 10월 26일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20230926.0 4.14.322 2023년 10월 19일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20230906.0 4.14.322 2023년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230822.0 4.14.322 2023년 8월 30일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230808.0 4.14.320 2023년 8월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230727.0 4.14.320 2023년 8월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230719.0 4.14.320 2023년 8월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230628.0 4.14.318 2023년 7월 12일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부)
릴리스 6.11.1
다음 릴리스 정보에는 Amazon EMR 릴리스 6.11.1에 대한 정보가 포함되어 있습니다. 변경 사항은 6.11.0에 관련됩니다. 릴리스 일정에 대한 자세한 내용은 6.11.1 변경 로그 섹션을 참조하세요.
변경 사항, 향상된 기능 및 해결된 문제
-
잠금 경합으로 인해 노드가 서비스 해제를 시도하면서 동시에 노드가 추가되거나 제거되면 노드가 교착 상태에 빠질 수 있습니다. 따라서 Hadoop Resource Manager(YARN)가 응답하지 않고 들어오는 컨테이너와 현재 실행 중인 모든 컨테이너에 영향을 미칩니다.
-
이 릴리스에는 다시 시작한 후 고가용성 클러스터를 장애 상태에서 복구할 수 있도록 지원하는 변경 사항이 포함되어 있습니다.
-
이 릴리스에는 Hue 및에 대한 보안 수정 사항이 포함되어 있습니다HBase.
-
이 릴리스에서는 Amazon을 사용하여 Spark에서 워크로드를 실행하는 클러스터가
contains
,startsWith
endsWith
, 및에서 잘못된 결과를 자동으로 수신할 EMR 수 있는 문제를 해결합니다like
. 이 문제는 Amazon EMR Hive3 Metastore Server()에 메타데이터가 있는 파티션된 필드에 표현식을 사용할 때 발생합니다HMS. -
이 릴리스에서는 사용자 정의 함수()가 없는 경우 Glue 측에서 제한 문제를 해결합니다UDF.
-
이 릴리스에서는 로그 푸셔가 YARN 폐기 시 S3로 푸시하기 전에 노드 로그 집계 서비스에서 컨테이너 로그를 삭제하는 문제를 수정했습니다.
-
이 릴리스에서는 Hadoop에 노드 레이블이 활성화된 경우 FairShare 스케줄러 지표 관련 문제를 해결합니다.
-
이 릴리스에서는
spark-defaults.conf
에서spark.yarn.heterogeneousExecutors.enabled
구성의 기본true
값을 설정할 때 Spark 성능에 영향을 주던 문제를 수정했습니다. -
이 릴리스에서는 Reduce 작업이 셔플 데이터를 읽지 못하는 문제를 수정했습니다. 이 문제로 인해 Hive 쿼리가 실패하고 메모리 손상 오류가 발생했습니다.
-
이 릴리스는 Presto 또는 Trino를 실행하는 클러스터의 EMR 클러스터 조정 워크플로에 새로운 재시도 메커니즘을 추가합니다. 이 개선 사항을 통해 크기 조정 작업의 한 번 실패로 인해 클러스터 크기 조정이 무기한 중단될 위험이 줄어듭니다. 또한 클러스터를 더 빠르게 스케일 업 및 스케일 다운하므로 클러스터 활용도가 향상됩니다.
-
이 릴리스는 클러스터 스케일 다운 로직을 개선하여 클러스터가 클러스터에 대한 HDFS 복제 인수 설정 미만으로 코어 노드의 스케일 다운을 시도하지 않도록 합니다. 이는 데이터 중복성 요구 사항에 부합하며 조정 작업이 중단될 가능성을 줄여줍니다.
-
로컬 인스턴스 스토리지의 열린 파일 핸들 및 관련 프로세스에서 현재 사용 중인 모든 로그를 식별하도록 로그 관리 대몬(daemon)이 업그레이드되었습니다. 이 업그레이드를 통해 Amazon은 Amazon S3에 로그를 보관한 후 파일을 EMR 올바르게 삭제하고 스토리지 공간을 회수할 수 있습니다.
-
이 릴리스에는 로컬 클러스터 파일 시스템에서 사용되지 않는 빈 단계 디렉터리를 삭제하는 로그 관리 대몬(daemon) 개선 사항이 포함되어 있습니다. 너무 많은 수의 빈 디렉터리는 Amazon EMR 데몬의 성능을 저하시키고 디스크 과다 사용으로 이어질 수 있습니다.
Amazon 5.36 이상, EMR 6.6 이상 또는 7.0 이상의 최신 패치 릴리스로 클러스터를 시작하면 Amazon은 기본 Amazon EMR에 최신 Amazon Linux 2023 또는 Amazon Linux 2 릴리스를 EMR 사용합니다AMI. 자세한 내용은 기본 Amazon Linux AMI for Amazon 사용을 참조하세요EMR.
OsReleaseLabel (Amazon Linux 버전) Amazon Linux 커널 버전 사용 가능한 날짜 지원되는 리전 2.0.20241001.0 4.14.352 2024년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240816.0 4.14.350 2024년 8월 21일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240809.0 4.14.349 2024년 8월 20일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240719.0 4.14.348 2024년 7월 25일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240709.1 4.14.348 2024년 7월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 아시아 태평양(하이데라바드), 중동(UAE), 유럽(스페인), 유럽(취리히), 아시아 태평양(멜버른), 이스라엘(텔아비브), 캐나다 서부(캘거리) 2.0.20240223.0 4.14.336 2024년 3월 8일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240131.0 4.14.336 2024년 2월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240124.0 4.14.336 2024년 2월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20240109.0 4.14.334 2024년 1월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 캐나다 서부(캘거리) 2.0.20231218.0 4.14.330 2024년 1월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231206.0 4.14.330 2023년 12월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231116.0 4.14.328 2023년 12월 11일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231101.0 4.14.327 2023년 11월 16일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231020.1 4.14.326 2023년 11월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231012.1 4.14.326 2023년 10월 26일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20230926.0 4.14.322 2023년 10월 19일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20230906.0 4.14.322 2023년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230822.0 4.14.322 2023년 8월 30일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230808.0 4.14.320 2023년 8월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230727.0 4.14.320 2023년 8월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부)
릴리스 6.11.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.11.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.10.0에 관련됩니다. 릴리스 일정에 대한 자세한 내용은 변경 로그를 참조하세요.
새로운 특성
-
Amazon EMR 6.11.0은 Apache Spark 3.3.2-amzn-0, Apache Spark RAPIDS 23.02.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.0-amzn-0, Apache Iceberg 1.2.0-amzn-0, Trino 410-amzn-0 및 PrestoDB 0.279-amzn-0을 지원합니다.
변경 사항, 향상된 기능 및 해결된 문제
Amazon EMR 6.11.0에서는 DynamoDB 커넥터가 버전 5.0.0으로 업그레이드되었습니다. 버전 5.0.0은를 사용합니다 AWS SDK for Java 2.x. 이전 릴리스는 AWS SDK for Java 1.x를 사용했습니다. 이 업그레이드의 결과로 Amazon EMR 6.11에서 DynamoDB 커넥터를 사용하기 전에 코드를 테스트하는 것이 좋습니다.
Amazon EMR 6.11.0용 DynamoDB 커넥터가 DynamoDB 서비스를 호출하면
dynamodb.endpoint
속성에 대해 제공한 리전 값을 사용합니다.dynamodb.endpoint
사용 시dynamodb.region
도 구성하고, 두 속성이 모두 동일한 AWS 리전을 대상으로 지정하는 것이 좋습니다.dynamodb.endpoint
를 사용하고dynamodb.region
를 구성하지 않으면 Amazon EMR 6.11.0용 DynamoDB 커넥터가 잘못된 리전 예외를 반환하고 Amazon EC2 인스턴스 메타데이터 서비스(IMDS)에서 AWS 리전 정보를 조정하려고 시도합니다. 커넥터가에서 리전을 검색할 수 없는 경우 IMDS기본적으로 미국 동부(버지니아 북부)()로 설정됩니다us-east-1
. 다음 오류는dynamodb.region
속성을 올바르게 구성하지 않을 경우 발생할 수 있는 잘못된 리전 예외의 예입니다. 2.x로의 AWS SDK for Java 업그레이드의 영향을 받는 클래스에 대한error software.amazon.awssdk.services.dynamodb.model.DynamoDbException: Credential should be scoped to a valid region.
자세한 내용은 Amazon EMR - DynamoDB 커넥터의 GitHub 리포지토리에서 1.x AWS SDK for Java 에서 2.x(#175)로 업그레이드커밋을 참조하세요. 이 릴리스에서는 열 이름 바꾸기 작업 후 Delta Lake를 사용하여 Amazon S3에 델타 테이블 데이터를 저장할 때 열 데이터가
NULL
로 표시되는 문제를 수정했습니다. Delta Lake의 이 실험 기능에 대한 자세한 내용은 Delta Lake 사용 설명서에서 Column rename operation을 참조하세요. -
6.11.0 릴리스에서는 여러 프라이머리 노드를 포함하는 클러스터에서 프라이머리 노드 중 하나를 복제하여 엣지 노드를 생성할 때 발생할 수 있는 문제를 수정했습니다. 복제된 엣지 노드로 인해 스케일 다운 작업이 지연되거나 프라이머리 노드의 메모리 사용률이 높아질 수 있습니다. EMR 클러스터와 통신할 엣지 노드를 생성하는 방법에 대한 자세한 내용은
aws-samples
리포지토리의 엣지 노드 생성기를참조하세요 GitHub. -
6.11.0 릴리스는 재부팅 후 Amazon EBS 볼륨을 인스턴스에 다시 탑재하는 데 EMR 사용하는 자동화 프로세스를 개선합니다.
-
6.11.0 릴리스는 Amazon이 Amazon에 EMR 게시하는 하둡 지표에서 간헐적인 격차를 초래하는 문제를 해결합니다 CloudWatch.
-
6.11.0 릴리스는 디스크 과다 사용으로 인해 EMR 클러스터의 노드 제외 목록이 포함된 YARN 구성 파일 업데이트가 중단되는 클러스터 관련 문제를 해결합니다. 업데이트가 불완전하면 향후 클러스터 스케일 다운 작업에 방해가 됩니다. 이 릴리스에서는 클러스터를 정상 상태로 유지하고 조정 작업을 예상대로 수행하도록 보장합니다.
-
Amazon 6.10.0 이상에서는 기본 루트 볼륨 크기가 EMR 15GB로 증가했습니다. 이전 릴리스에서 기본 루트 볼륨 크기는 10GB였습니다.
-
Hadoop 3.3.3은 YARN (YARN-9608
)에서 (-9608)를 변경하여 애플리케이션이 완료될 때까지 컨테이너가 실행된 노드를 폐기 상태로 유지합니다. 이 변경으로 셔플 데이터와 같은 로컬 데이터가 손실되지 않으므로 작업을 다시 실행할 필요가 없습니다. 이 접근 방식을 사용하면 Managed Scaling의 활성화 여부에 상관없이 클러스터에서 리소스 사용률이 낮아질 수도 있습니다. Amazon EMR 릴리스 6.11.0 이상과 6.8.1, 6.9.1 및 6.10.1에서는이 문제를 해결하기
yarn-site.xml
위해의 값이false
에서 로yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
설정됩니다.이 수정은 YARN-9608에서 발생한 문제를 해결하지만 관리형 조정이 활성화된 클러스터에서 셔플 데이터 손실로 인해 Hive 작업이 실패할 수 있습니다. 이번 릴리스에서는 Hive 워크로드에 대해
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-shuffle-data
도 설정하여 이러한 위험을 완화했습니다. 이 구성은 Amazon EMR 릴리스 6.11.0 이상에서만 사용할 수 있습니다. Amazon 5.36 이상, EMR 6.6 이상 또는 7.0 이상의 최신 패치 릴리스로 클러스터를 시작하면 Amazon은 기본 Amazon EMR에 최신 Amazon Linux 2023 또는 Amazon Linux 2 릴리스를 EMR 사용합니다AMI. 자세한 내용은 기본 Amazon Linux AMI for Amazon 사용을 참조하세요EMR.
참고
이 릴리스는 패치 릴리스가 1개 이상 성공했기 때문에 더 이상 자동 AMI 업데이트를 받지 않습니다. 패치 릴리스는 소수점 두 번째 자리 뒤의 숫자(
6.8.
)로 표시됩니다. 최신 패치 릴리스를 사용하고 있는지 확인하려면 릴리스 가이드에서 사용 가능한 릴리스를 확인하거나 콘솔에서 클러스터를 생성할 때 Amazon EMR 릴리스 드롭다운을 확인하거나 또는1
ListReleaseLabels
APIlist-release-labels
CLI 작업을 사용합니다. 새 릴리스에 대한 업데이트를 받으려면 새로운 기능 페이지에서 RSS 피드를 구독하세요.OsReleaseLabel (Amazon Linux 버전) Amazon Linux 커널 버전 사용 가능한 날짜 지원되는 리전 2.0.20241001.0 4.14.352 2024년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240816.0 4.14.350 2024년 8월 21일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240809.0 4.14.349 2024년 8월 20일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240719.0 4.14.348 2024년 7월 25일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240709.1 4.14.348 2024년 7월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 아시아 태평양(하이데라바드), 중동(UAE), 유럽(스페인), 유럽(취리히), 아시아 태평양(멜버른), 이스라엘(텔아비브), 캐나다 서부(캘거리) 2.0.20230808.0 4.14.320 2023년 8월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230727.0 4.14.320 2023년 8월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230719.0 4.14.320 2023년 8월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230628.0 4.14.318 2023년 7월 12일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(취리히), 유럽(밀라노), 유럽(스페인), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE) 2.0.20230612.0 4.14.314 2023년 6월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(취리히), 유럽(밀라노), 유럽(스페인), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE) 2.0.20230504.1 4.14.313 2023년 5월 16일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부)
릴리스 6.10.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.10.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.9.0에 관련됩니다. 릴리스 일정에 대한 자세한 내용은 변경 로그를 참조하세요.
새로운 특성
-
Amazon EMR 6.10.0은 Apache Spark 3.3.1, Apache Spark RAPIDS 22.12.0, CUDA 11.8.0, Apache Hudi 0.12.2-amzn-0, Apache Iceberg 1.1.0-amzn-0, Trino 403 및 PrestoDB 0.278.1을 지원합니다.
Amazon EMR 6.10.0에는 Hudi 테이블의 데이터에 대한 읽기 액세스를 제공하는 기본 Trino-Hudi 커넥터가 포함되어 있습니다.
trino-cli --catalog hudi
를 사용하여 커넥터를 활성화하고,trino-connector-hudi
를 사용하여 요구 사항에 맞게 커넥터를 구성할 수 있습니다. Amazon과의 기본 통합은 더 이상를 사용하여 Hudi 테이블trino-connector-hive
을 쿼리할 필요가 없음을 EMR 의미합니다. 새 커넥터에서 지원되는 구성 목록은 Trino 설명서에서 Hudi connector페이지를 참조하세요. -
Amazon은 Apache Flink와의 Apache Zeppelin 통합을 지원하는 6.10.0 이상을 EMR 릴리스합니다. 자세한 내용은 Amazon EMR의 Zeppelin에서 Flink 작업 섹션을 참조하세요.
알려진 문제
Hadoop 3.3.3은 YARN (YARN-9608
)에서 (-9608)를 변경하여 애플리케이션이 완료될 때까지 컨테이너가 실행된 노드를 폐기 상태로 유지합니다. 이 변경으로 셔플 데이터와 같은 로컬 데이터가 손실되지 않으므로 작업을 다시 실행할 필요가 없습니다. 이 접근 방식을 사용하면 Managed Scaling의 활성화 여부에 상관없이 클러스터에서 리소스 사용률이 낮아질 수도 있습니다. Amazon EMR 6.10.0에서이 문제를 해결하려면
false
에서의 값을yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
로 설정할 수 있습니다yarn-site.xml
. Amazon EMR 릴리스 6.11.0 이상과 6.8.1, 6.9.1 및 6.10.1에서는이 문제를 해결하기 위해 구성이false
기본적으로 로 설정됩니다.
변경 사항, 향상된 기능 및 해결된 문제
Amazon EMR 6.10.0은 Apache Spark용 Amazon Redshift 통합에
minimal-json.jar
대한의 종속성을 제거하고 Spark의 실행기 클래스 경로인 ,spark-avro.jar
및spark-redshift.jar
에 필요한 Spark-Redshift 관련 병을 자동으로 추가합니다RedshiftJDBC.jar
.-
6.10.0 릴리스는 클러스터의 추가 로그 폴더를 모니터링하기 위해 EMR 클러스터 내 로그 관리 데몬을 개선합니다. 이 개선 사항은 디스크 과다 사용 시나리오를 최소화합니다.
-
6.10.0 릴리스에서는 클러스터 내 로그 관리 대몬(daemon)이 중지되면 해당 대몬(daemon)을 자동으로 다시 시작합니다. 이 개선 사항은 디스크 과다 사용으로 인해 노드가 비정상으로 보이는 위험을 줄입니다.
-
Amazon EMR 6.10.0은 EMRFS 사용자 매핑을 위한 리전 엔드포인트를 지원합니다.
-
Amazon 6.10.0 이상에서는 기본 루트 볼륨 크기가 EMR 15GB로 증가했습니다. 이전 릴리스에서 기본 루트 볼륨 크기는 10GB였습니다.
-
6.10.0 릴리스는 나머지 모든 Spark 실행기가 YARN 리소스 관리자를 통해 폐기 호스트에 있을 때 Spark 작업이 중지되는 문제를 해결합니다.
Amazon EMR 6.6.0~6.9.x의 경우 동적 파티션과 ORDER BY 또는 SORT BY 절이 있는 INSERT 쿼리에는 항상 두 개의 감소기가 있습니다. 이 문제는 OSS 변경 HIVE-20703
으로 인해 발생하며, 이는 동적 정렬 파티션 최적화를 비용 기반 결정에 적용합니다. 워크로드에 동적 파티션 정렬이 필요하지 않은 경우 새 기능을 비활성화하고 올바르게 계산된 reducer 수를 가져오도록 hive.optimize.sort.dynamic.partition.threshold
속성을-1
로 설정하는 것이 좋습니다. 이 문제는 HIVE-22269의 일부로 OSS Hive에서 수정되고 Amazon EMR 6.10.0에서 수정됩니다. Amazon 5.36 이상, EMR 6.6 이상 또는 7.0 이상의 최신 패치 릴리스로 클러스터를 시작하면 Amazon은 기본 Amazon EMR에 최신 Amazon Linux 2023 또는 Amazon Linux 2 릴리스를 EMR 사용합니다AMI. 자세한 내용은 기본 Amazon Linux AMI for Amazon 사용을 참조하세요EMR.
참고
이 릴리스는 패치 릴리스가 1개 이상 성공했기 때문에 더 이상 자동 AMI 업데이트를 받지 않습니다. 패치 릴리스는 소수점 두 번째 자리 뒤의 숫자(
6.8.
)로 표시됩니다. 최신 패치 릴리스를 사용하고 있는지 확인하려면 릴리스 가이드에서 사용 가능한 릴리스를 확인하거나 콘솔에서 클러스터를 생성할 때 Amazon EMR 릴리스 드롭다운을 확인하거나 또는1
ListReleaseLabels
APIlist-release-labels
CLI 작업을 사용합니다. 새 릴리스에 대한 업데이트를 받으려면 새로운 기능 페이지에서 RSS 피드를 구독하세요.OsReleaseLabel (Amazon Linux 버전) Amazon Linux 커널 버전 사용 가능한 날짜 지원되는 리전 2.0.20241001.0 4.14.352 2024년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240816.0 4.14.350 2024년 8월 21일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240809.0 4.14.349 2024년 8월 20일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240719.0 4.14.348 2024년 7월 25일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240709.1 4.14.348 2024년 7월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 아시아 태평양(하이데라바드), 중동(UAE), 유럽(스페인), 유럽(취리히), 아시아 태평양(멜버른), 이스라엘(텔아비브), 캐나다 서부(캘거리) 2.0.20230808.0 4.14.320 2023년 8월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230727.0 4.14.320 2023년 8월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230719.0 4.14.320 2023년 8월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230628.0 4.14.318 2023년 7월 12일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(취리히), 유럽(밀라노), 유럽(스페인), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE) 2.0.20230612.0 4.14.314 2023년 6월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(취리히), 유럽(밀라노), 유럽(스페인), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE) 2.0.20230504.1 4.14.313 2023년 5월 16일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(취리히), 유럽(밀라노), 유럽(스페인), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE) 2.0.20230418.0 4.14.311 2023년 5월 3일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(취리히), 유럽(밀라노), 유럽(스페인), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE) 2.0.20230404.1 4.14.311 2023년 4월 18일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE) 2.0.20230404.0 4.14.311 2023년 4월 10일 미국 동부(버지니아 북부), 유럽(파리) 2.0.20230320.0 4.14.309 2023년 3월 30일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE) 2.0.20230207.0 4.14.304 2023년 2월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE)
릴리스 6.9.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.9.0에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 릴리스 6.8.0과 관련이 있습니다. 릴리스 일정에 대한 자세한 내용은 변경 로그를 참조하세요.
새로운 기능
Amazon EMR 릴리스 6.9.0은 Apache Spark RAPIDS 22.08.0, Apache Hudi 0.12.1, Apache Iceberg 0.14.1, Trino 398 및 Tez 0.10.2를 지원합니다.
Amazon EMR 릴리스 6.9.0에는 새로운 오픈 소스 애플리케이션인 Delta Lake 2.1.0이 포함되어 있습니다.
Apache Spark용 Amazon Redshift 통합은 Amazon EMR 릴리스 6.9.0 이상에 포함되어 있습니다. 이전의 오픈 소스 도구였던, 이 기본 통합은 Spark 커넥터로, Amazon Redshift와 Amazon Redshift Serverless에서 데이터를 읽고 쓰는 Apache Spark 애플리케이션을 빌드할 수 있습니다. 자세한 내용은 Amazon에서 Apache Spark에 Amazon Redshift 통합 사용 EMR 단원을 참조하십시오.
Amazon EMR 릴리스 6.9.0은 클러스터 축소 중에 Amazon S3에 로그를 보관하는 지원을 추가합니다. 이전에는 클러스터 종료 중에만 Amazon S3에 로그 파일을 아카이브할 수 있었습니다. 새로운 기능을 통해 클러스터에서 생성된 로그 파일은 노드가 종료된 후에도 Amazon S3에서 계속 유지됩니다. 자세한 내용은 클러스터 로깅 및 디버깅 구성을 참조하세요.
이제 Trino에는 장기 실행 쿼리를 지원하기 위해 내결함성 실행 메커니즘이 포함됩니다. 내결함성 실행은 실패한 쿼리 또는 구성 요소 작업을 재시도하여 쿼리 실패를 완화합니다. 자세한 내용은 Trino에서 내결함성 실행 단원을 참조하십시오.
Amazon의 Apache FlinkEMR를 사용하여 Iceberg, Kinesis 또는 Kafka와 같은 Flink 테이블 소스의 Apache Hive 테이블 또는 메타데이터를 통합
BATCH
하고STREAM
처리할 수 있습니다. AWS Management Console AWS CLI또는 Amazon AWS 를 사용하여 Glue 데이터 카탈로그를 Flink의 EMR 메타스토어로 지정할 수 있습니다API. 자세한 내용은 Amazon에서 Flink 구성 EMR 단원을 참조하십시오.이제 Amazon SageMaker AI Studio를 사용하는 EC2 클러스터에서 Amazon의 Apache Spark, Apache Hive 및 Presto 쿼리EMR에 대해 AWS Identity and Access Management (IAM) 런타임 역할 및 AWS Lake Formation기반 액세스 제어를 지정할 수 있습니다. 자세한 내용은 Amazon EMR 단계에 대한 런타임 역할 구성을 참조하세요.
알려진 문제
Amazon EMR 릴리스 6.9.0의 경우 Trino는 Apache Ranger에 대해 활성화된 클러스터에서 작동하지 않습니다. Ranger와 함께 Trino를 사용해야 하는 경우 AWS Support
에 문의하세요. Apache Spark용 Amazon Redshift 통합을 사용하고 Parquet 형식의 time, timetz, timestamp 또는 timestamptz(마이크로초 정밀도)를 사용하는 경우 커넥터는 시간 값을 가장 가까운 밀리초 값으로 반올림합니다. 해결 방법으로 텍스트 언로드 형식
unload_s3_format
파라미터를 사용합니다.Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
Amazon SageMaker AI Studio에서 Amazon EMR 클러스터에 연결하면 403 금지 응답 코드와 함께 간헐적으로 실패할 수 있습니다. 이 오류는 클러스터에서 IAM 역할을 설정하는 데 60초 이상 걸릴 때 발생합니다. 해결 방법으로 Amazon EMR 패치를 설치하여 재시도를 활성화하고 제한 시간을 최소 300초로 늘릴 수 있습니다. 다음 단계를 사용하여 클러스터를 시작할 때 부트스트랩 작업을 적용합니다.
다음 Amazon S3에서 부트스트랩 스크립트 및 RPM 파일을 다운로드합니다URIs.
s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/replace-rpms.sh s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/emr-secret-agent-1.18.0-SNAPSHOT20221121212949.noarch.rpm
이전 단계의 파일을 사용자가 소유한 Amazon S3 버킷에 업로드합니다. 버킷은 클러스터를 시작하려는 AWS 리전 위치와 동일해야 합니다.
EMR 클러스터를 시작할 때 다음 부트스트랩 작업을 포함합니다.
bootstrap_URI
및를 Amazon S3URIs의 해당RPM_URI
로 바꿉니다.--bootstrap-actions "Path=
bootstrap_URI
,Args=[RPM_URI
]"
Amazon EMR 릴리스 5.36.0 및 6.6.0~6.9.0
SecretAgent
에서는 Log4j2 속성의 잘못된 파일 이름 패턴 구성으로 인해RecordServer
서비스 구성 요소에 로그 데이터 손실이 발생할 수 있습니다. 잘못된 구성으로 인해 구성 요소에서 하루에 하나의 로그 파일만 생성합니다. 로테이션 전략이 수행되면 예상대로 새 로그 파일을 생성하는 대신 기존 파일을 덮어씁니다. 해결 방법으로 부트스트랩 작업을 사용하여 매시간 로그 파일을 생성하고 파일 이름에 자동 증가 정수를 추가하여 교체를 처리합니다.Amazon EMR 6.6.0~6.9.0 릴리스의 경우 클러스터를 시작할 때 다음 부트스트랩 작업을 사용합니다.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Amazon EMR 5.36.0의 경우 클러스터를 시작할 때 다음 부트스트랩 작업을 사용합니다.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
-
Apache Flink는 애플리케이션이를 생성하고 Amazon S3 FileSystem 에 Amazon S3 FileSink 및 하둡 FileSystem 커넥터를 제공합니다. 이 문제는 다음 두 가지 예외 중 하나에서 FileSink 실패합니다.
java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS
Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryPolicies.retryOtherThanRemoteAndSaslException(Lorg/apache/hadoop/io/retry/RetryPolicy;Ljava/util/Map;)Lorg/apache/hadoop/io/retry/RetryPolicy; at org.apache.hadoop.yarn.client.RMProxy.createRetryPolicy(RMProxy.java:302) ~[hadoop-yarn-common-3.3.3-amzn-0.jar:?]
해결 방법으로 Flink에서 위의 문제를 해결하는 Amazon EMR 패치를 설치할 수 있습니다. 클러스터를 시작할 때 부트스트랩 작업을 적용하려면 다음 단계를 완료합니다.
-
flink-rpm을 사용자의 Amazon S3 버킷에 다운로드합니다. RPM 경로는 입니다
s3://
.DOC-EXAMPLE-BUCKET
/rpms/flink/ -
다음를 사용하여 Amazon S3에서 부트스트랩 스크립트 및 RPM 파일을 다운로드합니다URI. 를 클러스터를 시작할 AWS 리전
로 바꿉니다.regionName
s3://emr-data-access-control-
regionName
/customer-bootstrap-actions/gcsc/replace-rpms.sh Hadoop 3.3.3은 YARN (YARN-9608
)에서 애플리케이션이 완료될 때까지 컨테이너가 실행된 노드를 폐기 상태로 유지하는 변경 사항을 도입했습니다. 이 변경으로 셔플 데이터와 같은 로컬 데이터가 손실되지 않으므로 작업을 다시 실행할 필요가 없습니다. Amazon EMR 6.8.0 및 6.9.0에서이 접근 방식을 사용하면 관리형 조정을 활성화하거나 활성화하지 않은 클러스터에서 리소스의 활용도가 떨어질 수도 있습니다. Amazon EMR 6.10.0을 사용하면이 문제가
false
에서의 값을yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
로 설정하는 해결 방법이 있습니다yarn-site.xml
. Amazon EMR 릴리스 6.11.0 이상과 6.8.1, 6.9.1 및 6.10.1에서는이 문제를 해결하기 위해 구성이false
기본적으로 로 설정됩니다.
-
변경 사항, 향상된 기능 및 해결된 문제
Amazon EMR 릴리스 6.9.0 이상의 경우 Log4j 라이브러리EMR를 사용하는 Amazon에서 설치한 모든 구성 요소는 Log4j 버전 2.17.1 이상을 사용합니다.
-
Amazon EMR 버전 6.6.0, 6.7.0 및 6.8.0에서 Spark와 함께 DynamoDB 커넥터를 사용하는 경우 입력 분할이 비어 있지 않은 데이터를 참조하더라도 테이블의 모든 읽기는 빈 결과를 반환합니다. Amazon EMR 릴리스 6.9.0에서이 문제를 수정했습니다.
Amazon EMR 6.9.0은 Spark를 사용하여 데이터를 읽을 때 Apache Hudi를 사용하여 Lake Formation 기반 액세스 제어를 제한적으로 지원합니다SQL. Spark를 사용하는 SELECT 쿼리에 대한 지원SQL이며 열 수준 액세스 제어로 제한됩니다. 자세한 내용은 Hudi 및 Lake Formation을 참조하세요.
Amazon EMR 6.9.0을 사용하여 노드 레이블
이 활성화된 하둡 클러스터를 생성하면 YARN 지표API 는 기본 파티션 대신 모든 파티션에 집계된 정보를 반환합니다. 자세한 내용은 YARN-11414 를 참조하세요. Amazon EMR 릴리스 6.9.0에서는 Trino를 Java 17을 사용하는 버전 398로 업데이트했습니다. Amazon EMR 6.8.0용 Trino의 이전 지원 버전은 Java 11에서 실행되는 Trino 388이었습니다. 이 변경 사항에 대한 자세한 내용은 Trino 블로그에서 Trino updates to Java 17
을 참조하세요. 이 릴리스는 Apache BigTop 와 Amazon EMR on EC2 cluster 시작 시퀀스 간의 타이밍 시퀀스 불일치 문제를 해결합니다. 이 타이밍 시퀀스 불일치는 시스템에서 둘 이상의 작업을 적절한 순서로 수행하는 대신 동시에 수행하려고 할 때 발생합니다. 따라서 특정 클러스터 구성에서 인스턴스 시작 제한 시간을 초과하고 클러스터 시작 시간이 느려지는 문제가 발생했습니다.
Amazon 5.36 이상, EMR 6.6 이상 또는 7.0 이상의 최신 패치 릴리스로 클러스터를 시작하면 Amazon은 기본 Amazon EMR에 최신 Amazon Linux 2023 또는 Amazon Linux 2 릴리스를 EMR 사용합니다AMI. 자세한 내용은 기본 Amazon Linux AMI for Amazon 사용을 참조하세요EMR.
참고
이 릴리스는 패치 릴리스가 1개 이상 성공했기 때문에 더 이상 자동 AMI 업데이트를 받지 않습니다. 패치 릴리스는 소수점 두 번째 자리 뒤의 숫자(
6.8.
)로 표시됩니다. 최신 패치 릴리스를 사용하고 있는지 확인하려면 릴리스 가이드에서 사용 가능한 릴리스를 확인하거나 콘솔에서 클러스터를 생성할 때 Amazon EMR 릴리스 드롭다운을 확인하거나 또는1
ListReleaseLabels
APIlist-release-labels
CLI 작업을 사용합니다. 새 릴리스에 대한 업데이트를 받으려면 새로운 기능 페이지에서 RSS 피드를 구독하세요.OsReleaseLabel (Amazon Linux 버전) Amazon Linux 커널 버전 사용 가능한 날짜 지원되는 리전 2.0.20241001.0 4.14.352 2024년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240816.0 4.14.350 2024년 8월 21일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240809.0 4.14.349 2024년 8월 20일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240719.0 4.14.348 2024년 7월 25일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240709.1 4.14.348 2024년 7월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 아시아 태평양(하이데라바드), 중동(UAE), 유럽(스페인), 유럽(취리히), 아시아 태평양(멜버른), 이스라엘(텔아비브), 캐나다 서부(캘거리) 2.0.20230808.0 4.14.320 2023년 8월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230727.0 4.14.320 2023년 8월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230719.0 4.14.320 2023년 8월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부), 이스라엘(텔아비브) 2.0.20230628.0 4.14.318 2023년 7월 12일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230612.0 4.14.314 2023년 6월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230504.1 4.14.313 2023년 5월 16일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230418.0 4.14.311 2023년 5월 3일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230404.1 4.14.311 2023년 4월 18일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230404.0 4.14.311 2023년 4월 10일 미국 동부(버지니아 북부), 유럽(파리) 2.0.20230320.0 4.14.309 2023년 3월 30일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230307.0 4.14.305 2023년 3월 15일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230207.0 4.14.304 2023년 2월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20221210.1 4.14.301 2023년 1월 12일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20221103.3 4.14.296 2022년 12월 5일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인)
릴리스 6.8.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.8.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.7.0에 관련됩니다.
새로운 기능
-
Amazon EMR 단계 기능은 이제 Apache Livy 엔드포인트 및JDBC/ODBC또는 클라이언트를 지원합니다. 자세한 내용은 Amazon EMR 단계에 대한 런타임 역할 구성을 참조하세요.
-
Amazon EMR 릴리스 6.8.0은 Apache HBase 릴리스 2.4.12과 함께 제공됩니다. 이 HBase 릴리스에서는 HBase 테이블을 아카이브하고 삭제할 수 있습니다. Amazon S3 아카이브 프로세스는 모든 테이블 파일의 이름을 아카이브 디렉터리로 바꿉니다. 이 프로세스는 비용이 많이 들고 시간이 오래 걸릴 수 있습니다. 이제 아카이브 프로세스를 건너뛰고 대용량 테이블을 빠르게 삭제할 수 있습니다. 자세한 내용은 HBase 쉘 사용 단원을 참조하십시오.
알려진 문제
Hadoop 3.3.3은 YARN (YARN-9608
)에서 애플리케이션이 완료될 때까지 컨테이너가 실행된 노드를 폐기 상태로 유지하는 변경 사항을 도입했습니다. 이 변경으로 셔플 데이터와 같은 로컬 데이터가 손실되지 않으므로 작업을 다시 실행할 필요가 없습니다. Amazon EMR 6.8.0 및 6.9.0에서이 접근 방식을 사용하면 관리형 조정을 활성화하거나 활성화하지 않은 클러스터에서 리소스의 활용도가 떨어질 수도 있습니다. Amazon EMR 6.10.0을 사용하면
false
에서의 값을yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
로 설정하는이 문제에 대한 해결 방법이 있습니다yarn-site.xml
. Amazon EMR 릴리스 6.11.0 이상과 6.8.1, 6.9.1 및 6.10.1에서는이 문제를 해결하기 위해 구성이false
기본적으로 로 설정됩니다.
변경 사항, 향상된 기능 및 해결된 문제
-
Amazon이 Apache Spark 쉘을 통해 6.5.0, 6.6.0 또는 6.7.0 읽기 Apache Phoenix 테이블을 EMR 릴리스하면 Amazon은를 EMR 생성했습니다
NoSuchMethodError
. Amazon EMR 릴리스 6.8.0은이 문제를 해결합니다. -
Amazon EMR 릴리스 6.8.0은 Apache Hudi
0.11.1과 함께 제공되지만 Amazon EMR 6.8.0 클러스터는 Hudi 0.12.0 hudi-spark3.3-bundle_2.12
의 오픈 소스와도 호환됩니다. -
Amazon EMR 릴리스 6.8.0은 Apache Spark 3.3.0과 함께 제공됩니다. 이번 Spark 릴리스에서는 Apache Log4j 2 및
log4j2.properties
파일을 사용하여 Spark 프로세스에서 Log4j를 구성합니다. 클러스터에서 Spark를 사용하거나 사용자 지정 구성 파라미터가 있는 EMR 클러스터를 생성하고 Amazon EMR 릴리스 6.8.0으로 업그레이드하려는 경우 Apache Log4j 2의 새spark-log4j2
구성 분류 및 키 형식으로 마이그레이션해야 합니다. 자세한 내용은 Apache Log4j 1.x에서 Log4j 2.x로 마이그레이션 단원을 참조하십시오. Amazon 5.36 이상, EMR 6.6 이상 또는 7.0 이상의 최신 패치 릴리스로 클러스터를 시작하면 Amazon은 기본 Amazon EMR에 최신 Amazon Linux 2023 또는 Amazon Linux 2 릴리스를 EMR 사용합니다AMI. 자세한 내용은 기본 Amazon Linux AMI for Amazon 사용을 참조하세요EMR.
참고
이 릴리스는 패치 릴리스가 1개 이상 성공했기 때문에 더 이상 자동 AMI 업데이트를 받지 않습니다. 패치 릴리스는 소수점 두 번째 자리 뒤의 숫자(
6.8.
)로 표시됩니다. 최신 패치 릴리스를 사용하고 있는지 확인하려면 릴리스 가이드에서 사용 가능한 릴리스를 확인하거나 콘솔에서 클러스터를 생성할 때 Amazon EMR 릴리스 드롭다운을 확인하거나 또는1
ListReleaseLabels
APIlist-release-labels
CLI 작업을 사용합니다. 새 릴리스에 대한 업데이트를 받으려면 새로운 기능 페이지에서 RSS 피드를 구독하세요.OsReleaseLabel (Amazon Linux 버전) Amazon Linux 커널 버전 사용 가능한 날짜 지원되는 리전 2.0.20241001.0 4.14.352 2024년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240816.0 4.14.350 2024년 8월 21일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240809.0 4.14.349 2024년 8월 20일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240719.0 4.14.348 2024년 7월 25일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240709.1 4.14.348 2024년 7월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 아시아 태평양(하이데라바드), 중동(UAE), 유럽(스페인), 유럽(취리히), 아시아 태평양(멜버른), 이스라엘(텔아비브) 2.0.20230808.0 4.14.320 2023년 8월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부) 2.0.20230727.0 4.14.320 2023년 8월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부) 2.0.20230719.0 4.14.320 2023년 8월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아시아 태평양(멜버른), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부) 2.0.20230628.0 4.14.318 2023년 7월 12일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230612.0 4.14.314 2023년 6월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230504.1 4.14.313 2023년 5월 16일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230418.0 4.14.311 2023년 5월 3일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230404.1 4.14.311 2023년 4월 18일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230404.0 4.14.311 2023년 4월 10일 미국 동부(버지니아 북부), 유럽(파리) 2.0.20230320.0 4.14.309 2023년 3월 30일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230307.0 4.14.305 2023년 3월 15일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230207.0 4.14.304 2023년 2월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230119.1 4.14.301 2023년 2월 3일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20221210.1 4.14.301 2023년 12월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20221103.3 4.14.296 2022년 12월 5일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20221004.0 4.14.294 2022년 11월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20220912.1 4.14.291 2022년 9월 6일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인)
알려진 문제
-
Amazon EMR 버전 6.6.0, 6.7.0 및 6.8.0에서 Spark와 함께 DynamoDB 커넥터를 사용하는 경우, 입력 분할이 비어 있지 않은 데이터를 참조하더라도 테이블에서 읽은 모든 읽기는 빈 결과를 반환합니다. Spark 3.2.0에서는 기본적으로
spark.hadoopRDD.ignoreEmptySplits
를true
로 설정하기 때문입니다. 해결 방법으로spark.hadoopRDD.ignoreEmptySplits
를 명시적으로false
로 설정합니다. Amazon EMR 릴리스 6.9.0은이 문제를 해결합니다. Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
Amazon EMR 릴리스 5.36.0 및 6.6.0~6.9.0
SecretAgent
에서는 Log4j2 속성의 잘못된 파일 이름 패턴 구성으로 인해RecordServer
서비스 구성 요소에 로그 데이터 손실이 발생할 수 있습니다. 잘못된 구성으로 인해 구성 요소에서 하루에 하나의 로그 파일만 생성합니다. 로테이션 전략이 수행되면 예상대로 새 로그 파일을 생성하는 대신 기존 파일을 덮어씁니다. 해결 방법으로 부트스트랩 작업을 사용하여 매시간 로그 파일을 생성하고 파일 이름에 자동 증가 정수를 추가하여 교체를 처리합니다.Amazon EMR 6.6.0~6.9.0 릴리스의 경우 클러스터를 시작할 때 다음 부트스트랩 작업을 사용합니다.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Amazon EMR 5.36.0의 경우 클러스터를 시작할 때 다음 부트스트랩 작업을 사용합니다.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
릴리스 일정에 대한 자세한 내용은 변경 로그를 참조하세요.
릴리스 6.7.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.7.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.6.0에 관련됩니다.
최초 릴리스 날짜: 2022년 7월 15일
새로운 기능
Amazon은 EMR 이제 Apache Spark 3.2.1, Apache Hive 3.1.3, HUDI 0.11, PrestoDB 0.272 및 Trino 0.378을 지원합니다.
EC2 클러스터에서 AmazonEMR에 대한 EMR 단계(Spark, Hive)를 통해 IAM 역할 및 Lake Formation 기반 액세스 제어를 지원합니다.
Apache Ranger 지원 클러스터에서 Apache Spark 데이터 정의 명령문을 지원합니다. 이제 Apache Ranger 지원 클러스터에서 Apache Hive 메타데이터를 읽고 쓰는 Trino 애플리케이션에 대한 지원이 포함됩니다. 자세한 내용은 Amazon에서 Trino 및 Apache Ranger를 사용하여 페더레이션 거버넌스 활성화EMR
를 참조하세요. Amazon 5.36 이상, EMR 6.6 이상 또는 7.0 이상의 최신 패치 릴리스로 클러스터를 시작하면 Amazon은 기본 Amazon EMR에 최신 Amazon Linux 2023 또는 Amazon Linux 2 릴리스를 EMR 사용합니다AMI. 자세한 내용은 기본 Amazon Linux AMI for Amazon 사용을 참조하세요EMR.
OsReleaseLabel (Amazon Linux 버전) Amazon Linux 커널 버전 사용 가능한 날짜 지원되는 리전 2.0.20241001.0 4.14.352 2024년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240816.0 4.14.350 2024년 8월 21일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240809.0 4.14.349 2024년 8월 20일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240719.0 4.14.348 2024년 7월 25일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240709.1 4.14.348 2024년 7월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤), 아시아 태평양(하이데라바드), 중동(UAE), 유럽(스페인), 유럽(취리히) 2.0.20240223.0 4.14.336 2024년 3월 8일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240131.0 4.14.336 2024년 2월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240124.0 4.14.336 2024년 2월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240109.0 4.14.334 2024년 1월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231218.0 4.14.330 2024년 1월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231206.0 4.14.330 2023년 12월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231116.0 4.14.328 2023년 12월 11일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231101.0 4.14.327 2023년 11월 16일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231020.1 4.14.326 2023년 11월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231012.1 4.14.326 2023년 10월 26일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20230926.0 4.14.322 2023년 10월 19일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20230906.0 4.14.322 2023년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부) 2.0.20230822.0 4.14.322 2023년 8월 30일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부) 2.0.20230808.0 4.14.320 2023년 8월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부) 2.0.20230727.0 4.14.320 2023년 8월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부) 2.0.20230719.0 4.14.320 2023년 8월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부) 2.0.20230628.0 4.14.318 2023년 7월 12일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230612.0 4.14.314 2023년 6월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230504.1 4.14.313 2023년 5월 16일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230418.0 4.14.311 2023년 5월 3일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230404.1 4.14.311 2023년 4월 18일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230404.0 4.14.311 2023년 4월 10일 미국 동부(버지니아 북부), 유럽(파리) 2.0.20230320.0 4.14.309 2023년 3월 30일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230307.0 4.14.305 2023년 3월 15일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230207.0 4.14.304 2023년 2월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230119.1 4.14.301 2023년 2월 3일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20221210.1 4.14.301 2023년 12월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20221103.3 4.14.296 2022년 12월 5일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20221004.0 4.14.294 2022년 11월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20220912.1 4.14.291 2022년 10월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20220719.0 4.14.287 2022년 8월 10일 us‑west‑1
,eu‑west‑3
,eu‑north‑1
,ap‑south‑1
,me‑south‑1
2.0.20220606.1 4.14.281 2022년 7월 15일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인)
알려진 문제
Amazon이 Apache Spark 쉘을 통해 6.5.0, 6.6.0 또는 6.7.0 읽기 Apache Phoenix 테이블을 EMR 릴리스하면 Amazon이 잘못된를 EMR 사용하기 때문에가
NoSuchMethodError
발생합니다Hbase.compat.version
. Amazon EMR 릴리스 6.8.0은이 문제를 해결합니다.-
Amazon EMR 버전 6.6.0, 6.7.0 및 6.8.0에서 Spark와 함께 DynamoDB 커넥터를 사용하는 경우, 입력 분할이 비어 있지 않은 데이터를 참조하더라도 테이블에서 읽은 모든 읽기는 빈 결과를 반환합니다. Spark 3.2.0에서는 기본적으로
spark.hadoopRDD.ignoreEmptySplits
를true
로 설정하기 때문입니다. 해결 방법으로spark.hadoopRDD.ignoreEmptySplits
를 명시적으로false
로 설정합니다. Amazon EMR 릴리스 6.9.0은이 문제를 해결합니다. Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
Amazon EMR 릴리스 5.36.0 및 6.6.0~6.9.0
SecretAgent
에서는 Log4j2 속성의 잘못된 파일 이름 패턴 구성으로 인해RecordServer
서비스 구성 요소에 로그 데이터 손실이 발생할 수 있습니다. 잘못된 구성으로 인해 구성 요소에서 하루에 하나의 로그 파일만 생성합니다. 로테이션 전략이 수행되면 예상대로 새 로그 파일을 생성하는 대신 기존 파일을 덮어씁니다. 해결 방법으로 부트스트랩 작업을 사용하여 매시간 로그 파일을 생성하고 파일 이름에 자동 증가 정수를 추가하여 교체를 처리합니다.Amazon EMR 6.6.0~6.9.0 릴리스의 경우 클러스터를 시작할 때 다음 부트스트랩 작업을 사용합니다.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Amazon EMR 5.36.0의 경우 클러스터를 시작할 때 다음 부트스트랩 작업을 사용합니다.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
GetClusterSessionCredentials
API는 Amazon EMR 6.7 이하에서 실행되는 클러스터에서는 지원되지 않습니다.
릴리스 6.6.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.6.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.5.0에 관련됩니다.
최초 릴리스 날짜: 2022년 5월 9일
설명서 업데이트 날짜: 2022년 6월 15일
새로운 기능
Amazon EMR 6.6은 이제 Apache Spark 3.2, Apache Spark RAPIDS 22.02, CUDA 11, Apache Hudi 0.10.1, Apache Iceberg 0.13, Trino 0.367 및 PrestoDB 0.267을 지원합니다.
Amazon 5.36 이상, EMR 6.6 이상 또는 7.0 이상의 최신 패치 릴리스로 클러스터를 시작하면 Amazon은 기본 Amazon EMR에 최신 Amazon Linux 2023 또는 Amazon Linux 2 릴리스를 EMR 사용합니다AMI. 자세한 내용은 기본 Amazon Linux AMI for Amazon 사용을 참조하세요EMR.
OsReleaseLabel (Amazon Linux 버전) Amazon Linux 커널 버전 사용 가능한 날짜 지원되는 리전 2.0.20241001.0 4.14.352 2024년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240816.0 4.14.350 2024년 8월 21일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240809.0 4.14.349 2024년 8월 20일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240719.0 4.14.348 2024년 7월 25일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240709.1 4.14.348 2024년 7월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240223.0 4.14.336 2024년 3월 8일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240131.0 4.14.336 2024년 2월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240124.0 4.14.336 2024년 2월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20240109.0 4.14.334 2024년 1월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231218.0 4.14.330 2024년 1월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231206.0 4.14.330 2023년 12월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231116.0 4.14.328 2023년 12월 11일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231101.0 4.14.327 2023년 11월 16일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231020.1 4.14.326 2023년 11월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20231012.1 4.14.326 2023년 10월 26일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20230926.0 4.14.322 2023년 10월 19일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부), AWS GovCloud (미국 서부), AWS GovCloud (미국 동부), 중국(베이징), 중국(닝샤) 2.0.20230906.0 4.14.322 2023년 10월 4일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부) 2.0.20230822.0 4.14.322 2023년 8월 30일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부) 2.0.20230808.0 4.14.320 2023년 8월 24일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부) 2.0.20230727.0 4.14.320 2023년 8월 14일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 캐나다(중부) 2.0.20230719.0 4.14.320 2023년 8월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 유럽(스톡홀름), 유럽(밀라노), 유럽(스페인), 유럽(프랑크푸르트), 유럽(취리히), 유럽(아일랜드), 유럽(런던), 유럽(파리), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(하이데라바드), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(자카르타), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인), 중동(UAE), 캐나다(중부) 2.0.20230628.0 4.14.318 2023년 7월 12일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230612.0 4.14.314 2023년 6월 23일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230504.1 4.14.313 2023년 5월 16일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230418.0 4.14.311 2023년 5월 3일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230404.1 4.14.311 2023년 4월 18일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230404.0 4.14.311 2023년 4월 10일 미국 동부(버지니아 북부), 유럽(파리) 2.0.20230320.0 4.14.309 2023년 3월 30일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230307.0 4.14.305 2023년 3월 15일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230207.0 4.14.304 2023년 2월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20230119.1 4.14.301 2023년 2월 3일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20221210.1 4.14.301 2023년 12월 22일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20221103.3 4.14.296 2022년 12월 5일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20221004.0 4.14.294 2022년 11월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20220912.1 4.14.291 2022년 10월 7일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20220805.0 4.14.287 2022년 8월 30일 us‑west‑1
2.0.20220719.0 4.14.287 2022년 8월 10일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20220426.0 4.14.281 2022년 6월 10일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) 2.0.20220406.1 4.14.275 2022년 5월 2일 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 캐나다(중부), 유럽(스톡홀름), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(프랑크푸르트), 유럽(밀라노), 아시아 태평양(홍콩), 아시아 태평양(뭄바이), 아시아 태평양(자카르타), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(오사카), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아프리카(케이프타운), 남아메리카(상파울루), 중동(바레인) Amazon EMR 6.6 이상에서는 Log4j 1.x 및 Log4j 2.x를 사용하는 애플리케이션이 각각 Log4j 1.2.17(또는 이상) 및 Log4j 2.17.1(또는 이상)을 사용하도록 업그레이드되며 CVE 문제를 완화하기 위해 제공된 부트스트랩 작업을 사용할 필요가 없습니다.
-
[관리형 조정] Spark 셔플 데이터 관리형 조정 최적화 - Amazon EMR 버전 5.34.0 이상 및 EMR 버전 6.4.0 이상의 경우 이제 관리형 조정은 Spark 셔플 데이터 인식(Spark가 특정 작업을 수행하기 위해 파티션 간에 재배포하는 데이터)이 됩니다. 셔플 작업에 대한 자세한 내용은 Amazon 관리 안내서 및 Spark 프로그래밍 안내서의 Amazon에서 EMR 관리형 조정 사용을 EMR 참조하세요. EMR https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations
Amazon EMR 5.32.0 및 6.5.0부터 Apache Spark의 동적 실행기 크기 조정이 기본적으로 활성화됩니다. 이 기능을 켜거나 끄기 위해
spark.yarn.heterogeneousExecutors.enabled
구성 파라미터를 사용할 수 있습니다.
변경 사항, 향상된 기능 및 해결된 문제
Amazon은 EMR 기본 AMI 옵션을 사용하고 Apache Hadoop, Apache Spark 및 Apache Hive와 같은 일반적인 애플리케이션만 설치하는 클러스터의 클러스터 시작 시간을 평균 최대 80초까지 EMR 줄입니다.
알려진 문제
Amazon이 Apache Spark 쉘을 통해 6.5.0, 6.6.0 또는 6.7.0 읽기 Apache Phoenix 테이블을 EMR 릴리스하면 Amazon이 잘못된를 EMR 사용하기 때문에가
NoSuchMethodError
발생합니다Hbase.compat.version
. Amazon EMR 릴리스 6.8.0은이 문제를 해결합니다.-
Amazon EMR 버전 6.6.0, 6.7.0 및 6.8.0에서 Spark와 함께 DynamoDB 커넥터를 사용하는 경우, 입력 분할이 비어 있지 않은 데이터를 참조하더라도 테이블에서 읽은 모든 읽기는 빈 결과를 반환합니다. Spark 3.2.0에서는 기본적으로
spark.hadoopRDD.ignoreEmptySplits
를true
로 설정하기 때문입니다. 해결 방법으로spark.hadoopRDD.ignoreEmptySplits
를 명시적으로false
로 설정합니다. Amazon EMR 릴리스 6.9.0은이 문제를 해결합니다. Trino 장기 실행 클러스터에서 Amazon EMR 6.6.0은 Trino jvm.config의 가비지 컬렉션 로깅 파라미터를 활성화하여 가비지 컬렉션 로그에서 더 나은 인사이트를 얻을 수 있습니다. 이 변경 사항은 Launcher.log(/var/log/trino/launcher.log) 파일에 많은 가비지 수집 로그를 추가합니다. Amazon EMR 6.6.0에서 Trino 클러스터를 실행하는 경우 추가된 로그로 인해 클러스터가 며칠 동안 실행된 후 디스크 공간이 부족한 노드가 발생할 수 있습니다.
이 문제의 해결 방법은 아래 스크립트를 부트스트랩 작업으로 실행하여 Amazon EMR6.6.0용 클러스터를 생성하거나 복제하는 동안 jvm.config에서 가비지 수집 로깅 파라미터를 비활성화하는 것입니다.
#!/bin/bash set -ex PRESTO_PUPPET_DIR='/var/aws/emr/bigtop-deploy/puppet/modules/trino' sudo bash -c "sed -i '/-Xlog/d' ${PRESTO_PUPPET_DIR}/templates/jvm.config"
Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
Amazon EMR 릴리스 5.36.0 및 6.6.0~6.9.0
SecretAgent
에서는 Log4j2 속성의 잘못된 파일 이름 패턴 구성으로 인해RecordServer
서비스 구성 요소에 로그 데이터 손실이 발생할 수 있습니다. 잘못된 구성으로 인해 구성 요소에서 하루에 하나의 로그 파일만 생성합니다. 로테이션 전략이 수행되면 예상대로 새 로그 파일을 생성하는 대신 기존 파일을 덮어씁니다. 해결 방법으로 부트스트랩 작업을 사용하여 매시간 로그 파일을 생성하고 파일 이름에 자동 증가 정수를 추가하여 교체를 처리합니다.Amazon EMR 6.6.0~6.9.0 릴리스의 경우 클러스터를 시작할 때 다음 부트스트랩 작업을 사용합니다.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Amazon EMR 5.36.0의 경우 클러스터를 시작할 때 다음 부트스트랩 작업을 사용합니다.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
릴리스 5.35.0
Amazon EMR 릴리스 5.35.0 릴리스 정보입니다.
다음 릴리스 정보에는 Amazon EMR 릴리스 5.35.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.34.0에 관련됩니다.
최초 릴리스 날짜: 2022년 3월 30일
새로운 기능
Log4j 1.x 및 Log4j 2.x를 사용하는 Amazon EMR 릴리스 5.35 애플리케이션은 각각 Log4j 1.2.17(또는 이상) 및 Log4j 2.17.1(또는 이상)을 사용하도록 업그레이드되며 이전 릴리스의 CVE 문제를 완화하기 위해 부트스트랩 작업을 사용할 필요가 없습니다. CVE-2021-44228 완화 방법을 참조하세요.
변경 사항, 향상된 기능 및 해결된 문제
유형 변경 | 설명 |
---|---|
업그레이드 |
|
유형 변경 | 설명 |
---|---|
EMR 5.34.0 이후 Hadoop 오픈 소스 백포트 |
|
Hadoop 변경 사항 및 수정 사항 |
|
유형 변경 | 설명 |
---|---|
이러한 JIRA 수정 사항을 포함하여 오픈 소스 릴리스 2.3.9 |
|
EMR 5.34.0 이후 Hive 오픈 소스 백포트 |
|
Hive 업그레이드 및 수정 사항 |
|
새로운 특성 |
|
유형 변경 | 설명 |
---|---|
EMR 5.34.0 이후 Oozie 오픈 소스 백포트 |
|
유형 변경 | 설명 |
---|---|
업그레이드 |
|
알려진 문제
Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
릴리스 5.34.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.34.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.33.1에 관련됩니다.
최초 릴리스 날짜: 2022년 1월 20일
릴리스 날짜: 2022년 3월 21일
새로운 기능
-
[관리형 조정] Spark 셔플 데이터 관리형 조정 최적화 - Amazon EMR 버전 5.34.0 이상 및 EMR 버전 6.4.0 이상의 경우 이제 관리형 조정은 Spark 셔플 데이터 인식(Spark가 특정 작업을 수행하기 위해 파티션 간에 재배포하는 데이터)이 됩니다. 셔플 작업에 대한 자세한 내용은 Amazon 관리 안내서 및 Spark 프로그래밍 안내서의 Amazon에서 EMR 관리형 조정 사용을 EMR 참조하세요. EMR https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations
[Hudi] Hudi 구성을 단순화하기 위한 개선 사항. 기본적으로 낙관적 동시성 제어를 비활성화했습니다.
변경 사항, 향상된 기능 및 해결된 문제
-
이 릴리스는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애를 일으킬 때 Amazon EMR Scaling 관련 문제를 해결하기 위한 릴리스입니다.
이전에는 멀티 마스터 클러스터에서 리소스 관리자를 수동으로 다시 시작하면 Zookeeper와 같은 Amazon EMR 클러스터 내 데몬이 Zookeeper znode 파일에서 이전에 폐기되거나 손실된 모든 노드를 다시 로드했습니다. 이로 인해 특정 상황에서 기본 한도가 초과되었습니다. Amazon은 EMR 이제 Zookeeper 파일에서 1시간 이상 경과한 폐기되거나 손실된 노드 레코드를 제거하고 내부 제한이 증가했습니다.
Amazon EMR 클러스터 내 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 활동을 실행 중일 때 활용도가 높은 대규모 클러스터에 대한 조정 요청이 실패하는 문제를 수정했습니다. 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소로 통신할 수 없었기 때문에 이러한 일이 발생했습니다.
확장 작업 중에 안정성을 개선하기 위해 IP 주소를 재사용할 때 노드 상태를 올바르게 추적하도록 클러스터 EMR 내 데몬을 개선했습니다.
SPARK-29683
. Spark에서는 사용 가능한 모든 노드가 거부 목록에 있다고 가정했기 때문에 클러스터 스케일 다운 중에 작업 실패가 발생하는 문제를 수정했습니다. YARN-9011
. 클러스터가 스케일 업 또는 스케일 다운을 시도할 때 YARN 폐기 시 레이스 조건으로 인해 작업 실패가 발생한 문제를 수정했습니다. Amazon 클러스터 EMR 내 데몬과 YARN/ 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패 문제를 해결했습니다HDFS.
Kerberos 인증으로 활성화된 Amazon 클러스터에 대해 축소 및 단계 제출과 같은 EMR 클러스터 작업이 실패하는 문제를 수정했습니다. 이는 Amazon 클러스터 EMR 내 데몬이 기본 노드에서 HDFS/YARN와 안전하게 통신하는 데 필요한 Kerberos 티켓을 갱신하지 않았기 때문입니다.
Zeppelin이 버전 0.10.0으로 업그레이드되었습니다.
Livy 수정 - 0.7.1로 업그레이드됨
Spark 성능 개선 - EMR5.34.0에서 특정 Spark 구성 값이 재정의되면 이기종 실행기가 비활성화됩니다.
웹HDFS 및 HttpFS 서버는 기본적으로 비활성화되어 있습니다. 하둡 구성인를 사용하여 웹HDFS을 다시 활성화할 수 있습니다
dfs.webhdfs.enabled
. HttpFS 서버는sudo systemctl start hadoop-httpfs
를 사용하여 시작할 수 있습니다.
알려진 문제
HttpFS는 기본적으로 비활성화되어 있으므로 Livy 사용자 가장에 사용되는 Amazon EMR Notebooks 기능은 작동하지 않습니다. 이 경우 EMR 노트북은 Livy 위장이 활성화된 클러스터에 연결할 수 없습니다. 해결 방법은를 사용하여 EMR 노트북을 클러스터에 연결하기 전에 HttpFS 서버를 시작하는 것입니다
sudo systemctl start hadoop-httpfs
.Apache Hadoop HttpFS 서버는 기본적으로 비활성화되어 있으므로 Amazon EMR 6.4.0에서는 Hue 쿼리가 작동하지 않습니다. Amazon EMR 6.4.0에서 Hue를 사용하려면를 사용하여 Amazon EMR 기본 노드에서 HttpFS 서버를 수동으로 시작
sudo systemctl start hadoop-httpfs
하거나 Amazon EMR 단계를 사용합니다.HttpFS는 기본적으로 비활성화되어 있으므로 Livy 사용자 가장에 사용되는 Amazon EMR Notebooks 기능은 작동하지 않습니다. 이 경우 EMR 노트북은 Livy 위장이 활성화된 클러스터에 연결할 수 없습니다. 해결 방법은를 사용하여 EMR 노트북을 클러스터에 연결하기 전에 HttpFS 서버를 시작하는 것입니다
sudo systemctl start hadoop-httpfs
.Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
릴리스 6.5.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.5.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.4.0에 관련됩니다.
최초 릴리스 날짜: 2022년 1월 20일
릴리스 날짜: 2022년 3월 21일
새로운 기능
-
[관리형 조정] Spark 셔플 데이터 관리형 조정 최적화 - Amazon EMR 버전 5.34.0 이상 및 EMR 버전 6.4.0 이상의 경우 이제 관리형 조정은 Spark 셔플 데이터 인식(Spark가 특정 작업을 수행하기 위해 파티션 간에 재배포하는 데이터)이 됩니다. 셔플 작업에 대한 자세한 내용은 Amazon 관리 안내서 및 Spark 프로그래밍 안내서의 Amazon에서 EMR 관리형 조정 사용을 EMR 참조하세요. EMR https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations
Amazon EMR 5.32.0 및 6.5.0부터 Apache Spark의 동적 실행기 크기 조정이 기본적으로 활성화됩니다. 이 기능을 켜거나 끄기 위해
spark.yarn.heterogeneousExecutors.enabled
구성 파라미터를 사용할 수 있습니다.대규모 분석 데이터 세트를 위한 Apache Iceberg 오픈 테이블 형식에 대한 지원.
2.0.1-amzn-1 지원 ranger-trino-plugin
toree 0.5.0에 대한 지원
변경 사항, 향상된 기능 및 해결된 문제
Amazon EMR 6.5 릴리스 버전은 이제 Apache Iceberg 0.12.0을 지원하며 Amazon EMR Runtime for Apache Spark, Amazon EMR Runtime for Presto 및 Amazon EMR Runtime for Apache Hive를 통해 런타임 개선을 제공합니다.
Apache Iceberg
는 Amazon S3의 대용량 데이터 세트에 대한 오픈 테이블 형식이며 대형 테이블, 원자 커밋, 동시 쓰기 및 SQL호환 테이블 진화에 대한 빠른 쿼리 성능을 제공합니다. EMR 6.5에서는 Apache Spark 3.1.2를 Iceberg 테이블 형식으로 사용할 수 있습니다. Apache Hudi 0.9는 Spark SQL DDL 및 DML 지원을 추가합니다. 이렇게 하면 SQL 명령문만 사용하여 Hudi 테이블을 생성할 수 있습니다. Apache Hudi 0.9에는 쿼리 측 및 작성기 측 성능 개선도 포함되어 있습니다.
Amazon EMR Runtime for Apache Hive는 스테이징 작업 중에 이름 바꾸기 작업을 제거하여 Amazon S3에서 Apache Hive 성능을 개선하고 테이블 복구에 사용되는 메타스토어 검사(MSCK) 명령의 성능을 개선합니다.
알려진 문제
Amazon이 Apache Spark 쉘을 통해 6.5.0, 6.6.0 또는 6.7.0 읽기 Apache Phoenix 테이블을 EMR 릴리스하면 Amazon이 잘못된를 EMR 사용하기 때문에가
NoSuchMethodError
발생합니다Hbase.compat.version
. Amazon EMR 릴리스 6.8.0은이 문제를 해결합니다.-
고가용성(HA)의 Hbase 번들 클러스터에서 기본 볼륨 크기 및 인스턴스 유형으로 프로비저닝하지 못합니다. 이 문제의 해결 방법은 루트 볼륨 크기를 늘리는 것입니다.
Apache Oozie에서 Spark 작업을 사용하려면 Oozie
workflow.xml
파일에 다음 구성을 추가해야 합니다. 그렇지 않으면 Hadoop 및와 같은 여러 중요 라이브러리EMRFS가 Oozie가 시작하는 Spark 실행기의 클래스 경로에서 누락됩니다.<spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
릴리스 6.4.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.4.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.3.0에 관련됩니다.
최초 릴리스 날짜: 2021년 9월 20일
릴리스 날짜: 2022년 3월 21일
지원되는 애플리케이션
-
AWS SDK for Java 버전 1.12.31
-
CloudWatch 싱크 버전 2.2.0
-
DynamoDB 커넥터 버전 4.16.0
-
EMRFS 버전 2.47.0
-
Amazon EMR Goodies 버전 3.2.0
-
Amazon EMR Kinesis Connector 버전 3.5.0
-
Amazon EMR 레코드 서버 버전 2.1.0
-
Amazon EMR Scripts 버전 2.5.0
-
Flink 버전 1.13.1
-
Ganglia 버전 3.7.2
-
AWS Glue Hive Metastore 클라이언트 버전 3.3.0
-
Hadoop 버전 3.2.1-amzn-4
-
HBase 버전 2.4.4-amzn-0
-
HBase-operator-tools 1.1.0
-
HCatalog 버전 3.1.2-amzn-5
-
Hive 버전 3.1.2-amzn-5
-
Hudi 버전 0.8.0-amzn-0
-
Hue 버전 4.9.0
-
Java JDK 버전 Corretto-8.302.08.1(빌드 1.8.0_302-b08)
-
JupyterHub 버전 1.4.1
-
Livy 버전 0.7.1-incubating
-
MXNet 버전 1.8.0
-
Oozie 버전 5.2.1
-
Phoenix 버전 5.1.2
-
Pig 버전 0.17.0
-
Presto 버전 0.254.1-amzn-0
-
Trino 버전 359
-
Apache RangerKMS(멀티 마스터 투명 암호화) 버전 2.0.0
-
ranger-plugins 2.0.1-amzn-0
-
ranger-s3-plugin 1.2.0
-
SageMaker Spark SDK 버전 1.4.1
-
Scala 버전 2.12.10(OpenJDK 64-Bit 서버 VM, Java 1.8.0_282)
-
Spark 버전 3.1.2-amzn-0
-
spark-rapids 0.4.1
-
Sqoop 버전 1.4.7
-
TensorFlow 버전 2.4.1
-
tez 버전 0.9.2
-
Zeppelin 버전 0.9.0
-
Zookeeper 버전 3.5.7
-
커넥터 및 드라이버: DynamoDB 커넥터 4.16.0
새로운 특성
-
[관리형 조정] Spark 셔플 데이터 관리형 조정 최적화 - Amazon EMR 버전 5.34.0 이상 및 EMR 버전 6.4.0 이상의 경우 이제 관리형 조정은 Spark 셔플 데이터 인식(Spark가 특정 작업을 수행하기 위해 파티션 간에 재배포하는 데이터)이 됩니다. 셔플 작업에 대한 자세한 내용은 Amazon 관리 안내서 및 Spark 프로그래밍 안내서의 Amazon에서 EMR 관리형 조정 사용을 EMR 참조하세요. EMR https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations
-
Apache Ranger 지원 Amazon EMR 클러스터에서 Apache SparkSQL를 사용하여 ,
INSERT INTO
INSERT OVERWRITE
및를 사용하여 Apache Hive 메타스토어 테이블에 데이터를 삽입하거나 업데이트할 수 있습니다ALTER TABLE
. Spark ALTERTABLE에서 SQL를 사용하는 경우 파티션 위치는 테이블 위치의 하위 디렉터리여야 합니다. AmazonEMR은 현재 파티션 위치가 테이블 위치와 다른 파티션에 데이터 삽입을 지원하지 않습니다. -
PrestoSQL의 이름이 Trino로 변경되었습니다.
-
Hive: LIMIT 절에서 언급한 레코드 수를 가져오는 즉시 쿼리 실행을 중지하면 LIMIT 절을 SELECT 사용한 단순 쿼리 실행이 가속화됩니다. 단순 SELECT 쿼리는 GROUP BY / ORDER by 절이 없는 쿼리 또는 감소기 단계가 없는 쿼리입니다. 예:
SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>
.
Hudi 동시성 제어
-
Hudi는 이제 UPSERT 및와 같은 쓰기 작업과 함께 활용할 수 있는 낙관적 동시성 제어(OCC)를 지원INSERT하여 여러 라이터에서 동일한 Hudi 테이블로 변경할 수 있습니다. 이는 파일 수준 OCC이므로 변경 사항이 충돌하지 않는 경우 두 커밋(또는 라이터)이 동일한 테이블에 쓸 수 있습니다. 자세한 내용은 Hudi concurrency control
을 참조하세요. -
Amazon EMR 클러스터에는의 잠금 공급자로 활용할 수 있는 Zookeeper가 설치되어 있습니다OCC. 이 기능을 더 쉽게 사용할 수 있도록 Amazon EMR 클러스터에는 다음과 같은 속성이 미리 구성되어 있습니다.
hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<
EMR Zookeeper URL
> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port
> hoodie.write.lock.zookeeper.base_path=/hudi를 활성화하려면 Hudi 작업 옵션을 사용하거나 Amazon EMR 구성을 사용하여 클러스터 수준에서 다음 속성을 구성OCC해야 합니다API.
hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=
<Key to uniquely identify the Hudi table>
(Table Name is a good option)
Hudi 모니터링: Hudi 지표를 보고하기 위한 Amazon CloudWatch 통합
-
Amazon은 Amazon에 Hudi 지표 게시를 EMR 지원합니다 CloudWatch. 다음과 같은 필수 구성을 설정하여 이 기능을 활성화합니다.
hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
변경할 수 있는 선택적 Hudi 구성은 다음과 같습니다.
설정 설명 값 hoodie.metrics.cloudwatch.report.period.seconds
Amazon에 지표를 보고할 빈도(초) CloudWatch
기본값은 60초로, Amazon에서 제공하는 기본 1분 해상도에 적합합니다. CloudWatch
hoodie.metrics.cloudwatch.metric.prefix
각 지표 이름에 추가할 접두사
기본값은 비어 있습니다(접두사 없음).
hoodie.metrics.cloudwatch.namespace
지표가 게시되는 Amazon CloudWatch 네임스페이스
기본값은 Hudi입니다.
Hoody.metrics.cloudwatch.maxDatumsPerRequest
Amazon에 대한 요청 하나에 포함할 최대 데이터 수 CloudWatch
기본값은 Amazon CloudWatch 기본값과 동일한 20입니다.
Amazon EMR Hudi 구성 지원 및 개선
-
이제 고객은 EMR 구성 API 및 재구성 기능을 활용하여 클러스터 수준에서 Hudi 구성을 구성할 수 있습니다. Spark, Hive 등과 같은 다른 애플리케이션의 줄을 따라 via /etc/hudi/conf/hudi-defaults.conf라는 새로운 파일 기반 구성 지원이 도입되었습니다.는 사용자 경험을 개선하기 위해 몇 가지 기본값을 EMR 구성합니다.
- 클러스터 Hive 서버에
hoodie.datasource.hive_sync.jdbcurl
구성되어 URL 더 이상 지정할 필요가 없습니다. 이는 이전에 Amazon EMR 마스터 IP를 지정해야 했던 Spark 클러스터 모드에서 작업을 실행할 때 특히 유용합니다.- Hudi에서 HBase 인덱스를 사용하는 데 유용한 HBase 특정 구성입니다.
- 동시성 제어에서 설명하는 Zookeeper 잠금 공급자별 구성을 사용하면 낙관적 동시성 제어()를 더 쉽게 사용할 수 있습니다OCC.
-
통과해야 하는 구성 수를 줄이고 가능한 경우 자동으로 추론할 수 있도록 추가 변경 사항이 도입되었습니다.
-
partitionBy
키워드를 사용하여 파티션 열을 지정할 수 있습니다.- Hive Sync를 활성화하면 더 이상
HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY
를 전달하지 않아도 됩니다. 이러한 값은 Hudi 테이블 이름 및 파티션 필드에서 추론할 수 있습니다.-
KEYGENERATOR_CLASS_OPT_KEY
는 반드시 전달하지 않아도 되며,SimpleKeyGenerator
및ComplexKeyGenerator
의 보다 간단한 사례에서 추론할 수 있습니다.
Hudi Caveats
-
Hudi는 Merge on Read(MoR) 및 부트스트랩 테이블에 대해 Hive에서 벡터화된 실행을 지원하지 않습니다. 예를 들어
hive.vectorized.execution.enabled
가 true로 설정된 경우 Hudi 실시간 테이블의count(*)
에서 오류가 발생합니다. 해결 방법으로hive.vectorized.execution.enabled
를false
로 설정하여 벡터화된 읽기를 비활성화할 수 있습니다. -
다중 작성기 지원은 Hudi 부트스트랩 기능과 호환되지 않습니다.
-
Flink Streamer 및 FlinkSQL는이 릴리스의 실험적 기능입니다. 이러한 기능은 프로덕션 배포에 사용하지 않는 것이 좋습니다.
변경 사항, 향상된 기능 및 해결된 문제
이 릴리스는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애를 일으킬 때 Amazon EMR Scaling 관련 문제를 해결하기 위한 릴리스입니다.
이전에는 멀티 마스터 클러스터에서 리소스 관리자를 수동으로 다시 시작하면 Zookeeper와 같은 Amazon EMR 클러스터 내 데몬으로 인해 Zookeeper znode 파일에서 이전에 폐기되거나 손실된 모든 노드를 다시 로드했습니다. 이로 인해 특정 상황에서 기본 한도가 초과되었습니다. Amazon은 EMR 이제 Zookeeper 파일에서 1시간 이상 경과한 폐기되거나 손실된 노드 레코드를 제거하고 내부 제한이 증가했습니다.
Amazon EMR 클러스터 내 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 활동을 실행할 때 대규모의 고효율 클러스터에 대한 조정 요청이 실패한 문제를 수정했습니다. 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소로 통신할 수 없었기 때문에 이러한 일이 발생했습니다.
확장 작업 중에 안정성을 개선하기 위해 IP 주소를 재사용할 때 노드 상태를 올바르게 추적하도록 클러스터 EMR 내 데몬을 개선했습니다.
SPARK-29683
. Spark에서는 사용 가능한 모든 노드가 거부 목록에 있다고 가정했기 때문에 클러스터 스케일 다운 중에 작업 실패가 발생하는 문제를 수정했습니다. YARN-9011
. 클러스터가 스케일 업 또는 스케일 다운을 시도할 때 YARN 폐기 시 레이스 조건으로 인해 작업 실패가 발생한 문제를 수정했습니다. Amazon 클러스터 EMR 내 데몬과 YARN/ 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패 문제를 수정했습니다HDFS.
Kerberos 인증으로 활성화된 Amazon 클러스터에 대해 축소 및 단계 제출과 같은 EMR 클러스터 작업이 실패하는 문제를 수정했습니다. 이는 Amazon 클러스터 EMR 내 데몬이 기본 노드에서 HDFS/YARN와 안전하게 통신하는 데 필요한 Kerberos 티켓을 갱신하지 않았기 때문입니다.
-
Apache YARN Timeline Server 버전 1 및 1.5 성능 문제를 수정하도록 클러스터 구성
Apache YARN 타임라인 서버 버전 1 및 1.5는 매우 활성이 높은 대형 EMR 클러스터, 특히 Amazon의 기본 설정
yarn.resourcemanager.system-metrics-publisher.enabled=true
인에서 성능 문제를 일으킬 수 있습니다EMR. 오픈 소스 YARN 타임라인 서버 v2는 YARN 타임라인 서버 확장성과 관련된 성능 문제를 해결합니다.이 문제의 다른 해결 방법은 다음과 같습니다.
yarn.resourcemanager.system-metrics-publisher.enabled=false를 yarn-site.xml로 구성합니다.
아래 설명에 따라 클러스터를 생성할 때 이 문제를 해결하는 수정 사항을 활성화합니다.
다음 Amazon EMR 릴리스에는이 YARN 타임라인 서버 성능 문제에 대한 수정 사항이 포함되어 있습니다.
EMR 5.30.2, 5.31.1, 5.32.1, 5.33.1, 5.34.x, 6.0.1, 6.1.1, 6.2.1, 6.3.1, 6.4.x
위에 지정된 Amazon EMR 릴리스에서 수정을 활성화하려면
aws emr create-cluster
명령 파라미터를 사용하여에 전달되는 구성 JSON 파일true
에서 이러한 속성을 로 설정합니다--configurations file://./configurations.json
. 또는 재구성 콘솔 UI를 사용하여 수정 사항을 활성화할 수도 있습니다.configurations.json 파일 내용 예제:
[ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
웹HDFS 및 HttpFS 서버는 기본적으로 비활성화되어 있습니다. 하둡 구성인를 사용하여 웹HDFS을 다시 활성화할 수 있습니다
dfs.webhdfs.enabled
. HttpFS 서버는sudo systemctl start hadoop-httpfs
를 사용하여 시작할 수 있습니다.-
HTTPS 이제 Amazon Linux 리포지토리에 대해가 기본적으로 활성화됩니다. Amazon S3 VPCE 정책을 사용하여 특정 버킷에 대한 액세스를 제한하는 경우 정책에 새 Amazon Linux 버킷ARN
arn:aws:s3:::amazonlinux-2-repos-$region/*
을 추가해야 합니다(엔드포인트가 있는 리전$region
으로 대체). 자세한 내용은 AWS 토론 포럼에서이 주제를 참조하세요. 공지: Amazon Linux 2는 이제 패키지 리포지토리에 연결하는 HTTPS 동안를 사용할 수 있는 기능을 지원합니다. -
Hive: HDFS 마지막 작업에 대해에서 스크래치 디렉터리 사용을 활성화하여 쓰기 쿼리 성능이 개선되었습니다. 최종 작업을 위한 임시 데이터는 Amazon S3 HDFS 대신에 기록되며 Amazon S3 Amazon S3 디바이스 간 대신 데이터가 최종 테이블 위치(Amazon S3)HDFS로 이동되므로 성능이 향상됩니다.
-
Hive: Glue 메타스토어 파티션 정리를 통해 쿼리 컴파일 시간이 최대 2.5배 개선되었습니다.
-
기본적으로 HiveUDFs에서 Hive Metastore Server에 내장을 전달하면 GlueUDFs는 제한된 표현식 연산자만 지원하므로 이러한 내장의 하위 집합만 Glue Metastore에 전달됩니다.
hive.glue.partition.pruning.client=true
를 설정하면 모든 파티션 정리가 클라이언트 측에서 수행됩니다.hive.glue.partition.pruning.server=true
를 설정하면 모든 파티션 정리가 서버 측에서 수행됩니다.
알려진 문제
Apache Hadoop HttpFS 서버는 기본적으로 비활성화되어 있으므로 Amazon EMR 6.4.0에서는 Hue 쿼리가 작동하지 않습니다. Amazon EMR 6.4.0에서 Hue를 사용하려면를 사용하여 Amazon EMR 기본 노드에서 HttpFS 서버를 수동으로 시작
sudo systemctl start hadoop-httpfs
하거나 Amazon EMR 단계를 사용합니다.HttpFS는 기본적으로 비활성화되어 있으므로 Livy 사용자 가장에 사용되는 Amazon EMR Notebooks 기능은 작동하지 않습니다. 이 경우 EMR 노트북은 Livy 위장이 활성화된 클러스터에 연결할 수 없습니다. 해결 방법은를 사용하여 EMR 노트북을 클러스터에 연결하기 전에 HttpFS 서버를 시작하는 것입니다
sudo systemctl start hadoop-httpfs
.Amazon EMR 버전 6.4.0에서는 Phoenix가 Phoenix 커넥터 구성 요소를 지원하지 않습니다.
Apache Oozie에서 Spark 작업을 사용하려면 Oozie
workflow.xml
파일에 다음 구성을 추가해야 합니다. 그렇지 않으면 Hadoop 및와 같은 여러 중요 라이브러리EMRFS가 Oozie가 시작하는 Spark 실행기의 클래스 경로에서 누락됩니다.<spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
릴리스 5.32.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.32.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.31.0에 관련됩니다.
최초 릴리스 날짜: 2021년 1월 8일
업그레이드
Amazon Glue 커넥터를 버전 1.14.0으로 업그레이드함
Amazon SageMaker Spark를 버전 1.4.1SDK로 업그레이드
버전 1.11.890 AWS SDK for Java 으로 업그레이드됨
업그레이드된 EMR DynamoDB 커넥터 버전 4.16.0
버전 2.45.0EMRFS으로 업그레이드됨
EMR 로그 분석 지표를 버전 1.18.0으로 업그레이드
EMR MetricsAndEventsApiGateway 클라이언트를 버전 1.5.0으로 업그레이드
EMR 레코드 서버를 버전 1.8.0으로 업그레이드
EMR S3 Dist CP를 버전 2.17.0으로 업그레이드
EMR Secret Agent를 버전 1.7.0으로 업그레이드
Flink를 버전 1.11.2로 업그레이드함
Hadoop을 버전 2.10.1-amzn-0으로 업그레이드함
Hive를 버전 2.3.7-amzn-3으로 업그레이드함
Hue를 버전 4.8.0으로 업그레이드함
Mxnet을 버전 1.7.0으로 업그레이드함
OpenCV를 버전 4.4.0으로 업그레이드함
Presto를 버전 0.240.1-amzn-0으로 업그레이드함
Spark를 버전 2.4.7-amzn-0으로 업그레이드함
버전 2.3.1 TensorFlow 로 업그레이드됨
변경 사항, 향상된 기능 및 해결된 문제
-
이 릴리스는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애를 일으킬 때 Amazon EMR Scaling 관련 문제를 해결하기 위한 릴리스입니다.
Amazon EMR 클러스터 내 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 활동을 실행할 때 대규모의 고효율 클러스터에 대한 조정 요청이 실패한 문제를 수정했습니다. 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소로 통신할 수 없었기 때문에 이러한 일이 발생했습니다.
확장 작업 중에 안정성을 개선하기 위해 IP 주소를 재사용할 때 노드 상태를 올바르게 추적하도록 클러스터 EMR 내 데몬을 개선했습니다.
SPARK-29683
. Spark에서는 사용 가능한 모든 노드가 거부 목록에 있다고 가정했기 때문에 클러스터 스케일 다운 중에 작업 실패가 발생하는 문제를 수정했습니다. YARN-9011
. 클러스터가 스케일 업 또는 스케일 다운을 시도할 때 YARN 폐기 시 레이스 조건으로 인해 작업 실패가 발생한 문제를 수정했습니다. Amazon 클러스터 EMR 내 데몬과 YARN/ 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패 문제를 수정했습니다HDFS.
Kerberos 인증으로 활성화된 Amazon 클러스터에 대해 축소 및 단계 제출과 같은 EMR 클러스터 작업이 실패하는 문제를 수정했습니다. 이는 Amazon 클러스터 EMR 내 데몬이 기본 노드에서 HDFS/YARN와 안전하게 통신하는 데 필요한 Kerberos 티켓을 갱신하지 않았기 때문입니다.
최신 Amazon EMR 릴리스는 Amazon의 이전 버전AL2에서 "최대 열린 파일" 제한이 더 낮은 문제를 수정했습니다EMR. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 '최대 열린 파일' 설정이 포함된 영구 수정이 포함됩니다.
업그레이드된 구성 요소 버전.
구성 요소 버전 목록은이 설명서의 Amazon EMR 릴리스 정보를 참조하세요.
새로운 특성
Amazon EMR 5.32.0 및 6.5.0부터 Apache Spark의 동적 실행기 크기 조정이 기본적으로 활성화됩니다. 이 기능을 켜거나 끄기 위해
spark.yarn.heterogeneousExecutors.enabled
구성 파라미터를 사용할 수 있습니다.인스턴스 메타데이터 서비스(IMDS) V2 지원 상태: Amazon EMR 5.23.1, 5.27.1 및 5.32 이상 구성 요소는 모든 IMDS 호출IMDSv2에 사용합니다. 애플리케이션 코드의 IMDS 호출의 경우 IMDSv1 및를 모두 사용하거나 추가 보안IMDSv2에만 사용하도록 IMDS를 IMDSv2구성할 수 있습니다. 다른 5.x EMR 릴리스의 경우를 비활성화하면 클러스터 시작 실패가 IMDSv1 발생합니다.
Amazon EMR 5.32.0부터 Apache Ranger와 기본적으로 통합되는 클러스터를 시작할 수 있습니다. Apache Ranger는 Hadoop 플랫폼 전반에서 포괄적인 데이터 보안을 지원, 모니터링 및 관리할 수 있는 오픈 소스 프레임워크입니다. 자세한 내용은 Apache Ranger
를 참조하세요. 기본 통합을 사용하면 자체 Apache Ranger를 가져와 Amazon에서 세분화된 데이터 액세스 제어를 적용할 수 있습니다EMR. Amazon 릴리스 가이드의 AmazonEMR과 Apache Ranger 통합을 참조하세요. EMR Amazon EMR 릴리스 5.32.0은 Amazon EMR on를 지원합니다EKS. EMR에서 시작하기에 대한 자세한 내용은 의 Amazon이란 무엇입니까EMR?를 EKS EKS참조하세요.
Amazon EMR 릴리스 5.32.0은 Amazon EMR Studio(미리 보기)를 지원합니다. EMR Studio 시작하기에 대한 자세한 내용은 Amazon EMR Studio(미리 보기)를 참조하세요.
범위 관리형 정책: AWS 모범 사례에 맞게 AmazonEMR은 더 이상 사용되지 않는 정책을 대체하기 위해 v2 EMR범위 기본 관리형 정책을 도입했습니다. Amazon EMR 관리형 정책을 참조하세요.
알려진 문제
Amazon EMR 6.3.0 및 6.2.0 프라이빗 서브넷 클러스터의 경우 Ganglia 웹 UI에 액세스할 수 없습니다. '액세스 거부됨(403)' 오류가 발생합니다. SparkUIs, Hue, JupyterHubZeppelin, Livy, Tez와 같은 다른 웹가 정상적으로 작동합니다. 퍼블릭 서브넷 클러스터에서 Ganglia 웹 UI 액세스도 정상적으로 작동합니다. 이 문제를 해결하려면
sudo systemctl restart httpd
를 사용하여 프라이머리 노드에서 httpd 서비스를 다시 시작합니다. 이 문제는 Amazon EMR 6.4.0에서 수정되었습니다.-
이전 AL2 [최신 릴리스에서 수정됨]에 대한 "최대 열기 파일" 제한을 낮춥니다. Amazon EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 Amazon EMR 클러스터가 기본 로 생성될 때 “최대 열린 파일”에 대한 ulimit 설정이 낮은 이전 버전 ofAmazon Linux 2(AL2)를 기반으로 합니다AMI. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 "최대 열린 파일" 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 한도가 낮은 릴리스의 경우 Spark 작업을 제출할 때 'Too many open files' 오류가 발생합니다. 영향을 받는 릴리스에서 Amazon EMR 기본값AMI은 latestAmazon Linux 2의 65536 파일 제한보다 낮은 “최대 열기 파일”에 대해 4096의 기본 ulimit 설정을 갖습니다AMI. '최대 열린 파일'에 대한 더 낮은 ulimit 설정을 사용하면 Spark 드라이버와 실행기가 4,096개가 넘는 파일을 열려고 할 때 Spark 작업이 실패합니다. 문제를 해결하기 위해 AmazonEMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업(BA) 스크립트가 있습니다.
이 문제에 대한 영구 수정이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit을 최대 65536개의 파일로 명시적으로 설정할 수 있습니다.
명령줄에서 ulimit를 명시적으로 설정합니다.
/etc/systemd/system/instance-controller.service
를 편집하여 Service 섹션에 다음 파라미터를 추가합니다.LimitNOFILE=65536
LimitNPROC=65536
다시 시작 InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
부트스트랩 작업(BA)을 사용하여 ulimit 설정
클러스터 생성 시 부트스트랩 작업(BA) 스크립트를 사용하여 instance-controller ulimit를 65,536개 파일로 구성할 수도 있습니다.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
중요
EMR Amazon Linux 또는 Amazon Linux 2 Amazon Machine Image(AMIs)를 실행하는 클러스터는 기본 Amazon Linux 동작을 사용하며 재부팅이 필요한 중요하고 중요한 커널 업데이트를 자동으로 다운로드하여 설치하지 않습니다. 이는 기본 Amazon Linux를 실행하는 다른 Amazon EC2 인스턴스와 동일한 동작입니다AMI. Amazon EMR 릴리스를 사용할 수 있게 된 후 재부팅이 필요한 새 Amazon Linux 소프트웨어 업데이트(예: 커널NVIDIA, 및 CUDA 업데이트)를 사용할 수 있게 되면 기본값을 실행하는 EMR 클러스터 인스턴스는 이러한 업데이트를 자동으로 다운로드하여 설치하지 AMI 않습니다. 커널 업데이트를 가져오려면 최신 Amazon Linux EMR를 사용하도록 Amazon을 사용자 지정할 수 있습니다AMI. AMI
AWS Ranger 통합 옵션을 지정하는 보안 구성을 생성하는 콘솔 지원은 현재 GovCloud 리전에서 지원되지 않습니다. 보안 구성은를 사용하여 수행할 수 있습니다CLI. Amazon EMR 관리 안내서의 EMR 보안 구성 생성을 참조하세요.
Amazon 5.31.0 또는 EMR 5.32.0을 사용하는 클러스터에서 AtRestEncryption 또는 HDFS 암호화가 활성화된 경우 Hive 쿼리는 다음과 같은 런타임 예외가 발생합니다.
TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
릴리스 6.2.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.2.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.1.0에 관련됩니다.
최초 릴리스 날짜: 2020년 12월 9일
최종 업데이트 날짜: 2021년 10월 4일
지원되는 애플리케이션
AWS SDK for Java 버전 1.11.828
emr-record-server 버전 1.7.0
Flink 버전 1.11.2
Ganglia 버전 3.7.2
Hadoop 버전 3.2.1-amzn-1
HBase 버전 2.2.6-amzn-0
HBase-operator-tools 1.0.0
HCatalog 버전 3.1.2-amzn-0
Hive 버전 3.1.2-amzn-3
Hudi 버전 0.6.0-amzn-1
Hue 버전 4.8.0
JupyterHub 버전 1.1.0
Livy 버전 0.7.0
MXNet 버전 1.7.0
Oozie 버전 5.2.0
Phoenix 버전 5.0.0
Pig 버전 0.17.0
Presto 버전 0.238.3-amzn-1
PrestoSQL 버전 343
Spark 버전 3.0.1-amzn-0
spark-rapids 0.2.0
TensorFlow 버전 2.3.1
Zeppelin 버전 0.9.0-preview1
Zookeeper 버전 3.4.14
커넥터 및 드라이버: DynamoDB 커넥터 4.16.0
새로운 특성
HBase: 커밋 단계에서 이름 변경을 제거하고 영구 HFile 추적을 추가했습니다. Amazon EMR 릴리스 가이드의 영구 HFile 추적을 참조하세요.
HBase: 백포트 압축 시가 블록을 캐싱하도록 강제하는 구성을 생성합니다
. PrestoDB: 동적 파티션 정리 기능이 개선되었습니다. 규칙 기반 조인 재정렬은 파티셔닝되지 않은 데이터에서 작동합니다.
범위 관리형 정책: AWS 모범 사례에 맞게 AmazonEMR은 더 이상 사용되지 않는 정책을 대체하기 위해 v2 EMR범위 기본 관리형 정책을 도입했습니다. Amazon EMR 관리형 정책을 참조하세요.
인스턴스 메타데이터 서비스(IMDS) V2 지원 상태: Amazon EMR 6.2 이상의 경우 Amazon EMR 구성 요소는 모든 IMDS 호출IMDSv2에를 사용합니다. 애플리케이션 코드의 IMDS 호출의 경우 IMDSv1 및를 모두 사용하거나 추가 보안IMDSv2에만 사용하도록 IMDS를 IMDSv2구성할 수 있습니다. 이전 Amazon EMR 6.x 릴리스IMDSv1에서를 비활성화하면 클러스터 시작 실패가 발생합니다.
변경 사항, 향상된 기능 및 해결된 문제
-
이 릴리스는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애를 일으킬 때 Amazon EMR Scaling 관련 문제를 해결하기 위한 릴리스입니다.
Amazon EMR 클러스터 내 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 활동을 실행할 때 대규모의 고효율 클러스터에 대한 조정 요청이 실패한 문제를 수정했습니다. 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소로 통신할 수 없었기 때문에 이러한 일이 발생했습니다.
확장 작업 중에 안정성을 개선하기 위해 IP 주소를 재사용할 때 노드 상태를 올바르게 추적하도록 클러스터 EMR 내 데몬을 개선했습니다.
SPARK-29683
. Spark에서는 사용 가능한 모든 노드가 거부 목록에 있다고 가정했기 때문에 클러스터 스케일 다운 중에 작업 실패가 발생하는 문제를 수정했습니다. YARN-9011
. 클러스터가 스케일 업 또는 스케일 다운을 시도할 때 YARN 폐기 시 레이스 조건으로 인해 작업 실패가 발생한 문제를 수정했습니다. Amazon 클러스터 EMR 내 데몬과 YARN/ 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패 문제를 수정했습니다HDFS.
Kerberos 인증으로 활성화된 Amazon 클러스터에 대해 축소 및 단계 제출과 같은 EMR 클러스터 작업이 실패하는 문제를 수정했습니다. 이는 Amazon 클러스터 EMR 내 데몬이 기본 노드에서 HDFS/YARN와 안전하게 통신하는 데 필요한 Kerberos 티켓을 갱신하지 않았기 때문입니다.
최신 Amazon EMR 릴리스는 Amazon의 이전 버전AL2에서 "최대 열린 파일" 제한이 더 낮은 문제를 수정했습니다EMR. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 '최대 열린 파일' 설정이 포함된 영구 수정이 포함됩니다.
Spark: Spark 런타임의 성능이 개선되었습니다.
알려진 문제
Amazon EMR 6.2의 the /etc/cron.d/libinstance-controller-java file in EMR 6.2.0. Permissions on the file are 645 (-rw-r--r-x), when they should be 644 (-rw-r--r--). As a result, Amazon EMR version 6.2 does not log instance-state logs, and the /emr/instance-logs 디렉터리에 잘못된 권한이 설정되어 있습니다. 이 문제는 Amazon EMR 6.3.0 이상에서 수정되었습니다.
이 문제를 해결하려면 클러스터 시작 시 다음 스크립트를 부트스트랩 작업으로 실행합니다.
#!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
Amazon EMR 6.2.0 및 6.3.0 프라이빗 서브넷 클러스터의 경우 Ganglia 웹 UI에 액세스할 수 없습니다. '액세스 거부됨(403)' 오류가 발생합니다. SparkUIs, Hue, JupyterHubZeppelin, Livy, Tez와 같은 다른 웹가 정상적으로 작동합니다. 퍼블릭 서브넷 클러스터에서 Ganglia 웹 UI 액세스도 정상적으로 작동합니다. 이 문제를 해결하려면
sudo systemctl restart httpd
를 사용하여 프라이머리 노드에서 httpd 서비스를 다시 시작합니다. 이 문제는 Amazon EMR 6.4.0에서 수정되었습니다.Amazon EMR 6.2.0에서 httpd가 지속적으로 실패하여 Ganglia를 사용할 수 없는 문제가 있습니다. 'cannot connect to the server' 오류가 발생합니다. 이 문제로 이미 실행 중인 클러스터를 수정하려면 클러스터 기본 노드SSH에 선을 추가하고에
httpd.conf
있는 파일에Listen 80
선을 추가합니다/etc/httpd/conf/httpd.conf
. 이 문제는 Amazon EMR 6.3.0에서 수정되었습니다.HTTPD 보안 구성을 사용하면 EMR가 6.2.0 클러스터에서 실패합니다. 이로 인해 Ganglia 웹 애플리케이션 사용자 인터페이스를 사용할 수 없습니다. Ganglia 웹 애플리케이션 사용자 인터페이스에 액세스하려면 클러스터의 프라이머리 노드에 있는
/etc/httpd/conf/httpd.conf
파일에Listen 80
을 추가합니다. 클러스터 연결에 대한 자세한 내용은 를 사용하여 기본 노드에 연결을 SSH참조하세요.EMR 또한 노트북은 보안 구성을 사용할 때 EMR 6.2.0 클러스터와의 연결을 설정하지 못합니다. 노트북은 커널을 나열하지 못하고 Spark 작업을 제출하지 못합니다. EMR 대신 EMR 노트북을 다른 버전의 Amazon과 함께 사용하는 것이 좋습니다.
-
이전 AL2 [최신 릴리스에서 수정됨]에 대한 "최대 열기 파일" 제한을 낮춥니다. Amazon EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 Amazon EMR 클러스터가 기본 로 생성될 때 “최대 열린 파일”에 대한 ulimit 설정이 낮은 이전 버전 ofAmazon Linux 2(AL2)를 기반으로 합니다AMI. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 "최대 열린 파일" 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 한도가 낮은 릴리스의 경우 Spark 작업을 제출할 때 'Too many open files' 오류가 발생합니다. 영향을 받는 릴리스에서 Amazon EMR 기본값AMI은 latestAmazon Linux 2의 65536 파일 제한보다 낮은 “최대 열기 파일”에 대해 4096의 기본 ulimit 설정을 갖습니다AMI. '최대 열린 파일'에 대한 더 낮은 ulimit 설정을 사용하면 Spark 드라이버와 실행기가 4,096개가 넘는 파일을 열려고 할 때 Spark 작업이 실패합니다. 문제를 해결하기 위해 AmazonEMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업(BA) 스크립트가 있습니다.
이 문제에 대한 영구 수정이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit을 최대 65536개의 파일로 명시적으로 설정할 수 있습니다.
명령줄에서 ulimit를 명시적으로 설정합니다.
/etc/systemd/system/instance-controller.service
를 편집하여 Service 섹션에 다음 파라미터를 추가합니다.LimitNOFILE=65536
LimitNPROC=65536
다시 시작 InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
부트스트랩 작업(BA)을 사용하여 ulimit 설정
클러스터 생성 시 부트스트랩 작업(BA) 스크립트를 사용하여 instance-controller ulimit를 65,536개 파일로 구성할 수도 있습니다.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
중요
Amazon EMR 6.1.0 및 6.2.0에는 모든 Hudi 삽입, 업서트 및 삭제 작업에 심각한 영향을 미칠 수 있는 성능 문제가 포함되어 있습니다. Hudi를 Amazon EMR 6.1.0 또는 6.2.0과 함께 사용하려면 AWS 지원팀에 문의하여 패치된 Hudi를 받아야 합니다RPM.
-
중요
EMR Amazon Linux 또는 Amazon Linux 2 Amazon Machine Image(AMIs)를 실행하는 클러스터는 기본 Amazon Linux 동작을 사용하며 재부팅이 필요한 중요하고 중요한 커널 업데이트를 자동으로 다운로드하여 설치하지 않습니다. 이는 기본 Amazon Linux를 실행하는 다른 Amazon EC2 인스턴스와 동일한 동작입니다AMI. Amazon EMR 릴리스를 사용할 수 있게 된 후 재부팅이 필요한 새 Amazon Linux 소프트웨어 업데이트(예: 커널NVIDIA, 및 CUDA 업데이트)를 사용할 수 있게 되면 기본값을 실행하는 EMR 클러스터 인스턴스는 이러한 업데이트를 자동으로 다운로드하여 설치하지 AMI 않습니다. 커널 업데이트를 가져오려면 최신 Amazon Linux EMR를 사용하도록 Amazon을 사용자 지정할 수 있습니다AMI. AMI
Amazon EMR 6.2.0 Maven 아티팩트는 게시되지 않습니다. Amazon의 향후 릴리스와 함께 게시될 예정입니다EMR.
HBase Storefile 시스템 테이블을 사용한 지속적 HFile 추적은 HBase 리전 복제 기능을 지원하지 않습니다. HBase 리전 복제에 대한 자세한 내용은 타임라인 일관성 높은 가용 읽기를 참조하세요
. Amazon EMR 6.x 및 EMR 5.x Hive 버킷팅 버전 차이점
EMR 5.x는 OOS Apache Hive 2를 사용하는 반면, EMR 6.x에서는 OOS Apache Hive 3을 사용합니다. 오픈 소스 Hive2는 버킷팅 버전 1을 사용하는 반면, 오픈 소스 Hive3은 버킷팅 버전 2를 사용합니다. Hive 2(EMR 5.x)와 Hive 3(EMR 6.x) 간의 이러한 버킷 버전 차이는 Hive 버킷 해싱 함수가 다르게 작동한다는 것을 의미합니다. 아래 예제를 참조하십시오.
다음 표는 각각 EMR 6.x 및 EMR 5.x에서 생성된 예제입니다.
-- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';
6.x와 EMR EMR5.x 모두에 동일한 데이터를 삽입합니다.
INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');
S3 위치를 확인하면 해싱 함수가 6.x(하이브 3)와 EMR EMR5.x(하이브 2) 간에 다르기 때문에 버킷 파일 이름이 다름을 보여줍니다.
[hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0
CLI EMR 6.x의 Hive에서 다음 명령을 실행하여 버전 차이를 확인할 수도 있습니다. 이 경우 버킷팅 버전 2가 반환됩니다.
hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자로. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
릴리스 5.31.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.31.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.30.1에 관련됩니다.
최초 릴리스 날짜: 2020년 10월 9일
최종 업데이트 날짜: 2020년 10월 15일
업그레이드
Amazon Glue 커넥터를 버전 1.13.0으로 업그레이드함
Amazon SageMaker Spark를 버전 1.4.0SDK으로 업그레이드
Amazon Kinesis 커넥터를 버전 3.5.9로 업그레이드함
버전 1.11.852 AWS SDK for Java 로 업그레이드됨
Bigtop-tomcat을 버전 8.5.56으로 업그레이드함
FSEMR를 버전 2.43.0으로 업그레이드
EMR MetricsAndEventsApiGateway 클라이언트를 버전 1.4.0으로 업그레이드
EMR S3 Dist CP를 버전 2.15.0으로 업그레이드
EMR S3 Select를 버전 1.6.0으로 업그레이드
Flink를 버전 1.11.0으로 업그레이드함
Hadoop을 버전 2.10.0으로 업그레이드함
Hive를 버전 2.3.7로 업그레이드함
Hudi를 버전 0.6.0으로 업그레이드함
Hue를 버전 4.7.1로 업그레이드함
버전 1.1.0 JupyterHub 으로 업그레이드됨
Mxnet을 버전 1.6.0으로 업그레이드함
OpenCV를 버전 4.3.0으로 업그레이드함
Presto를 버전 0.238.3으로 업그레이드함
버전 2.1.0 TensorFlow 으로 업그레이드됨
변경 사항, 향상된 기능 및 해결된 문제
-
이 릴리스는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애를 일으킬 때 Amazon EMR Scaling 관련 문제를 해결하기 위한 릴리스입니다.
Amazon EMR 클러스터 내 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 활동을 실행할 때 대규모의 고효율 클러스터에 대한 조정 요청이 실패한 문제를 수정했습니다. 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소로 통신할 수 없었기 때문에 이러한 일이 발생했습니다.
확장 작업 중에 안정성을 개선하기 위해 IP 주소를 재사용할 때 노드 상태를 올바르게 추적하도록 클러스터 EMR 내 데몬을 개선했습니다.
SPARK-29683
. Spark에서는 사용 가능한 모든 노드가 거부 목록에 있다고 가정했기 때문에 클러스터 스케일 다운 중에 작업 실패가 발생하는 문제를 수정했습니다. YARN-9011
. 클러스터가 스케일 업 또는 스케일 다운을 시도할 때 YARN 폐기 시 레이스 조건으로 인해 작업 실패가 발생한 문제를 수정했습니다. Amazon 클러스터 EMR 내 데몬과 YARN/ 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패 문제를 수정했습니다HDFS.
Kerberos 인증으로 활성화된 Amazon 클러스터에 대해 축소 및 단계 제출과 같은 EMR 클러스터 작업이 실패하는 문제를 수정했습니다. 이는 Amazon 클러스터 EMR 내 데몬이 기본 노드에서 HDFS/YARN와 안전하게 통신하는 데 필요한 Kerberos 티켓을 갱신하지 않았기 때문입니다.
최신 Amazon EMR 릴리스는 Amazon의 이전 버전AL2에서 "최대 열린 파일" 제한이 더 낮은 문제를 수정했습니다EMR. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 '최대 열린 파일' 설정이 포함된 영구 수정이 포함됩니다.
Hive 열 통계
는 Amazon EMR 버전 5.31.0 이상에서 지원됩니다. 업그레이드된 구성 요소 버전.
EMRFS Amazon EMR 5.31.0에서 S3EC V2 지원. S3 Java SDK 릴리스 1.11.837 이상에서는 암호화 클라이언트 버전 2(S3EC V2)가 다양한 보안 강화와 함께 도입되었습니다. 자세한 내용은 다음 자료를 참조하세요.
S3 블로그 게시물: Updates to the Amazon S3 encryption client
. AWS SDK for Java 개발자 안내서: 암호화 및 복호화 클라이언트를 V2로 마이그레이션합니다.
EMR 관리 안내서: Amazon S3 클라이언트 측 암호화.
암호화 클라이언트 V1은 이전 버전과의 호환성을 SDK 위해에서 계속 사용할 수 있습니다.
새로운 특성
-
이전 AL2 [최신 릴리스에서 수정됨]에 대한 "최대 열기 파일" 제한을 낮춥니다. Amazon EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 Amazon EMR 클러스터가 기본 로 생성될 때 “최대 열린 파일”에 대한 ulimit 설정이 낮은 이전 버전 ofAmazon Linux 2(AL2)를 기반으로 합니다AMI. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 "최대 열린 파일" 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 한도가 낮은 릴리스의 경우 Spark 작업을 제출할 때 'Too many open files' 오류가 발생합니다. 영향을 받는 릴리스에서 Amazon EMR 기본값AMI은 latestAmazon Linux 2의 65536 파일 제한보다 낮은 “최대 열기 파일”에 대해 4096의 기본 ulimit 설정을 갖습니다AMI. '최대 열린 파일'에 대한 더 낮은 ulimit 설정을 사용하면 Spark 드라이버와 실행기가 4,096개가 넘는 파일을 열려고 할 때 Spark 작업이 실패합니다. 문제를 해결하기 위해 AmazonEMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업(BA) 스크립트가 있습니다.
이 문제에 대한 영구 수정이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit을 최대 65536개의 파일로 명시적으로 설정할 수 있습니다.
명령줄에서 ulimit를 명시적으로 설정합니다.
/etc/systemd/system/instance-controller.service
를 편집하여 Service 섹션에 다음 파라미터를 추가합니다.LimitNOFILE=65536
LimitNPROC=65536
다시 시작 InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
부트스트랩 작업(BA)을 사용하여 ulimit 설정
클러스터 생성 시 부트스트랩 작업(BA) 스크립트를 사용하여 instance-controller ulimit를 65,536개 파일로 구성할 수도 있습니다.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
Amazon EMR 5.31.0을 사용하면 Lake Formation과 통합되는 클러스터를 시작할 수 있습니다. 이 통합은 AWS Glue 데이터 카탈로그의 데이터베이스 및 테이블에 세분화된 열 수준 데이터 필터링을 제공합니다. 또한 엔터프라이즈 자격 증명 시스템에서 EMR 노트북 또는 Apache Zeppelin에 대한 페더레이션 Single Sign-On을 활성화합니다. 자세한 내용은 Amazon 관리 안내서의 EMR와 Amazon 통합 AWS Lake Formation을 참조하세요. EMR
Lake FormationEMR을 사용하는 Amazon은 현재 미국 동부(오하이오 및 버지니아 북부), 미국 서부(캘리포니아 북부 및 오리건), 아시아 태평양(뭄바이, 서울, 싱가포르, 시드니 및 도쿄), 캐나다(중부), 유럽(프랑크푸르트, 아일랜드, 런던, 파리 및 스톡홀름), 남아메리카(상파울루) 등 16개 AWS 리전에서 사용할 수 있습니다.
알려진 문제
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자로. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
Amazon 5.31.0 또는 EMR 5.32.0을 사용하는 클러스터에서 AtRestEncryption 또는 HDFS 암호화가 활성화된 경우 Hive 쿼리는 다음과 같은 런타임 예외가 발생합니다.
TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
릴리스 6.1.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.1.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.0.0에 관련됩니다.
최초 릴리스 날짜: 2020년 9월 4일
최종 업데이트 날짜: 2020년 10월 15일
지원되는 애플리케이션
AWS SDK for Java 버전 1.11.828
Flink 버전 1.11.0
Ganglia 버전 3.7.2
Hadoop 버전 3.2.1-amzn-1
HBase 버전 2.2.5
HBase-operator-tools 1.0.0
HCatalog 버전 3.1.2-amzn-0
Hive 버전 3.1.2-amzn-1
Hudi 버전 0.5.2-incubating
Hue 버전 4.7.1
JupyterHub 버전 1.1.0
Livy 버전 0.7.0
MXNet 버전 1.6.0
Oozie 버전 5.2.0
Phoenix 버전 5.0.0
Presto 버전 0.232
PrestoSQL 버전 338
Spark 버전 3.0.0-amzn-0
TensorFlow 버전 2.1.0
Zeppelin 버전 0.9.0-preview1
Zookeeper 버전 3.4.14
커넥터 및 드라이버: DynamoDB Connector 4.14.0
새로운 특성
ARM 인스턴스 유형은 Amazon EMR 버전 5.30.0 및 Amazon EMR 버전 6.1.0부터 지원됩니다.
M6g 범용 인스턴스 유형은 Amazon EMR 버전 6.1.0 및 5.30.0부터 지원됩니다. 자세한 내용은 Amazon EMR 관리 안내서의 지원되는 인스턴스 유형을 참조하세요.
EC2 배치 그룹 기능은 Amazon EMR 버전 5.23.0부터 여러 프라이머리 노드 클러스터에 대한 옵션으로 지원됩니다. 현재 배치 그룹 기능에서는 프라이머리 노드 유형만 지원되며 해당 프라이머리 노드에는
SPREAD
전략이 적용됩니다.SPREAD
전략은 하드웨어 장애 발생 시 여러 프라이머리 노드의 손실을 방지하기 위해 별도의 기본 하드웨어에 작은 그룹의 인스턴스를 배치합니다. 자세한 내용은 Amazon EMR 관리 안내서의 EMR EC2 배치 그룹과의 통합을 참조하세요.Managed Scaling - Amazon EMR 버전 6.1.0을 사용하면 Amazon EMR Managed Scaling이 워크로드를 기반으로 클러스터의 인스턴스 또는 유닛 수를 자동으로 늘리거나 줄일 수 있습니다. Amazon은 클러스터 지표를 EMR 지속적으로 평가하여 비용 및 속도에 맞게 클러스터를 최적화하는 조정 결정을 내립니다. Managed Scaling은 6.0.0을 제외한 Amazon EMR 버전 5.30.0 이상에서도 사용할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 클러스터 리소스 조정을 참조하세요.
PrestoSQL 버전 338은 EMR 6.1.0에서 지원됩니다. 자세한 내용은 Presto를 참조하세요.
PrestoSQL는 EMR 6.0.0 또는 EMR5.x가 아닌 EMR 6.1.0 이상 버전에서만 지원됩니다.
애플리케이션 이름(
Presto
)은 클러스터에 PrestoDB를 설치하는 데 계속 사용됩니다. 클러스터에 PrestoSQL를 설치하려면 애플리케이션 이름을 사용합니다PrestoSQL
.PrestoDB 또는 Presto를 설치할 수 SQL있지만 단일 클러스터에 둘 다 설치할 수는 없습니다. 클러스터를 생성하려고 할 때 PrestoDB와 PrestoSQL를 모두 지정하면 검증 오류가 발생하고 클러스터 생성 요청이 실패합니다.
PrestoSQL는 단일 마스터 클러스터와 다중 마스터 클러스터 모두에서 지원됩니다. 멀티 마스터 클러스터에서 PrestoSQL 또는 PrestoDB를 실행하려면 외부 Hive 메타스토어가 필요합니다. 여러 기본 노드가 있는 EMR 클러스터에서 지원되는 애플리케이션을 참조하세요.
ECR Apache Hadoop 및 Apache Spark with Docker에 대한 자동 인증 지원: Spark 사용자는 Docker Hub 및 Amazon Elastic Container Registry(AmazonECR)의 Docker 이미지를 사용하여 환경 및 라이브러리 종속성을 정의할 수 있습니다.
Amazon 6.x를 사용하여 Docker를 구성하고 Docker를 사용하여 Spark 애플리케이션을 실행합니다. EMR
EMR는 Apache Hive ACID 트랜잭션을 지원합니다. Amazon EMR 6.1.0은 데이터베이스의 ACID 속성을 준수하도록 Hive ACID 트랜잭션에 대한 지원을 추가합니다. 이 기능을 사용하면 Amazon Simple Storage Service(S3)의 데이터를 사용하여 Hive 관리형 테이블에서
INSERT, UPDATE, DELETE,
및MERGE
작업을 실행할 수 있습니다. 이는 스트리밍 수집, 데이터 재진술,를 사용한 대량 업데이트MERGE, 천천히 변화하는 차원과 같은 사용 사례를 위한 주요 기능입니다. 구성 예제 및 사용 사례를 포함한 자세한 내용은 Amazon에서 Apache Hive ACID 트랜잭션 EMR 지원을참조하세요.
변경 사항, 향상된 기능 및 해결된 문제
-
이 릴리스는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애를 일으킬 때 Amazon EMR Scaling 관련 문제를 해결하기 위한 릴리스입니다.
Amazon EMR 클러스터 내 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 활동을 실행할 때 대규모의 고효율 클러스터에 대한 조정 요청이 실패한 문제를 수정했습니다. 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소로 통신할 수 없었기 때문에 이러한 일이 발생했습니다.
확장 작업 중에 안정성을 개선하기 위해 IP 주소를 재사용할 때 노드 상태를 올바르게 추적하도록 클러스터 EMR 내 데몬을 개선했습니다.
SPARK-29683
. Spark에서는 사용 가능한 모든 노드가 거부 목록에 있다고 가정했기 때문에 클러스터 스케일 다운 중에 작업 실패가 발생하는 문제를 수정했습니다. YARN-9011
. 클러스터가 스케일 업 또는 스케일 다운을 시도할 때 YARN 폐기 시 레이스 조건으로 인해 작업 실패가 발생한 문제를 수정했습니다. Amazon 클러스터 EMR 내 데몬과 YARN/ 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패 문제를 수정했습니다HDFS.
Kerberos 인증으로 활성화된 Amazon 클러스터에 대해 축소 및 단계 제출과 같은 EMR 클러스터 작업이 실패하는 문제를 수정했습니다. 이는 Amazon 클러스터 EMR 내 데몬이 기본 노드에서 HDFS/YARN와 안전하게 통신하는 데 필요한 Kerberos 티켓을 갱신하지 않았기 때문입니다.
최신 Amazon EMR 릴리스는 Amazon의 이전 버전AL2에서 "최대 열린 파일" 제한이 더 낮은 문제를 수정했습니다EMR. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 '최대 열린 파일' 설정이 포함된 영구 수정이 포함됩니다.
Apache Flink는 EMR 6.0.0에서는 지원되지 않지만 Flink EMR 1.11.0이 있는 6.1.0에서는 지원됩니다. 이 버전은 Hadoop 3을 공식적으로 지원하는 Flink의 첫 번째 버전입니다. Apache Flink 1.11.0 Release Announcement
를 참조하세요. Ganglia가 기본 EMR 6.1.0 패키지 번들에서 제거되었습니다.
알려진 문제
-
이전 AL2 [새 릴리스에서 수정됨]에 대한 "최대 열기 파일" 제한 감소 Amazon EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 Amazon EMR 클러스터가 기본 로 생성될 때 “최대 열린 파일”에 대한 ulimit 설정이 낮은 이전 버전 ofAmazon Linux 2(AL2)를 기반으로 합니다AMI. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 "최대 열린 파일" 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 한도가 낮은 릴리스의 경우 Spark 작업을 제출할 때 'Too many open files' 오류가 발생합니다. 영향을 받는 릴리스에서 Amazon EMR 기본값AMI은 latestAmazon Linux 2의 65536 파일 제한보다 낮은 “최대 열기 파일”에 대해 4096의 기본 ulimit 설정을 갖습니다AMI. '최대 열린 파일'에 대한 더 낮은 ulimit 설정을 사용하면 Spark 드라이버와 실행기가 4,096개가 넘는 파일을 열려고 할 때 Spark 작업이 실패합니다. 문제를 해결하기 위해 AmazonEMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업(BA) 스크립트가 있습니다.
이 문제에 대한 영구 수정이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit을 최대 65536개의 파일로 명시적으로 설정할 수 있습니다.
명령줄에서 ulimit를 명시적으로 설정합니다.
/etc/systemd/system/instance-controller.service
를 편집하여 Service 섹션에 다음 파라미터를 추가합니다.LimitNOFILE=65536
LimitNPROC=65536
다시 시작 InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
부트스트랩 작업(BA)을 사용하여 ulimit 설정
클러스터 생성 시 부트스트랩 작업(BA) 스크립트를 사용하여 instance-controller ulimit를 65,536개 파일로 구성할 수도 있습니다.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
중요
Amazon EMR 6.1.0 및 6.2.0에는 모든 Hudi 삽입, 업서트 및 삭제 작업에 심각한 영향을 미칠 수 있는 성능 문제가 포함되어 있습니다. Hudi를 Amazon EMR 6.1.0 또는 6.2.0과 함께 사용하려면 AWS 지원팀에 문의하여 패치된 Hudi를 받아야 합니다RPM.
spark.driver.extraJavaOptions
및를 사용하여 사용자 지정 가비지 수집 구성을 설정하면 가비지 수집 구성이 충돌하여 EMR 6.1에서spark.executor.extraJavaOptions
드라이버/실행기 시작이 실패합니다. EMR 릴리스 6.1.0에서는 속성spark.driver.defaultJavaOptions
이 있는 드라이버 및 실행기에 대한 사용자 지정 Spark 가비지 수집 구성을 지정해야 합니다spark.executor.defaultJavaOptions
. Amazon 6.1.0에서 Apache Spark 런타임 환경및 Spark 가비지 컬렉션 구성에 대해 자세히 알아보세요. EMR -
Oozie에서 Pig를 사용하는 경우(또한 Hue는 Oozie 작업을 사용하여 Pig 스크립트를 실행하므로 Hue 내에서 Pig를 사용하는 경우) 네이티브 lzo 라이브러리를 로드할 수 없다는 오류가 발생합니다. 이 오류 메시지는 정보 제공용이며 Pig 실행을 차단하지 않습니다.
Hudi 동시성 지원: 현재 Hudi는 단일 Hudi 테이블에 대한 동시 쓰기를 지원하지 않습니다. 또한 Hudi는 새 작성기를 시작하기 전에 진행 중인 작성기에서 수행하는 모든 변경 사항을 롤백합니다. 동시 쓰기는 이 메커니즘을 방해하고 경쟁 조건을 유발하여 데이터를 손상시킬 수 있습니다. 데이터 처리 워크플로의 일부로 항상 Hudi 테이블에서 단일 Hudi 작성기만 작동해야 합니다. Hudi는 동일한 Hudi 테이블에서 작동하는 여러 개의 동시 리더를 지원합니다.
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자로. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
Amazon EMR 6.1.0에는 Presto를 실행하는 클러스터에 영향을 미치는 문제가 있습니다. 장기간(일)이 지나면 클러스터에서 "su:에 실패execute /bin/bash: 리소스를 일시적으로 사용할 수 없음" 또는 "채널 0에 대한 쉘 요청 실패"와 같은 오류가 발생할 수 있습니다. 이 문제는 내부 Amazon EMR 프로세스(InstanceController)가 너무 많은 경량 프로세스()를 생성LWP하여 하둡 사용자가 nproc 제한을 초과하게 되어 발생합니다. 이를 통해 사용자는 추가 프로세스를 열 수 없습니다. 이 문제의 해결 방법은 EMR 6.2.0으로 업그레이드하는 것입니다.
릴리스 6.0.0
다음 릴리스 정보에는 Amazon EMR 릴리스 6.0.0에 대한 정보가 포함되어 있습니다.
최초 릴리스 날짜: 2020년 3월 10일
지원되는 애플리케이션
AWS SDK for Java 버전 1.11.711
Ganglia 버전 3.7.2
Hadoop 버전 3.2.1
HBase 버전 2.2.3
HCatalog 버전 3.1.2
Hive 버전 3.1.2
Hudi 버전 0.5.0-incubating
Hue 버전 4.4.0
JupyterHub 버전 1.0.0
Livy 버전 0.6.0
MXNet 버전 1.5.1
Oozie 버전 5.1.0
Phoenix 버전 5.0.0
Presto 버전 0.230
Spark 버전 2.4.4
TensorFlow 버전 1.14.0
Zeppelin 버전 0.9.0-SNAPSHOT
Zookeeper 버전 3.4.14
커넥터 및 드라이버: DynamoDB Connector 4.14.0
참고
Amazon EMR 버전 6.0.0에서는 Flink, Sqoop, Pig 및 Mahout을 사용할 수 없습니다.
새로운 특성
YARN Docker 런타임 지원 - 이제 Spark 작업과 같은 YARN 애플리케이션을 Docker 컨테이너의 컨텍스트에서 실행할 수 있습니다. 이를 통해 Amazon EMR 클러스터에 사용자 지정 라이브러리를 설치할 필요 없이 Docker 이미지에서 종속성을 쉽게 정의할 수 있습니다. 자세한 내용은 Amazon 6.0.0을 사용하여 Docker 통합 구성 및 Docker로 Spark 애플리케이션 실행을 참조하세요. EMR
-
Hive LLAP 지원 - Hive는 이제 쿼리 성능 향상을 위해 LLAP 실행 모드를 지원합니다. 자세한 내용은 Hive 사용을 참조하세요LLAP.
변경 사항, 향상된 기능 및 해결된 문제
-
이 릴리스는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애를 일으킬 때 Amazon EMR Scaling 관련 문제를 해결하기 위한 릴리스입니다.
Amazon EMR 클러스터 내 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 활동을 실행할 때 대규모의 고효율 클러스터에 대한 조정 요청이 실패한 문제를 수정했습니다. 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소로 통신할 수 없었기 때문에 이러한 일이 발생했습니다.
확장 작업 중에 안정성을 개선하기 위해 IP 주소를 재사용할 때 노드 상태를 올바르게 추적하도록 클러스터 EMR 내 데몬을 개선했습니다.
SPARK-29683
. Spark에서는 사용 가능한 모든 노드가 거부 목록에 있다고 가정했기 때문에 클러스터 스케일 다운 중에 작업 실패가 발생하는 문제를 수정했습니다. YARN-9011
. 클러스터가 스케일 업 또는 스케일 다운을 시도할 때 YARN 폐기 시 레이스 조건으로 인해 작업 실패가 발생한 문제를 수정했습니다. Amazon 클러스터 EMR 내 데몬과 YARN/ 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패 문제를 수정했습니다HDFS.
Kerberos 인증으로 활성화된 Amazon 클러스터에 대해 축소 및 단계 제출과 같은 EMR 클러스터 작업이 실패하는 문제를 수정했습니다. 이는 Amazon 클러스터 EMR 내 데몬이 기본 노드에서 HDFS/YARN와 안전하게 통신하는 데 필요한 Kerberos 티켓을 갱신하지 않았기 때문입니다.
최신 Amazon EMR 릴리스는 Amazon의 이전 버전AL2에서 "최대 열린 파일" 제한이 더 낮은 문제를 수정했습니다EMR. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 '최대 열린 파일' 설정이 포함된 영구 수정이 포함됩니다.
Amazon Linux
Amazon Linux 2는 EMR 6.x 릴리스 시리즈의 운영 체제입니다.
systemd
는upstart
사용된 inAmazon Linux 1 대신 서비스 관리에 사용됩니다.
Java 개발 키트(JDK)
Corretto JDK 8은 EMR 6.x 릴리스 시리즈JDK의 기본값입니다.
Scala
Scala 2.12는 Apache Spark 및 Apache Livy와 함께 사용됩니다.
Python 3
이제 Python 3이에서 Python의 기본 버전입니다EMR.
YARN 노드 레이블
Amazon EMR 6.x 릴리스 시리즈부터 YARN 노드 레이블 기능은 기본적으로 비활성화되어 있습니다. 애플리케이션 마스터 프로세스는 기본적으로 코어 및 작업 노드 모두에서 실행할 수 있습니다.
yarn.node-labels.enabled
및 속성을 구성하여 YARN 노드 레이블 기능을 활성화할 수 있습니다yarn.node-labels.am.default-node-label-expression
. 자세한 내용은 프라이머리, 코어 및 태스크 노드 이해를 참조하세요.
알려진 문제
-
이전 AL2 [최신 릴리스에서 수정됨]에 대한 "최대 열기 파일" 제한을 낮춥니다. Amazon EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 Amazon EMR 클러스터가 기본 로 생성될 때 “최대 열린 파일”에 대한 ulimit 설정이 낮은 이전 버전 ofAmazon Linux 2(AL2)를 기반으로 합니다AMI. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 "최대 열린 파일" 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 한도가 낮은 릴리스의 경우 Spark 작업을 제출할 때 'Too many open files' 오류가 발생합니다. 영향을 받는 릴리스에서 Amazon EMR 기본값AMI은 latestAmazon Linux 2의 65536 파일 제한보다 낮은 “최대 열기 파일”에 대해 4096의 기본 ulimit 설정을 갖습니다AMI. '최대 열린 파일'에 대한 더 낮은 ulimit 설정을 사용하면 Spark 드라이버와 실행기가 4,096개가 넘는 파일을 열려고 할 때 Spark 작업이 실패합니다. 문제를 해결하기 위해 AmazonEMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업(BA) 스크립트가 있습니다.
이 문제에 대한 영구 수정이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit을 최대 65536개의 파일로 명시적으로 설정할 수 있습니다.
명령줄에서 ulimit를 명시적으로 설정합니다.
/etc/systemd/system/instance-controller.service
를 편집하여 Service 섹션에 다음 파라미터를 추가합니다.LimitNOFILE=65536
LimitNPROC=65536
다시 시작 InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
부트스트랩 작업(BA)을 사용하여 ulimit 설정
클러스터 생성 시 부트스트랩 작업(BA) 스크립트를 사용하여 instance-controller ulimit를 65,536개 파일로 구성할 수도 있습니다.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
SparkR PySpark및 spark-shell을 포함한 Spark 대화형 쉘은 추가 라이브러리와 함께 Docker 사용을 지원하지 않습니다. SparkR
-
Amazon EMR 버전 6.0.0에서 Python 3을 사용하려면에
PATH
를 추가해야 합니다yarn.nodemanager.env-whitelist
. -
Glue 데이터 카탈로그를 Hive의 AWS 메타스토어로 사용하는 경우 Live Long 및 Process(LLAP) 기능은 지원되지 않습니다.
-
Spark 및 Docker 통합과 함께 Amazon EMR 6.0.0을 사용하는 경우 Docker 런타임으로 Spark 작업을 제출할 때 실패를 방지하려면 클러스터의 인스턴스를 동일한 인스턴스 유형과 동일한 EBS 볼륨으로 구성해야 합니다.
-
Amazon EMR 6.0.0에서 HBase Amazon S3 스토리지 모드는 HBASE-24286
의 영향을 받습니다. 문제. 기존 S3 데이터를 사용하여 클러스터를 생성할 때 HBase 마스터를 초기화할 수 없습니다. -
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자로. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.30.1
다음 릴리스 정보에는 Amazon EMR 릴리스 5.30.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.30.0에 관련됩니다.
최초 릴리스 날짜: 2020년 6월 30일
최종 업데이트 날짜: 2020년 8월 24일
변경 사항, 향상된 기능 및 해결된 문제
최신 Amazon EMR 릴리스는 Amazon의 이전 버전AL2에서 "최대 열린 파일" 제한이 더 낮은 문제를 수정했습니다EMR. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 '최대 열린 파일' 설정이 포함된 영구 수정이 포함됩니다.
인스턴스 컨트롤러 프로세스에서 무한한 수의 프로세스를 생성하는 문제가 수정되었습니다.
Hue에서 Hive 쿼리를 실행할 수 없어서 'database is locked' 메시지를 표시하고 쿼리가 실행되지 않는 문제가 수정되었습니다.
EMR 클러스터에서 더 많은 작업을 동시에 실행할 수 있도록 Spark 문제를 수정했습니다.
Jupyter 서버에서 'too many files open error'를 발생시키는 Jupyter Notebook 문제가 수정되었습니다.
클러스터 시작 시간 관련 문제가 수정되었습니다.
새로운 특성
Tez UI 및 YARN 타임라인 서버 영구 애플리케이션 인터페이스는 Amazon EMR 버전 6.x 및 EMR 버전 5.30.1 이상에서 사용할 수 있습니다. 영구 애플리케이션 기록에 대한 원클릭 링크 액세스를 사용하면 SSH 연결을 통해 웹 프록시를 설정하지 않고도 작업 기록에 빠르게 액세스할 수 있습니다. 활성 클러스터와 종료된 클러스터에 대한 로그는 애플리케이션 종료 후 30일 동안 사용할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 영구 애플리케이션 사용자 인터페이스 보기를 참조하세요.
EMR 노트북 실행APIs은 스크립트 또는 명령줄을 통해 EMR 노트북을 실행하는 데 사용할 수 있습니다. AWS 콘솔 없이 EMR 노트북 실행을 시작, 중지, 나열 및 설명할 수 있으므로 EMR 노트북을 프로그래밍 방식으로 제어할 수 있습니다. 파라미터화된 노트북 셀을 사용하면 새로운 파라미터 값 세트마다 노트북의 복사본을 만들지 않고도 노트북에 다양한 파라미터 값을 전달할 수 있습니다. EMR API 작업을 참조하세요. 샘플 코드는 프로그래밍 방식으로 EMR 노트북을 실행하는 샘플 명령을 참조하세요.
알려진 문제
-
이전 AL2 [최신 릴리스에서 수정됨]에 대한 "최대 열기 파일" 제한을 낮춥니다. Amazon EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 Amazon EMR 클러스터가 기본 로 생성될 때 “최대 열린 파일”에 대한 ulimit 설정이 낮은 이전 버전 ofAmazon Linux 2(AL2)를 기반으로 합니다AMI. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 "최대 열린 파일" 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 한도가 낮은 릴리스의 경우 Spark 작업을 제출할 때 'Too many open files' 오류가 발생합니다. 영향을 받는 릴리스에서 Amazon EMR 기본값AMI은 latestAmazon Linux 2의 65536 파일 제한보다 낮은 “최대 열기 파일”에 대해 4096의 기본 ulimit 설정을 갖습니다AMI. '최대 열린 파일'에 대한 더 낮은 ulimit 설정을 사용하면 Spark 드라이버와 실행기가 4,096개가 넘는 파일을 열려고 할 때 Spark 작업이 실패합니다. 문제를 해결하기 위해 AmazonEMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업(BA) 스크립트가 있습니다.
이 문제에 대한 영구 수정이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit을 최대 65536개의 파일로 명시적으로 설정할 수 있습니다.
명령줄에서 ulimit를 명시적으로 설정합니다.
/etc/systemd/system/instance-controller.service
를 편집하여 Service 섹션에 다음 파라미터를 추가합니다.LimitNOFILE=65536
LimitNPROC=65536
다시 시작 InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
부트스트랩 작업(BA)을 사용하여 ulimit 설정
클러스터 생성 시 부트스트랩 작업(BA) 스크립트를 사용하여 instance-controller ulimit를 65,536개 파일로 구성할 수도 있습니다.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
EMR 노트북
클러스터 기본 노드에 커널 및 추가 Python 라이브러리를 설치할 수 있는 기능은 EMR 버전 5.30.1에서 기본적으로 비활성화되어 있습니다. 이 기능에 대한 자세한 내용은 클러스터 프라이머리 노드에 커널 및 Python 라이브러리 설치를 참조하세요.
이 기능을 활성화하려면 다음을 수행합니다.
EMR Notebooks의 서비스 역할에 연결된 권한 정책이 다음 작업을 허용하는지 확인합니다.
elasticmapreduce:ListSteps
자세한 내용은 EMR 노트북의 서비스 역할을 참조하세요.
AWS CLI 를 사용하여 다음 예제와 같이 EMR 노트북을 설정하는 클러스터에서 단계를 실행합니다. 를 클러스터가 있는 리전
us-east-1
으로 바꿉니다. 자세한 내용은 AWS CLI를 사용하여 클러스터에 단계 추가를 참조하세요.aws emr add-steps --cluster-id
MyClusterID
--steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1
.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
-
Managed Scaling
Presto가 설치되지 않은 5.30.0 및 5.30.1 클러스터에서 Managed Scaling을 수행하면 애플리케이션 장애가 발생하거나 균일한 인스턴스 그룹 또는 인스턴스 플릿이
ARRESTED
상태로 유지될 수 있습니다. 특히 스케일 다운 작업 이후 바로 스케일 업 작업이 수행되는 경우가 이에 해당합니다.작업에서 Presto가 필요하지 않더라도 Amazon EMR 릴리스 5.30.0 및 5.30.1을 사용하여 클러스터를 생성할 때 설치할 애플리케이션으로 Presto를 선택합니다.
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자로. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는
/
문자(U+002F)보다 작은 UTF-8 값을 갖습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
릴리스 5.30.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.30.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.29.0에 관련됩니다.
최초 릴리스 날짜: 2020년 5월 13일
최종 업데이트 날짜: 2020년 6월 25일
업그레이드
버전 1.11.759 AWS SDK for Java 로 업그레이드됨
Amazon SageMaker Spark를 버전 1.3.0SDK으로 업그레이드
EMR 레코드 서버를 버전 1.6.0으로 업그레이드
Flink가 버전 1.10.0으로 업그레이드됨
Ganglia가 버전 3.7.2로 업그레이드됨
버전 1.4.13HBase로 업그레이드됨
Hudi가 버전 0.5.2-incubating으로 업그레이드됨
Hue가 버전 4.6.0으로 업그레이드됨
버전 1.1.0 JupyterHub 으로 업그레이드됨
Livy가 버전 0.7.0-incubating으로 업그레이드됨
Oozie가 버전 5.2.0으로 업그레이드됨
Presto가 버전 0.232로 업그레이드됨
Spark가 버전 2.4.5로 업그레이드됨
업그레이드된 커넥터 및 드라이버: Amazon Glue 커넥터 1.12.0, Amazon Kinesis 커넥터 3.5.0, EMR DynamoDB 커넥터 4.14.0
새로운 특성
EMR 노트북 - 5.30.0을 사용하여 생성된 EMR 클러스터와 함께 사용하는 경우 EMR 노트북 커널은 클러스터에서 실행됩니다. 이로써 노트북 성능이 향상되며, 커널을 설치하고 사용자 지정할 수 있습니다. 클러스터 프라이머리 노드에 Python 라이브러리를 설치할 수도 있습니다. 자세한 내용은 EMR 관리 안내서의 커널 및 라이브러리 설치 및 사용을 참조하세요.
관리형 조정 - Amazon EMR 버전 5.30.0 이상을 사용하면 EMR 관리형 조정을 활성화하여 워크로드에 따라 클러스터의 인스턴스 또는 유닛 수를 자동으로 늘리거나 줄일 수 있습니다. Amazon은 클러스터 지표를 EMR 지속적으로 평가하여 비용 및 속도에 맞게 클러스터를 최적화하는 규모 조정 결정을 내립니다. 자세한 내용은 Amazon EMR 관리 안내서의 클러스터 리소스 조정을 참조하세요.
Amazon S3에 저장된 로그 파일 암호화 - Amazon EMR 버전 5.30.0 이상에서는 AWS KMS 고객 관리형 키를 사용하여 Amazon S3에 저장된 로그 파일을 암호화할 수 있습니다. 자세한 내용은 Amazon 관리 안내서의 Amazon S3에 저장된 로그 파일 암호화를 참조하세요. EMR
Amazon Linux 2 지원 - EMR 버전 5.30.0 이상에서 EMR usesAmazon Linux 2 OS. 새 사용자 지정AMIs(Amazon Machine Image)은 theAmazon Linux 2를 기반으로 해야 합니다AMI. 자세한 내용은 사용자 지정 사용을 참조하세요AMI.
Presto Graceful Auto Scale - 5.30.0을 사용하는 EMR 클러스터는 노드가 폐기되기 전에 Presto 작업 실행을 완료할 시간을 부여하는 Auto Scaling 제한 시간으로 설정할 수 있습니다. 자세한 내용은 단계적 서비스 해제 기능이 있는 자동 조정 사용 단원을 참조하십시오.
새 할당 전략 옵션을 사용한 플릿 인스턴스 생성 - 새 할당 전략 옵션은 EMR 버전 5.12.1 이상에서 사용할 수 있습니다. 이를 통해 클러스터 프로비저닝 속도가 빨라지고 스팟 할당이 더 정확해지며 스팟 인스턴스 중단이 줄어듭니다. 기본이 아닌 EMR 서비스 역할에 대한 업데이트가 필요합니다. 인스턴스 플릿 구성을 참조하세요.
sudo systemctl stop and sudo systemctl start 명령 - useAmazon Linux 2 OS EMR 버전 5.30.0 이상에서는
sudo systemctl stop
및sudo systemctl start
명령을 EMR 사용하여 서비스를 다시 시작합니다. 자세한 내용은 Amazon에서 서비스를 다시 시작하려면 어떻게 해야 합니까EMR?를참조하세요.
변경 사항, 향상된 기능 및 해결된 문제
EMR 버전 5.30.0은 기본적으로 Ganglia를 설치하지 않습니다. 클러스터 생성 시 Ganglia를 설치하도록 명시적으로 선택할 수 있습니다.
Spark 성능 최적화
Presto 성능 최적화
Python 3은 Amazon EMR 버전 5.30.0 이상의 기본값입니다.
프라이빗 서브넷의 서비스 액세스에 대한 기본 관리형 보안 그룹이 새 규칙으로 업데이트되었습니다. 서비스 액세스에 대한 사용자 지정 보안 그룹을 사용하는 경우, 기본 관리형 보안 그룹과 동일한 규칙을 포함시켜야 합니다. 자세한 내용은 Amazon EMR-Managed Security Group for Service Access(프라이빗 서브넷)를 참조하세요. Amazon에 대한 사용자 지정 서비스 역할을 사용하는 경우 EMR가 보안 그룹이 올바르게 생성되었는지 검증할 EMR 수
ec2:describeSecurityGroups
있도록에 권한을 부여해야 합니다.EMR_DefaultRole
을 사용하는 경우 이 권한은 이미 기본 관리형 정책에 포함되어 있습니다.
알려진 문제
-
이전 AL2 [최신 릴리스에서 수정됨]에 대한 "최대 열기 파일" 제한을 낮춥니다. Amazon EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 Amazon EMR 클러스터가 기본 로 생성될 때 “최대 열린 파일”에 대한 ulimit 설정이 낮은 이전 버전 ofAmazon Linux 2(AL2)를 기반으로 합니다AMI. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 "최대 열린 파일" 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 한도가 낮은 릴리스의 경우 Spark 작업을 제출할 때 'Too many open files' 오류가 발생합니다. 영향을 받는 릴리스에서 Amazon EMR 기본값AMI은 latestAmazon Linux 2의 65536 파일 제한보다 낮은 “최대 열기 파일”에 대해 4096의 기본 ulimit 설정을 갖습니다AMI. '최대 열린 파일'에 대한 더 낮은 ulimit 설정을 사용하면 Spark 드라이버와 실행기가 4,096개가 넘는 파일을 열려고 할 때 Spark 작업이 실패합니다. 문제를 해결하기 위해 AmazonEMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업(BA) 스크립트가 있습니다.
이 문제에 대한 영구 수정이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit을 최대 65536개의 파일로 명시적으로 설정할 수 있습니다.
명령줄에서 ulimit를 명시적으로 설정합니다.
/etc/systemd/system/instance-controller.service
를 편집하여 Service 섹션에 다음 파라미터를 추가합니다.LimitNOFILE=65536
LimitNPROC=65536
다시 시작 InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
부트스트랩 작업(BA)을 사용하여 ulimit 설정
클러스터 생성 시 부트스트랩 작업(BA) 스크립트를 사용하여 instance-controller ulimit를 65,536개 파일로 구성할 수도 있습니다.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
Managed Scaling
Presto가 설치되지 않은 5.30.0 및 5.30.1 클러스터에서 Managed Scaling을 수행하면 애플리케이션 장애가 발생하거나 균일한 인스턴스 그룹 또는 인스턴스 플릿이
ARRESTED
상태로 유지될 수 있습니다. 특히 스케일 다운 작업 이후 바로 스케일 업 작업이 수행되는 경우가 이에 해당합니다.작업에서 Presto가 필요하지 않더라도 Amazon EMR 릴리스 5.30.0 및 5.30.1을 사용하여 클러스터를 생성할 때 설치할 애플리케이션으로 Presto를 선택합니다.
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자입니다. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
Hue 4.6.0의 기본 데이터베이스 엔진은 이며SQLite, 외부 데이터베이스에서 Hue를 사용하려고 할 때 문제가 발생합니다. 이 문제를 해결하려면
hue-ini
구성 분류에서engine
을mysql
로 설정합니다. 이 문제는 Amazon EMR 버전 5.30.1에서 수정되었습니다.Spark with Hive 파티션 위치 형식을 사용하여 Amazon S3에서 데이터를 읽고 Amazon EMR 릴리스 5.30.0~5.36.0 및 6.2.0~6.9.0에서 Spark를 실행하면 클러스터가 데이터를 올바르게 읽지 못하는 문제가 발생할 수 있습니다. 파티션에 다음과 같은 특성이 모두 있는 경우 이러한 상황이 발생할 수 있습니다.
-
둘 이상의 파티션이 동일한 테이블에서 스캔됩니다.
-
하나 이상의 파티션 디렉터리 경로가 하나 이상의 다른 파티션 디렉터리 경로의 접두사입니다. 예를 들어
s3://bucket/table/p=a
는s3://bucket/table/p=a b
의 접두사입니다. -
다른 파티션 디렉터리의 접두사 뒤에 오는 첫 번째 문자는 UTF-8 값이
/
문자(U+002F)보다 작습니다. 예를 들어s3://bucket/table/p=a b
에서 a와 b 사이에 있는 공백 문자(U+0020)가 이 카테고리에 속합니다.!"#$%&‘()*+,-
와 같은 14개의 비제어 문자가 있습니다. 자세한 내용은 UTF-8 인코딩 테이블 및 유니코드 문자를 참조하세요.
이 문제를 해결하려면
spark-defaults
분류에서spark.sql.sources.fastS3PartitionDiscovery.enabled
구성을false
로 설정합니다.-
릴리스 5.29.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.29.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.28.1에 관련됩니다.
최초 릴리스 날짜: 2020년 1월 17일
업그레이드
버전 1.11.682 AWS SDK for Java 로 업그레이드됨
Hive가 버전 2.3.6으로 업그레이드됨
Flink가 버전 1.9.1로 업그레이드됨
EmrFS가 버전 2.38.0으로 업그레이드됨
EMR DynamoDB 커넥터를 버전 4.13.0으로 업그레이드
변경 사항, 향상된 기능 및 해결된 문제
Spark
Spark 성능 최적화
EMRFS
일관된 보기를 위해 관리 안내서에서 emrfs-site.xml 기본 설정이 업데이트됩니다.
알려진 문제
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자입니다. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.28.1
다음 릴리스 정보에는 Amazon EMR 릴리스 5.28.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.28.0에 관련됩니다.
최초 릴리스 날짜: 2020년 1월 10일
변경 사항, 향상된 기능 및 해결된 문제
Spark
Spark 호환성 문제를 수정했습니다.
CloudWatch 지표
여러 프라이머리 노드가 있는 EMR 클러스터에 게시하는 Amazon CloudWatch Metrics를 수정했습니다.
로그 메시지 비활성화
false 로그 메시지 "이전 버전(<4.5.8)의 Apache http 클라이언트를 사용..."을 비활성화했습니다.
알려진 문제
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자입니다. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.28.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.28.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.27.0에 관련됩니다.
최초 릴리스 날짜: 2019년 11월 12일
업그레이드
Flink가 버전 1.9.0으로 업그레이드됨
Hive가 버전 2.3.6으로 업그레이드됨
버전 1.5.1MXNet로 업그레이드됨
Phoenix가 버전 4.14.3으로 업그레이드됨
Presto가 버전 0.227로 업그레이드됨
Zeppelin이 버전 0.8.2로 업그레이드됨
새로운 특성
이제 클러스터를 생성할 때 Amazon에서 Apache Hudi
EMR를 설치할 수 있습니다. 자세한 내용은 Hudi 단원을 참조하십시오. (2019년 11월 25일) 이제 클러스터 사용률을 개선하고 비용을 절감하기 위해 여러 단계를 병렬로 실행하도록 선택할 수 있습니다. 대기 중인 단계와 실행 중인 단계를 모두 취소할 수도 있습니다. 자세한 내용은 AWS CLI 및 콘솔을 사용하여 단계 작업을 참조하세요.
(2019년 12월 3일) 이제 온프레미스 시설에서 네이티브 AWS 서비스, 인프라 및 운영 모델을 활성화하여 EMR 클러스터를 생성하고 실행할 수 AWS Outposts AWS Outposts 있습니다. AWS Outposts 환경에서는 AWS 클라우드에서 사용하는 것과 동일한 AWS APIs도구 및 인프라를 사용할 수 있습니다. 자세한 내용은 EMR의 클러스터를 참조하세요 AWS Outposts.
(2020년 3월 11일) Amazon EMR 버전 5.28.0부터 AWS 로컬 영역을 지원하는 AWS 리전의 논리적 확장으로 로컬 영역 서브넷에서 Amazon EMR 클러스터를 생성하고 실행할 수 있습니다. Local Zone을 사용하면 Amazon EMR 기능과 컴퓨팅 및 스토리지 AWS 서비스와 같은 서비스 하위 집합을 사용자에게 더 가깝게 배치하여 로컬에서 실행되는 애플리케이션에 대한 지연 시간이 매우 짧은 액세스를 제공할 수 있습니다. 사용 가능한 로컬 영역 목록은 AWS Local Zones
를 참조하세요. 사용 가능한 AWS 로컬 영역에 액세스하는 방법에 대한 자세한 내용은 리전, 가용 영역 및 로컬 영역을 참조하세요. 로컬 영역은 현재 Amazon EMR Notebooks를 지원하지 않으며 인터페이스 VPC 엔드포인트()를 EMR 사용하여 Amazon에 직접 연결할 수 없습니다AWS PrivateLink.
변경 사항, 향상된 기능 및 해결된 문제
고가용성 클러스터에 대해 확장된 애플리케이션 지원
자세한 내용은 Amazon EMR 관리 안내서의 여러 기본 노드가 있는 EMR 클러스터에서 지원되는 애플리케이션을 참조하세요.
Spark
성능 최적화
Hive
성능 최적화
Presto
성능 최적화
알려진 문제
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자입니다. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.27.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.27.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.26.0에 관련됩니다.
최초 릴리스 날짜: 2019년 9월 23일
업그레이드
AWS SDK for Java 1.11.615
Flink 1.8.1
JupyterHub 1.0.0
Spark 2.4.4
TensorFlow 1.14.0
-
커넥터 및 드라이버:
DynamoDB 커넥터 4.12.0
새로운 특성
(2019년 10월 24일) EMR 노트북의 다음과 같은 새로운 기능은 모든 Amazon EMR 릴리스에서 사용할 수 있습니다.
이제 Git 리포지토리를 EMR 노트북과 연결하여 노트북을 버전 관리 환경에 저장할 수 있습니다. 원격 Git 리포지토리를 통해 동료와 코드를 공유할 수 있고 기존 Jupyter Notebook을 재사용할 수 있습니다. 자세한 내용은 Amazon 관리 안내서의 Git 리포지토리를 Amazon EMR 노트북과 연결을 참조하세요. EMR
이제 EMR 노트북에서 nbdime 유틸리티
를 사용하여 노트북 비교 및 병합을 간소화할 수 있습니다. EMR 노트북은 이제를 지원합니다 JupyterLab. JupyterLab 는 Jupyter 노트북과 완벽하게 호환되는 웹 기반 대화형 개발 환경입니다. 이제 JupyterLab 또는 Jupyter 노트북 편집기에서 노트북을 열도록 선택할 수 있습니다.
(2019년 10월 30일) Amazon EMR 버전 5.25.0 이상에서는 클러스터 요약 페이지 또는 콘솔의 애플리케이션 기록 탭에서 Spark 기록 서버 UI에 연결할 수 있습니다. SSH 연결을 통해 웹 프록시를 설정하는 대신 Spark 기록 서버 UI에 빠르게 액세스하여 애플리케이션 지표를 보고 활성 및 종료된 클러스터에 대한 관련 로그 파일에 액세스할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 클러스터 외부에서 영구 애플리케이션 사용자 인터페이스에 대한 액세스를 참조하세요.
변경 사항, 향상된 기능 및 해결된 문제
-
여러 프라이머리 노드가 있는 Amazon EMR 클러스터
-
여러 프라이머리 노드가 있는 Amazon EMR 클러스터에 Flink를 설치하고 실행할 수 있습니다. 자세한 내용은 지원되는 애플리케이션 및 기능을 참조하세요.
-
여러 프라이머리 노드가 있는 Amazon EMR 클러스터에서 HDFS 투명한 암호화를 구성할 수 있습니다. 자세한 내용은 HDFS 여러 기본 노드가 있는 EMR 클러스터의 투명 암호화를 참조하세요.
-
이제 여러 프라이머리 노드가 있는 Amazon EMR 클러스터에서 실행되는 애플리케이션의 구성을 수정할 수 있습니다. 자세한 내용은 실행 중 클러스터의 인스턴스 그룹에 대해 구성 제공을 참조하십시오.
-
-
Amazon EMR-DynamoDB 커넥터
-
Amazon EMR-DynamoDB 커넥터는 이제 부울, 목록, 맵, 항목, null과 같은 DynamoDB 데이터 유형을 지원합니다. 자세한 정보는 Hive 테이블을 설정하여 Hive 명령 실행을 참조하십시오.
-
알려진 문제
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자입니다. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
Release 5.26.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.26.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.25.0에 관련됩니다.
최초 릴리스 날짜: 2019년 8월 8일
최종 업데이트 날짜: 2019년 8월 19일
업그레이드
AWS SDK for Java 1.11.595
HBase 1.4.10
Phoenix 4.14.2
-
커넥터 및 드라이버:
DynamoDB 커넥터 4.11.0
MariaDB 커넥터 2.4.2
Amazon Redshift JDBC 드라이버 1.2.32.1056
새로운 특성
(베타) Amazon EMR 5.26.0을 사용하면 Lake Formation과 통합되는 클러스터를 시작할 수 있습니다. 이 통합은 AWS Glue 데이터 카탈로그의 데이터베이스 및 테이블에 대한 세분화된 열 수준 액세스를 제공합니다. 또한 엔터프라이즈 자격 증명 시스템에서 EMR 노트북 또는 Apache Zeppelin에 대한 페더레이션 Single Sign-On을 활성화합니다. 자세한 내용은 Amazon과 Integrating Amazon EMR with AWS Lake Formation (베타)를 참조하세요.
(2019년 8월 19일) 이제 보안 그룹을 지원하는 모든 Amazon EMR 릴리스에서 Amazon 퍼블릭 액세스 EMR 차단을 사용할 수 있습니다. 퍼블릭 액세스 차단은 각 AWS 리전에 적용되는 계정 전체 설정입니다. 퍼블릭 액세스 차단은 포트가 예외로 지정되지 않는 한 클러스터와 연결된 보안 그룹에 포트의 IPv40.0.0.0/0 또는 IPv6 ::/0(퍼블릭 액세스)의 인바운드 트래픽을 허용하는 규칙이 있는 경우 클러스터가 시작되지 않도록 합니다. 포트 22는 기본적으로 예외로 설정됩니다. 자세한 내용은 Amazon 관리 안내서의 Amazon 퍼블릭 액세스 EMR 차단 사용을 참조하세요. EMR
변경 사항, 향상된 기능 및 해결된 문제
-
EMR 노트북
-
EMR 5.26.0 이상에서는 EMR Notebooks가 기본 Python 라이브러리 외에도 노트북 범위 Python 라이브러리를 지원합니다. 클러스터를 다시 생성하거나 노트북을 클러스터에 다시 연결할 필요 없이 노트북 편집기 내에서 노트북 범위 라이브러리를 설치할 수 있습니다. 노트북 범위의 라이브러리는 Python 가상 환경에서 생성되므로 현재 노트북 세션에만 적용됩니다. 이를 통해 노트북 종속성을 분리할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 노트북 범위 라이브러리 사용을 참조하세요.
-
-
EMRFS
-
를 로 설정하여 ETag 확인 기능(베타)을 활성화
fs.s3.consistent.metadata.etag.verification.enabled
할 수 있습니다true
. 이 기능을 사용하면는 Amazon S3ETags를 EMRFS 사용하여 읽는 객체가 사용 가능한 최신 버전인지 확인합니다. 이 기능은 동일한 이름을 유지하면서 Amazon S3의 파일을 덮어쓰는 사용 사례에 유용합니다 read-after-update. 이 ETag 확인 기능은 현재 S3 Select에서 작동하지 않습니다. 자세한 내용은 일관된 보기 구성 단원을 참조하십시오.
-
Spark
이제 기본적으로 동적 파티션 정리, DISTINCT 이전INTERSECT, JOIN에 이어 DISTINCT 쿼리에 대한 SQL 계획 통계 추론 개선, 스칼라 하위 쿼리 평면화, 최적화된 조인 재정렬, 블룸 필터 조인 최적화가 활성화됩니다. 자세한 내용은 Spark 성능 최적화를 참조하십시오.
정렬 병합 조인의 전체 스테이지 코드 생성 기능이 개선되었습니다.
쿼리 조각 및 하위 쿼리 재사용이 개선되었습니다.
Spark 시작 시 실행기를 사전 할당하도록 개선되었습니다.
조인의 작은 쪽에 브로드캐스트 힌트가 포함되어 있으면 블룸 필터 조인이 더 이상 적용되지 않습니다.
-
Tez의 Hive 실행 시간 비교
-
Tez 관련 문제를 해결했습니다. 이제 Tez UI가 여러 프라이머리 노드가 있는 Amazon EMR 클러스터에서 작동합니다.
-
알려진 문제
-
정렬 병합 조인에 대한 향상된 전체 스테이지 코드 생성 기능을 사용하면 메모리 압력을 높일 수 있습니다. 이 최적화는 성능을 향상시키지만
spark.yarn.executor.memoryOverheadFactor
가 충분한 메모리를 제공하도록 조정되지 않은 경우 작업 재시도 또는 실패를 초래할 수 있습니다. 이 기능을 비활성화하려면spark.sql.sortMergeJoinExec.extendedCodegen.enabled
를 false로 설정하십시오. -
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자입니다. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.25.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.25.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.24.1에 관련됩니다.
최초 릴리스 날짜: 2019년 7월 17일
최종 업데이트 날짜: 2019년 10월 30일
Amazon EMR 5.25.0
업그레이드
AWS SDK for Java 1.11.566
Hive 2.3.5
Presto 0.220
Spark 2.4.3
TensorFlow 1.13.1
Tez 0.9.2
Zookeeper 3.4.14
새로운 특성
(2019년 10월 30일) Amazon EMR 버전 5.25.0부터 클러스터 요약 페이지 또는 콘솔의 애플리케이션 기록 탭에서 Spark 기록 서버 UI에 연결할 수 있습니다. SSH 연결을 통해 웹 프록시를 설정하는 대신 Spark 기록 서버 UI에 빠르게 액세스하여 애플리케이션 지표를 보고 활성 및 종료된 클러스터에 대한 관련 로그 파일에 액세스할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 클러스터 외부에서 영구 애플리케이션 사용자 인터페이스에 대한 액세스를 참조하세요.
변경 사항, 향상된 기능 및 해결된 문제
-
Spark
Bloom 필터로 입력을 사전 필터링하여 일부 조인의 성능을 개선했습니다. 이 최적화는 기본적으로 비활성화되어 있으며, Spark 구성 파라미터
spark.sql.bloomFilterJoin.enabled
를true
로 설정하여 활성화할 수 있습니다.문자열 형식 열을 기준으로 그룹화하는 성능을 개선했습니다.
-
HBase 설치되지 않은 클러스터에 대한 R4 인스턴스 유형의 기본 Spark 실행기 메모리 및 코어 구성을 개선했습니다.
잘린 테이블이 조인의 왼쪽에 있어야 하는 이전의 동적 파티션 잘라내기 기능에 대한 문제를 해결했습니다.
INTERSECT 최적화 DISTINCT 전에 별칭과 관련된 추가 사례에 적용하도록 개선되었습니다.
-
다음에 DISTINCT 쿼리가 JOIN 오는에 대한 SQL 계획 통계 추론을 개선했습니다. 이 개선 사항은 기본적으로 비활성화되어 있으며, Spark 구성 파라미터
spark.sql.statsImprovements.enabled
를true
로 설정하여 활성화할 수 있습니다. 이 최적화는 Intersect 이전 Distinct 기능에 필요하며spark.sql.optimizer.distinctBeforeIntersect.enabled
를true
로 설정할 경우 자동으로 활성화됩니다. 테이블 크기 및 필터에 따라 조인 순서를 최적화했습니다. 이 최적화는 기본적으로 비활성화되어 있으며, Spark 구성 파라미터
spark.sql.optimizer.sizeBasedJoinReorder.enabled
를true
로 설정하여 활성화할 수 있습니다.
자세한 내용은 Spark 성능 최적화를 참조하십시오.
-
EMRFS
-
이제 EMRFS 설정
fs.s3.buckets.create.enabled
가 기본적으로 비활성화됩니다. 테스트 결과 이 설정을 비활성화하면 성능이 향상되고 의도치 않은 S3 버킷 생성이 방지된다는 사실을 확인했습니다. 애플리케이션이 이 기능을 사용하는 경우emrfs-site
구성 분류에서 속성fs.s3.buckets.create.enabled
를true
로 설정하여 활성화할 수 있습니다. 자세한 내용은 클러스터를 생성할 때 구성 제공 단원을 참조하십시오.
-
보안 구성의 로컬 디스크 암호화 및 S3 암호화 개선(2019년 8월 5일)
보안 구성 설정에서 로컬 디스크 암호화 설정과 Amazon S3 암호화 설정이 분리되었습니다.
릴리스 5.24.0 이상에서 EBS 암호화를 활성화하는 옵션을 추가했습니다. 이 옵션을 선택하면 스토리지 볼륨뿐만 아니라 루트 디바이스 볼륨도 암호화됩니다. 이전 버전에서는 루트 디바이스 볼륨을 암호화AMI하기 위해 사용자 지정을 사용해야 합니다.
자세한 내용은 Amazon EMR 관리 안내서의 암호화 옵션을 참조하세요.
알려진 문제
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자입니다. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.24.1
다음 릴리스 정보에는 Amazon EMR 릴리스 5.24.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.24.0에 관련됩니다.
최초 릴리스 날짜: 2019년 6월 26일
변경 사항, 향상된 기능 및 해결된 문제
서비스 TCP SACK 거부 문제(AWS-2019-005
)EMR를 포함하여 중요한 Linux 커널 보안 업데이트를 포함하도록 AmazonAMI용 기본 Amazon Linux를 업데이트했습니다.
알려진 문제
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자입니다. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.24.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.24.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.23.0에 관련됩니다.
최초 릴리스 날짜: 2019년 6월 11일
최종 업데이트 날짜: 2019년 8월 5일
업그레이드
Flink 1.8.0
Hue 4.4.0
JupyterHub 0.9.6
Livy 0.6.0
MxNet 1.4.0
Presto 0.219
Spark 2.4.2
AWS SDK for Java 1.11.546
-
커넥터 및 드라이버:
DynamoDB 커넥터 4.9.0
MariaDB 커넥터 2.4.1
Amazon Redshift JDBC 드라이버 1.2.27.1051
변경 사항, 향상된 기능 및 해결된 문제
Spark
파티션을 동적으로 삭제하는 최적화가 추가되었습니다. 최적화는 기본적으로 비활성화되어 있습니다. 활성화하려면 Spark 구성 파라미터
spark.sql.dynamicPartitionPruning.enabled
를true
로 설정하십시오.INTERSECT
쿼리의 성능을 개선했습니다. 이 최적화는 기본적으로 비활성화되어 있습니다. 활성화하려면 Spark 구성 파라미터spark.sql.optimizer.distinctBeforeIntersect.enabled
를true
로 설정하십시오.동일한 관계를 사용하는 집계로 스칼라 하위 쿼리를 평면화하는 최적화가 추가되었습니다. 최적화는 기본적으로 비활성화되어 있습니다. 활성화하려면 Spark 구성 파라미터
spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled
를true
로 설정하십시오.전체 스테이지 코드 생성이 개선되었습니다.
자세한 내용은 Spark 성능 최적화를 참조하십시오.
보안 구성의 로컬 디스크 암호화 및 S3 암호화 개선(2019년 8월 5일)
보안 구성 설정에서 로컬 디스크 암호화 설정과 Amazon S3 암호화 설정이 분리되었습니다.
EBS 암호화를 활성화하는 옵션을 추가했습니다. 이 옵션을 선택하면 스토리지 볼륨뿐만 아니라 루트 디바이스 볼륨도 암호화됩니다. 이전 버전에서는 루트 디바이스 볼륨을 암호화AMI하기 위해 사용자 지정을 사용해야 합니다.
자세한 내용은 Amazon EMR 관리 안내서의 암호화 옵션을 참조하세요.
알려진 문제
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자로. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.23.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.23.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.22.0에 관련됩니다.
최초 릴리스 날짜: 2019년 4월 1일
최종 업데이트 날짜: 2019년 4월 30일
업그레이드
AWS SDK for Java 1.11.519
새로운 특성
(2019년 4월 30일) Amazon EMR 5.23.0 이상에서는 YARN Resource Manager, , HDFS NameNodeSpark, Hive, Ganglia와 같은 애플리케이션의 고가용성을 지원하기 위해 세 개의 기본 노드로 클러스터를 시작할 수 있습니다. 이 기능을 사용하면 프라이머리 노드가 더 이상 잠재적 단일 장애 지점이 아닙니다. 기본 노드 중 하나가 실패하면 Amazon은 EMR 자동으로 대기 기본 노드로 장애 조치하고 장애 조치된 기본 노드를 동일한 구성 및 부트스트랩 작업의 새 노드로 바꿉니다. 자세한 내용은 프라이머리 노드 계획 및 구성을 참조하세요.
알려진 문제
-
Tez UI(Amazon EMR 릴리스 5.26.0에서 수정됨)
Tez UI는 여러 프라이머리 노드가 있는 EMR 클러스터에서는 작동하지 않습니다.
-
Hue(Amazon EMR 릴리스 5.24.0에서 수정됨)
-
Amazon에서 실행되는 HueEMR는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 무해한 오류 메시지가 다음과 유사하게 표시됩니다.
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Solr 오류 메시지를 표시하지 않으려면
를 사용하여 기본 노드 명령줄에 연결합니다SSH.
텍스트 편집기를 사용하여
hue.ini
파일을 엽니다. 예제:sudo vim /etc/hue/conf/hue.ini
appblacklist
라는 단어를 검색하고 해당 줄을 다음과 같이 수정합니다.appblacklist = search
변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.
sudo stop hue; sudo start hue
-
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자로. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.22.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.22.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.21.0에 관련됩니다.
중요
Amazon EMR 릴리스 5.22.0부터 Amazon은 Amazon S3에 대한 요청을 인증하기 위해 AWS 서명 버전 4만 EMR 사용합니다. 이전 Amazon EMR 릴리스는 경우에 따라 AWS 서명 버전 4만 사용됨을 릴리스 정보에 명시하지 않는 한 서명 버전 2를 사용합니다. 자세한 내용은 Amazon Simple Storage Service 개발자 안내서의 요청 인증(AWS 서명 버전 4) 및 요청 인증(AWS 서명 버전 2)을 참조하세요.
최초 릴리스 날짜: 2019년 3월 20일
업그레이드
Flink 1.7.1
HBase 1.4.9
Oozie 5.1.0
Phoenix 4.14.1
Zeppelin 0.8.1
-
커넥터 및 드라이버:
DynamoDB 커넥터 4.8.0
MariaDB Connector 2.2.6
Amazon Redshift JDBC 드라이버 1.2.20.1043
새로운 특성
EBS전용 스토리지가 있는 EC2 인스턴스 유형에 대한 기본 EBS 구성을 수정했습니다. Amazon EMR 릴리스 5.22.0 이상을 사용하여 클러스터를 생성하면 인스턴스 크기에 따라 기본 EBS 스토리지 양이 증가합니다. 또한 증가된 스토리지를 여러 볼륨으로 분할하여 IOPS 성능을 높였습니다. 다른 EBS 인스턴스 스토리지 구성을 사용하려면 EMR 클러스터를 생성하거나 기존 클러스터에 노드를 추가할 때 지정할 수 있습니다. 각 인스턴스 유형에 기본적으로 할당된 스토리지 양과 볼륨 수에 대한 자세한 내용은 Amazon EMR 관리 안내서의 인스턴스용 기본 EBS 스토리지를 참조하세요.
변경 사항, 향상된 기능 및 해결된 문제
Spark
YARN,에서 Spark에 대한 새 구성 속성을 도입했습니다
spark.yarn.executor.memoryOverheadFactor
. 이 속성의 값은 최소 384MB의 메모리 오버헤드 값을 실행기 메모리의 백분율로 설정하는 확장 팩터입니다. 메모리 오버헤드가spark.yarn.executor.memoryOverhead
를 사용하여 명시적으로 설정된 경우 이 속성은 아무 효과가 없습니다. 기본값은 18.75%를 나타내는0.1875
입니다. Amazon의이 기본값은 Spark에서 내부적으로 설정한 10% 기본값보다 실행기 메모리 오버헤드에 대한 YARN 컨테이너에 더 많은 공간을 EMR 남겨 둡니다. Amazon EMR 기본값인 18.75%는 TPC-DS 벤치마크에서 메모리 관련 장애가 더 적게 나타났습니다.성능을 개선하기 위해 SPARK-26316
을 백포트했습니다.
Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서는 YARN 노드 레이블이 HDFS 디렉터리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터이 문제가 해결됩니다. YARN 노드 레이블은에 대한 종속성을 방지하기 위해 각 클러스터 노드의 로컬 디스크에 저장됩니다HDFS.
알려진 문제
-
Hue(Amazon EMR 릴리스 5.24.0에서 수정됨)
-
Amazon에서 실행되는 HueEMR는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 무해한 오류 메시지가 다음과 유사하게 표시됩니다.
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Solr 오류 메시지를 표시하지 않으려면
를 사용하여 기본 노드 명령줄에 연결합니다SSH.
텍스트 편집기를 사용하여
hue.ini
파일을 엽니다. 예제:sudo vim /etc/hue/conf/hue.ini
appblacklist
라는 단어를 검색하고 해당 줄을 다음과 같이 수정합니다.appblacklist = search
변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.
sudo stop hue; sudo start hue
-
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자로. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.21.1
다음 릴리스 정보에는 Amazon EMR 릴리스 5.21.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.21.0에 관련됩니다.
최초 릴리스 날짜: 2019년 7월 18일
변경 사항, 향상된 기능 및 해결된 문제
서비스 TCP SACK 거부 문제(AWS-2019-005
)EMR를 포함하여 중요한 Linux 커널 보안 업데이트를 포함하도록 AmazonAMI용 기본 Amazon Linux를 업데이트했습니다.
알려진 문제
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자로. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.21.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.21.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.20.0에 관련됩니다.
최초 릴리스 날짜: 2019년 2월 18일
최종 업데이트 날짜: 2019년 4월 3일
업그레이드
Flink 1.7.0
Presto 0.215
AWS SDK for Java 1.11.479
새로운 특성
(2019년 4월 3일) Amazon EMR 버전 5.21.0 이상을 사용하면 클러스터 구성을 재정의하고 실행 중인 클러스터의 각 인스턴스 그룹에 대해 추가 구성 분류를 지정할 수 있습니다. Amazon EMR 콘솔, AWS Command Line Interface (AWS CLI) 또는를 사용하여이 작업을 수행합니다 AWS SDK. 자세한 내용은 실행 중 클러스터의 인스턴스 그룹에 대해 구성 제공을 참조하십시오.
변경 사항, 향상된 기능 및 해결된 문제
-
Zeppelin
-
ZEPPELIN-3878
백포트.
-
알려진 문제
-
Hue(Amazon EMR 릴리스 5.24.0에서 수정됨)
-
Amazon에서 실행되는 HueEMR는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 무해한 오류 메시지가 다음과 유사하게 표시됩니다.
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Solr 오류 메시지를 표시하지 않으려면
를 사용하여 기본 노드 명령줄에 연결합니다SSH.
텍스트 편집기를 사용하여
hue.ini
파일을 엽니다. 예제:sudo vim /etc/hue/conf/hue.ini
appblacklist
라는 단어를 검색하고 해당 줄을 다음과 같이 수정합니다.appblacklist = search
변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.
sudo stop hue; sudo start hue
-
-
Tez의 Hive 실행 시간 비교
-
이 문제는 Amazon EMR 5.22.0에서 수정되었습니다.
클러스터 기본 노드에 대한 연결을 통해 http://
MasterDNS
:8080/tez-ui에서 Tez UI에 SSH 연결하면 "Adapter 작업 실패 - 타임라인 서버(ATS)에 도달하지 못합니다. 다운되었거나 활성화CORS되지 않음”이 나타나거나 작업이 예기치 않게 해당 없음을 표시합니다.이는 Tez UI가 기본 노드의 호스트 이름이
localhost
아닌를 사용하여 YARN 타임라인 서버에 요청했기 때문입니다. 이 문제를 해결하기 위해 스크립트를 부트스트랩 작업 또는 단계로 실행할 수 있습니다. 스크립트는 Tezconfigs.env
파일의 호스트 이름을 업데이트합니다. 스크립트에 대한 자세한 내용과 위치를 보려면 부트스트랩 지침을 참조하십시오.
-
Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서는 YARN 노드 레이블이 HDFS 디렉터리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터이 문제가 해결됩니다. YARN 노드 레이블은에 대한 종속성을 방지하기 위해 각 클러스터 노드의 로컬 디스크에 저장됩니다HDFS.
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자로. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.20.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.20.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.19.0에 관련됩니다.
최초 릴리스 날짜: 2018년 12월 18일
마지막 업데이트 날짜: 2019년 1월 22일
업그레이드
Flink 1.6.2
HBase 1.4.8
Hive 2.3.4
Hue 4.3.0
MXNet 1.3.1
Presto 0.214
Spark 2.4.0
TensorFlow 1.12.0
Tez 0.9.1
AWS SDK for Java 1.11.461
새로운 특성
(2019년 1월 22일) Amazon의 KerberosEMR는 외부에서 보안 주체 인증을 지원하도록 개선되었습니다KDC. 이렇게 하면 여러 클러스터가 외부의 단일를 공유할 수 있으므로 보안 주체 관리가 중앙 집중화됩니다KDC. 또한 외부는 Active Directory 도메인과 영역 간 신뢰를 가질 KDC 수 있습니다. 이를 통해 모든 클러스터는 Active Directory의 보안 주체를 인증할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 Kerberos 인증 사용을 참조하세요.
변경 사항, 향상된 기능 및 해결된 문제
-
기본 Amazon Linux AMI for Amazon EMR
-
Python3 패키지가 python 3.4에서 3.6으로 업그레이드되었습니다.
-
-
EMRFS S3-optimized 커미터
-
이제 EMRFS S3-optimized 커미터가 기본적으로 활성화되어 쓰기 성능이 향상됩니다. 자세한 내용은 EMRFS S3-optimized 커미터 사용 단원을 참조하십시오.
-
-
Hive
-
HIVE-16686
백포트.
-
-
Glue와 Spark 및 Hive
5.20.0 이상에서는 AWS Glue Data Catalog를 EMR 메타스토어로 사용할 때 Spark 및 Hive에 대해 병렬 파티션 정리가 자동으로 활성화됩니다. 이 변경 사항은 여러 요청을 병렬로 실행하여 파티션을 검색함으로써 쿼리 계획 시간을 크게 단축합니다. 동시에 실행할 수 있는 총 세그먼트 수는 1~10입니다. 기본값은 5이며, 또한 권장 설정입니다.
hive-site
구성 분류에서aws.glue.partition.num.segments
속성을 지정하여 이 설정을 변경할 수 있습니다. 조절이 발생할 경우 값을 1로 변경하여 기능을 끌 수 있습니다. 자세한 내용은 AWS Glue 그먼트 구조를 참조하세요.
알려진 문제
-
Hue(Amazon EMR 릴리스 5.24.0에서 수정됨)
-
Amazon에서 실행되는 HueEMR는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 무해한 오류 메시지가 다음과 유사하게 표시됩니다.
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Solr 오류 메시지를 표시하지 않으려면
를 사용하여 기본 노드 명령줄에 연결합니다SSH.
텍스트 편집기를 사용하여
hue.ini
파일을 엽니다. 예제:sudo vim /etc/hue/conf/hue.ini
appblacklist
라는 단어를 검색하고 해당 줄을 다음과 같이 수정합니다.appblacklist = search
변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.
sudo stop hue; sudo start hue
-
-
Tez의 Hive 실행 시간 비교
-
이 문제는 Amazon EMR 5.22.0에서 수정되었습니다.
클러스터 기본 노드에 대한 연결을 통해 http://
MasterDNS
:8080/tez-ui에서 Tez UI에 SSH 연결하면 "Adapter 작업 실패 - 타임라인 서버(ATS)에 도달하지 못합니다. 다운되었거나 활성화CORS되지 않음”이 나타나거나 작업이 예기치 않게 해당 없음을 표시합니다.이는 Tez UI가 기본 노드의 호스트 이름이
localhost
아닌를 사용하여 YARN 타임라인 서버에 요청했기 때문입니다. 이 문제를 해결하기 위해 스크립트를 부트스트랩 작업 또는 단계로 실행할 수 있습니다. 스크립트는 Tezconfigs.env
파일의 호스트 이름을 업데이트합니다. 스크립트에 대한 자세한 내용과 위치를 보려면 부트스트랩 지침을 참조하십시오.
-
Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서는 YARN 노드 레이블이 HDFS 디렉터리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터이 문제가 해결됩니다. YARN 노드 레이블은에 대한 종속성을 방지하기 위해 각 클러스터 노드의 로컬 디스크에 저장됩니다HDFS.
-
여러 프라이머리 노드와 Kerberos 인증을 사용하는 클러스터에서 알려진 문제
Amazon EMR 릴리스 5.20.0 이상에서 여러 프라이머리 노드와 Kerberos 인증이 있는 클러스터를 실행하는 경우 클러스터가 일정 시간 실행된 후 스케일 다운 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 스케일 다운 문제는 제출한 자동 스케일 다운 및 명시적 스케일 다운 요청 모두에 영향을 미칩니다. 이외의 다른 클러스터 작업도 영향을 받을 수 있습니다.
해결 방법:
-
SSH 여러 프라이머리 노드가 있는 EMR 클러스터의 리드 프라이머리 노드에 대한
hadoop
사용자로. -
다음 명령을 실행하여
hadoop
사용자의 Kerberos 티켓을 갱신합니다.kinit -kt <keytab_file> <principal>
일반적으로 keytab 파일은
/etc/hadoop.keytab
에 있으며, 보안 주체는hadoop/<hostname>@<REALM>
양식입니다.
참고
이 해결 방법은 Kerberos 티켓이 유효한 기간에 작동합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정으로 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.
-
릴리스 5.19.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.19.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.18.0에 관련됩니다.
최초 릴리스 날짜: 2018년 11월 7일
최종 업데이트: 2018년 11월 19일
업그레이드
하둡 2.8.5
Flink 1.6.1
JupyterHub 0.9.4
MXNet 1.3.0
Presto 0.212
TensorFlow 1.11.0
Zookeeper 3.4.13
AWS SDK for Java 1.11.433
새로운 특성
(2018년 11월 19일) EMR 노트북은 Jupyter Notebook을 기반으로 하는 관리형 환경입니다. , Spark PySpark, SQLSpark R 및 Scala에 대한 Spark 매직 커널을 지원합니다. EMR 노트북은 Amazon EMR 릴리스 5.18.0 이상을 사용하여 생성된 클러스터에 사용할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 EMR 노트북 사용을 참조하세요.
EMRFS S3-optimized 커미터는 Spark 및를 사용하여 Parquet 파일을 작성할 때 사용할 수 있습니다EMRFS. 이 커미터는 쓰기 성능을 향상시킵니다. 자세한 내용은 EMRFS S3-optimized 커미터 사용 단원을 참조하십시오.
변경 사항, 향상된 기능 및 해결된 문제
-
YARN
-
코어 노드에서 실행할 때 애플리케이션 마스터 프로세스를 제한하는 로직이 수정되었습니다. 이제이 기능은 및
yarn-site
capacity-scheduler
구성 분류에서 YARN 노드 레이블 기능과 속성을 사용합니다. 자세한 내용은 https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-instances-guidelines.html#emr-plan-spot-YARN. 섹션을 참조하세요.
-
-
기본 Amazon Linux AMI for Amazon EMR
-
ruby18
,php56
,gcc48
이 이제 기본적으로 설치되지 않습니다. 필요할 경우yum
을 사용하여 설치할 수 있습니다. -
aws-java-sdk ruby gem이 이제 더 이상 기본적으로 설치되지 않습니다. 필요할 경우
gem install aws-sdk
를 사용하여 설치할 수 있습니다. 특정 구성 요소도 설치할 수 있습니다. 예:gem install aws-sdk-s3
.
-
알려진 문제
-
EMR 노트북 - 노트북 편집기가 여러 개 열려 있는 경우 노트북 편집기가 클러스터에 연결하지 못하는 것처럼 보일 수 있습니다. 이 경우 브라우저 쿠키를 지우고 노트북 편집기를 다시 여십시오.
-
CloudWatch ContainerPending 지표 및 자동 조정 - (5.20.0에서 수정됨)Amazon은에 대해 음수 값을 생성할 EMR 수 있습니다
ContainerPending
. 자동 조정 규칙에ContainerPending
을 사용할 경우 자동 조정이 예상대로 작동하지 않습니다. 자동 조정에ContainerPending
을 사용하지 마십시오. Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서는 YARN 노드 레이블이 HDFS 디렉터리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터이 문제가 해결됩니다. YARN 노드 레이블은에 대한 종속성을 방지하기 위해 각 클러스터 노드의 로컬 디스크에 저장됩니다HDFS.
릴리스 5.18.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.18.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.17.0에 관련됩니다.
최초 릴리스 날짜: 2018년 10월 24일
업그레이드
Flink 1.6.0
HBase 1.4.7
Presto 0.210
Spark 2.3.2
Zeppelin 0.8.0
새로운 특성
Amazon EMR 5.18.0부터 Amazon EMR 아티팩트 리포지토리를 사용하여 특정 Amazon EMR 릴리스에서 사용할 수 있는 라이브러리 및 종속성의 정확한 버전에 대해 작업 코드를 빌드할 수 있습니다. 자세한 내용은 Amazon EMR 아티팩트 리포지토리를 사용하여 종속성 확인 단원을 참조하십시오.
변경 사항, 향상된 기능 및 해결된 문제
Hive
S3 Select에 대한 지원을 추가했습니다. 자세한 내용은 S3 Select와 함께 Hive를 사용하여 성능 향상 단원을 참조하십시오.
Presto
S3 Select
Pushdown에 대한 지원을 추가했습니다. 자세한 내용은 S3 Select Pushdown과 함께 Presto를 사용하여 성능 향상 단원을 참조하십시오.
Spark
Spark에 대한 기본 log4j 구성이 Spark 스트리밍 작업에 대한 컨테이너 로그를 1시간마다 넘기도록 변경되었습니다. 따라서 오래 실행되는 Spark 스트리밍 작업에 대한 로그가 삭제되지 않습니다.
릴리스 5.17.1
다음 릴리스 정보에는 Amazon EMR 릴리스 5.17.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.17.0에 관련됩니다.
최초 릴리스 날짜: 2019년 7월 18일
변경 사항, 향상된 기능 및 해결된 문제
서비스 TCP SACK 거부 문제(AWS-2019-005
)EMR를 포함하여 중요한 Linux 커널 보안 업데이트를 포함하도록 AmazonAMI용 기본 Amazon Linux를 업데이트했습니다.
릴리스 5.17.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.17.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.16.0에 관련됩니다.
최초 릴리스 날짜: 2018년 8월 30일
업그레이드
Flink 1.5.2
HBase 1.4.6
Presto 0.206
새로운 특성
Tensorflow에 대한 지원을 추가했습니다. 자세한 내용은 TensorFlow 단원을 참조하십시오.
변경 사항, 향상된 기능 및 해결된 문제
JupyterHub
Amazon S3의 노트북 지속성에 대한 지원을 추가했습니다. 자세한 내용은 Amazon S3에서 노트북의 지속성 구성 단원을 참조하십시오.
Spark
S3 Select
에 대한 지원을 추가했습니다. 자세한 내용은 S3 Select와 함께 Spark를 사용하여 쿼리 성능 향상 단원을 참조하십시오.
Amazon EMR 버전 5.14.0, 5.15.0 또는 5.16.0의 Cloudwatch 지표 및 자동 조정 기능에 대한 문제를 해결했습니다.
알려진 문제
-
Kerberos 인증을 사용하는 클러스터를 생성하고 Livy를 설치하면 단순 인증이 활성화되지 않았다는 오류가 발생하면서 Livy가 실패합니다. Livy 서버를 재부팅하면 문제가 해결됩니다. 해결 방법으로, 클러스터 생성 중에 프라이머리 노드에서
sudo restart livy-server
를 실행하는 단계를 추가합니다. 생성 날짜가 2018-08-11인 Amazon Linux AMI 기반 사용자 지정 Amazon LinuxAMI를 사용하는 경우 Oozie 서버가 시작되지 않습니다. Oozie를 사용하는 경우 생성 날짜가 다른 Amazon Linux AMI ID를 AMI 기반으로 사용자 지정을 생성합니다. 다음 AWS CLI 명령을 사용하여 릴리스 날짜와 함께 AMIs 2018.03 버전의 모든 HVM Amazon Linux에 IDs 대한 이미지 목록을 반환할 수 있으므로 적절한 Amazon Linux를 기본AMI으로 선택할 수 있습니다. MyRegion 를 us-west-2와 같은 리전 식별자로 바꿉니다.
aws ec2 --region
MyRegion
describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1
릴리스 5.16.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.16.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.15.0에 관련됩니다.
최초 릴리스 날짜: 2018년 7월 19일
업그레이드
Hadoop 2.8.4
Flink 1.5.0
Livy 0.5.0
MXNet 1.2.0
Phoenix 4.14.0
Presto 0.203
Spark 2.3.1
AWS SDK for Java 1.11.336
CUDA 9.2
Redshift JDBC 드라이버 1.2.15.1025
변경 사항, 향상된 기능 및 해결된 문제
HBase
백포트 HBASE- 20723
Presto
LDAP 인증을 지원하기 위한 구성 변경. 자세한 내용은 Amazon에서 Presto에 대한 LDAP 인증 사용 EMR 단원을 참조하십시오.
Spark
Amazon EMR 릴리스 5.16.0부터 사용할 수 있는 Apache Spark 버전 2.3.1은 주소 CVE-2018-8024
및 CVE-2018-1334 입니다. Spark의 이전 버전을 Spark 버전 2.3.1 이상으로 마이그레이션하는 것이 좋습니다.
알려진 문제
-
이 릴리스 버전은 c1.medium 또는 m1.small 인스턴스 유형을 지원하지 않습니다. 둘 중 어느 쪽이든 이런 인스턴스 유형을 사용하는 클러스터는 시작되지 않습니다. 차선책으로 다른 인스턴스 유형을 지정하거나 다른 릴리스 버전을 사용하십시오.
-
Kerberos 인증을 사용하는 클러스터를 생성하고 Livy를 설치하면 단순 인증이 활성화되지 않았다는 오류가 발생하면서 Livy가 실패합니다. Livy 서버를 재부팅하면 문제가 해결됩니다. 해결 방법으로, 클러스터 생성 중에 프라이머리 노드에서
sudo restart livy-server
를 실행하는 단계를 추가합니다. -
기본 노드가 재부팅되거나 인스턴스 컨트롤러가 다시 시작된 후에는 CloudWatch 지표가 수집되지 않으며 Amazon EMR 버전 5.14.0, 5.15.0 또는 5.16.0에서 자동 조정 기능을 사용할 수 없습니다. 이 문제는 Amazon EMR 5.17.0에서 수정되었습니다.
릴리스 5.15.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.15.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.14.0에 관련됩니다.
최초 릴리스 날짜: 2018년 6월 21일
업그레이드
1.4.4HBase로 업그레이드됨
Hive를 2.3.3으로 업그레이드
Hue를 4.2.0으로 업그레이드
Oozie를 5.0.0로 업그레이드
Zookeeper를 3.4.12로 업그레이드
1.11.333으로 업그레이드됨 AWS SDK
변경 사항, 향상된 기능 및 해결된 문제
Hive
백포트됨 HIVE-18069
Hue
Kerberos 사용 시 Livy로 올바로 인증하도록 Hue를 업데이트했습니다. 이제 Amazon에서 Kerberos를 사용할 때 Livy가 지원됩니다EMR.
JupyterHub
Amazon이 기본적으로 LDAP 클라이언트 라이브러리를 EMR 설치 JupyterHub 하도록 업데이트되었습니다.
자체 서명 인증서를 생성하는 스크립트 오류를 수정했습니다.
알려진 문제
-
이 릴리스 버전은 c1.medium 또는 m1.small 인스턴스 유형을 지원하지 않습니다. 둘 중 어느 쪽이든 이런 인스턴스 유형을 사용하는 클러스터는 시작되지 않습니다. 차선책으로 다른 인스턴스 유형을 지정하거나 다른 릴리스 버전을 사용하십시오.
-
기본 노드가 재부팅되거나 인스턴스 컨트롤러가 다시 시작된 후에는 CloudWatch 지표가 수집되지 않으며 Amazon EMR 버전 5.14.0, 5.15.0 또는 5.16.0에서 자동 조정 기능을 사용할 수 없습니다. 이 문제는 Amazon EMR 5.17.0에서 수정되었습니다.
릴리스 5.14.1
다음 릴리스 정보에는 Amazon EMR 릴리스 5.14.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.14.0에 관련됩니다.
최초 릴리스 날짜: 2018년 10월 17일
잠재적인 보안 취약성을 해결하기 AMI 위해 Amazon의 기본값을 업데이트EMR했습니다.
릴리스 5.14.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.14.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.13.0에 관련됩니다.
최초 릴리스 날짜: 2018년 6월 4일
업그레이드
Apache Flink를 1.4.2로 업그레이드
Apache를 1.1.0MXnet으로 업그레이드
Apache Sqoop를 1.4.7로 업그레이드
새로운 특성
JupyterHub 지원이 추가되었습니다. 자세한 내용은 JupyterHub 단원을 참조하십시오.
변경 사항, 향상된 기능 및 해결된 문제
EMRFS
Amazon S3에 대한 요청의 userAgent 문자열이 호출 보안 주체의 사용자 및 그룹 정보를 포함하도록 업데이트되었습니다. 이는 보다 포괄적인 요청 추적을 위해 AWS CloudTrail 로그와 함께 사용할 수 있습니다.
HBase
특히 분할 리전에서 캐시 문제를 일으킬 수 있는 문제를 해결하는 HBASE-20447
이 포함되었습니다.
-
MXnet
OpenCV 라이브러리를 추가했습니다.
Spark
-
Spark가를 사용하여 Parquet 파일을 Amazon S3 위치에 쓰면 EMRFS FileOutputCommitter 알고리즘이 버전 1 대신 버전 2를 사용하도록 업데이트되었습니다. 따라서 이름 변경 횟수가 감소하여 애플리케이션 성능이 개선됩니다. 다음 애플리케이션에는 이 변경이 영향을 미치지 않습니다.
-
Spark 이외의 애플리케이션
-
와 같이 다른 파일 시스템에 쓰는 애플리케이션HDFS(의 버전 1을 계속 사용함 FileOutputCommitter).
-
이미 EMRFS 직접 쓰기를 사용하는 텍스트 또는 csv와 같은 다른 출력 형식을 사용하는 애플리케이션.
-
-
알려진 문제
-
JupyterHub
-
클러스터를 생성할 때 구성 분류를 사용하여 JupyterHub 및 개별 Jupyter 노트북을 설정하는 것은 지원되지 않습니다. 각 사용자에 대해 수동으로 jupyterhub_config.py 파일 및 jupyter_notebook_config.py 파일을 편집하십시오. 자세한 내용은 구성 JupyterHub 단원을 참조하십시오.
-
JupyterHub 는 프라이빗 서브넷 내의 클러스터에서 시작하지 못해 메시지에 실패합니다
Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt'
. 이는 자체 서명된 인증서를 생성하는 스크립트의 오류에 의해 야기됩니다. 다음 차선책을 사용하여 자체 서명된 인증서를 생성합니다. 모든 명령은 프라이머리 노드에 연결되어 있는 동안 실행됩니다.컨테이너에서 프라이머리 노드로 인증서 생성 스크립트를 복사합니다.
sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
아래와 같이 텍스트 편집기를 사용하여 23행을 변경하고 퍼블릭 호스트 이름을 로컬 호스트 이름으로 변경합니다.
local
hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local
-hostname)스크립트를 실행하여 자체 서명된 인증서를 생성합니다.
sudo bash ./gen_self_signed_cert.sh
스크립트가 생성하는 인증서 파일을
/etc/jupyter/conf/
디렉터리로 이동합니다.sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/
tail
jupyter.log
파일을 통해가 JupyterHub 다시 시작되었고 200 응답 코드를 반환하고 있는지 확인할 수 있습니다. 예제:tail -f /var/log/jupyter/jupyter.log
그러면 다음과 비슷한 응답이 돌아옵니다.
# [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
-
-
기본 노드가 재부팅되거나 인스턴스 컨트롤러가 다시 시작된 후에는 CloudWatch 지표가 수집되지 않으며 Amazon EMR 버전 5.14.0, 5.15.0 또는 5.16.0에서 자동 조정 기능을 사용할 수 없습니다. 이 문제는 Amazon EMR 5.17.0에서 수정되었습니다.
릴리스 5.13.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.13.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.12.0에 관련됩니다.
업그레이드
-
Spark를 2.3.0으로 업그레이드
-
1.4.2HBase로 업그레이드됨
-
Presto를 0.194로 업그레이드
-
1.11.297 AWS SDK for Java 로 업그레이드됨
변경 사항, 향상된 기능 및 해결된 문제
Hive
-
HIVE-15436
백포트. 뷰만 반환APIs하도록 Hive를 개선했습니다.
-
알려진 문제
-
MXNet 에는 현재 OpenCV 라이브러리가 없습니다.
릴리스 5.12.2
다음 릴리스 정보에는 Amazon EMR 릴리스 5.12.2에 대한 정보가 포함되어 있습니다. 변경 사항은 5.12.1에 관련됩니다.
최초 릴리스 날짜: 2018년 8월 29일
변경 사항, 향상된 기능 및 해결된 문제
이 릴리스는 잠재적인 보안 취약점을 해결합니다.
릴리스 5.12.1
다음 릴리스 정보에는 Amazon EMR 릴리스 5.12.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.12.0에 관련됩니다.
최초 릴리스 날짜: 2018년 3월 29일
변경 사항, 향상된 기능 및 해결된 문제
잠재적 취약성을 해결하기 EMR 위해 AmazonAMI용 Linux의 Amazon defaultAmazon Linux 커널을 업데이트했습니다.
릴리스 5.12.0
다음 릴리스 정보에는 Amazon EMR 릴리스 5.12.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.11.1에 관련됩니다.
업그레이드
AWS SDK Java 1.11.238용 ⇒ 1.11.267. 자세한 내용은 AWS SDK for Java Change Log
on을 참조하세요 GitHub. Hadoop 2.7.3 ⇒ 2.8.3. 자세한 내용은 Apache Hadoop Releases
를 참조하십시오. Flink 1.3.2 ⇒ 1.4.0. 자세한 내용은 Apache Flink 1.4.0 Release Announcement
를 참조하십시오. HBase 1.3.1 ⇒ 1.4.0. 자세한 내용은 HBase 릴리스 공지를 참조하세요
. Hue 4.0.1 ⇒ 4.1.0. 자세한 내용은 릴리스 정보
를 참조하십시오. MxNet 0.12.0 ⇒ 1.0.0. 자세한 내용은 MXNet 변경 로그온
을 참조하세요 GitHub. Presto 0.187 ⇒ 0.188. 자세한 내용은 릴리스 정보
를 참조하십시오.
변경 사항, 향상된 기능 및 해결된 문제
Hadoop
yarn.resourcemanager.decommissioning.timeout
속성을yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs
로 변경했습니다. 이 속성을 사용하여 클러스터 축소를 사용자 지정할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 Cluster Scale-Down을 참조하세요.하둡은 직접 복사를 지정하는
cp
(복사) 명령에-d
옵션을 CLI 추가했습니다. 이를 사용하면 중간.COPYING
파일을 생성하지 않아도 되므로 Amazon S3 사이에서 데이터를 더 빠르게 복사할 수 있습니다. 자세한 내용은 HADOOP-12384를 참조하세요.
Pig
Pig 환경 속성의 구성을 단순화하는
pig-env
구성 분류를 추가했습니다. 자세한 내용은 애플리케이션 구성 단원을 참조하십시오.
Presto
Presto
presto-connector-redshift
구성 파일에서 값을 구성하는 데 사용할 수 있는redshift.properties
구성 분류를 추가했습니다. 자세한 내용은 Presto 문서의 Redshift Connector및 애플리케이션 구성 단원을 참조하십시오. 에 대한 Presto 지원이 추가EMRFS되었으며 기본 구성입니다. 이전 Amazon EMR 릴리스에서는 유일한 옵션인 PrestoS3FileSystem를 사용했습니다. 자세한 내용은 EMRFS 및 PrestoS3FileSystem 구성 단원을 참조하십시오.
참고
Amazon 버전 5.12.0으로 Amazon S3의 기본 데이터를 쿼리하면 Presto 오류가 발생할 수 있습니다. EMR 이는 Presto가
emrfs-site.xml
에서 구성 분류 값을 가져오지 못하기 때문입니다. 이 문제를 해결하려면usr/lib/presto/plugin/hive-hadoop2/
아래에emrfs
하위 디렉터리를 생성하고usr/lib/presto/plugin/hive-hadoop2/emrfs
에서 기존/usr/share/aws/emr/emrfs/conf/emrfs-site.xml
파일에 대한 기호 링크를 생성합니다. 그런 다음, presto-server 프로세스를 다시 시작합니다(sudo presto-server stop
및sudo presto-server start
의 순서대로)
Spark
알려진 문제
MXNet 에는 OpenCV 라이브러리가 포함되지 않습니다.
R은 기본적으로 클러스터 노드에 설치되지 AMI 않으므로 사용자 지정을 사용하여 생성된 클러스터에는 SparkR을 사용할 수 없습니다.
릴리스 5.11.3
다음 릴리스 정보에는 Amazon EMR 릴리스 5.11.3에 대한 정보가 포함되어 있습니다. 변경 사항은 5.11.2에 관련됩니다.
최초 릴리스 날짜: 2019년 7월 18일
변경 사항, 향상된 기능 및 해결된 문제
서비스 TCP SACK 거부 문제(AWS-2019-005
)EMR를 포함하여 중요한 Linux 커널 보안 업데이트를 포함하도록 AmazonAMI용 기본 Amazon Linux를 업데이트했습니다.
릴리스 5.11.2
다음 릴리스 정보에는 Amazon EMR 릴리스 5.11.2에 대한 정보가 포함되어 있습니다. 변경 사항은 5.11.1에 관련됩니다.
최초 릴리스 날짜: 2018년 8월 29일
변경 사항, 향상된 기능 및 해결된 문제
이 릴리스는 잠재적인 보안 취약점을 해결합니다.
릴리스 5.11.1
다음 릴리스 정보에는 Amazon EMR 버전 5.11.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.11.0 릴리스와 관련이 있습니다.
최초 릴리스 날짜: 2018년 1월 22일
변경 사항, 향상된 기능 및 해결된 문제
추측 실행(CVE-2017-5715, 및 CVE-2017-5753)과 관련된 취약성을 해결하기 EMR 위해 AmazonAMI용 defaultAmazon Linux의 Amazon Linux 커널을 업데이트했습니다CVE-2017-5754. 자세한 내용은 https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
단원을 참조하십시오.
알려진 문제
-
MXNet 에는 OpenCV 라이브러리가 포함되지 않습니다.
-
Hive 2.3.2에서는 기본적으로
hive.compute.query.using.stats=true
를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어,hive.compute.query.using.stats=true
인 테이블이 있을 때 새 파일을LOCATION
테이블에 업로드하고 테이블에서SELECT COUNT(*)
쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.차선책으로
ANALYZE TABLE
명령을 사용하여 새 통계를 수집하거나hive.compute.query.using.stats=false
를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.
릴리스 5.11.0
다음 릴리스 정보에는 Amazon EMR 버전 5.11.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.10.0 릴리스와 관련이 있습니다.
업그레이드
이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.
-
Hive 2.3.2
-
Spark 2.2.1
-
SDK Java 1.11.238용
새로운 특성
-
Spark
-
스팟 인스턴스 사용 시 Spark 폐기를 개선하는
spark.decommissioning.timeout.threshold
설정이 추가되었습니다. 자세한 내용은 노드 서비스 해제 동작 구성 단원을 참조하십시오. -
Amazon Spark 및 Amazon과의 SageMaker Spark 통합을 위한 관련 종속성을 설치하는 Spark에
aws-sagemaker-spark-sdk
구성 요소를 추가했습니다 SageMaker. Amazon SageMaker Spark를 사용하여 Amazon SageMaker 스테이지를 사용하여 Spark 기계 학습(ML) 파이프라인을 구성할 수 있습니다. 자세한 내용은 Amazon SageMaker 개발자 안내서의 GitHub 및 Amazon에서 Apache Spark 사용에서 Spark SageMaker SageMaker 읽기를 참조하세요.
-
알려진 문제
-
MXNet 에는 OpenCV 라이브러리가 포함되지 않습니다.
-
Hive 2.3.2에서는 기본적으로
hive.compute.query.using.stats=true
를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어,hive.compute.query.using.stats=true
인 테이블이 있을 때 새 파일을LOCATION
테이블에 업로드하고 테이블에서SELECT COUNT(*)
쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.차선책으로
ANALYZE TABLE
명령을 사용하여 새 통계를 수집하거나hive.compute.query.using.stats=false
를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.
릴리스 5.10.0
다음 릴리스 정보에는 Amazon EMR 버전 5.10.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.9.0 릴리스와 관련이 있습니다.
업그레이드
이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.
-
AWS SDK for Java 1.11.221
-
Hive 2.3.1
-
Presto 0.187
새로운 특성
-
Kerberos 인증에 대한 지원이 추가되었습니다. 자세한 내용은 Amazon EMR 관리 안내서의 Kerberos 인증 사용을 참조하세요.
-
Amazon S3에 대한 EMRFS 요청의 IAM 역할에 대한 지원이 추가되었습니다. 자세한 내용은 Amazon 관리 안내서의 Amazon S3에 대한 EMRFS 요청에 대한 IAM 역할 구성을 참조하세요. EMR
-
GPU기반 P2 및 P3 인스턴스 유형에 대한 지원이 추가되었습니다. 자세한 내용은 Amazon EC2 P2 인스턴스
및 Amazon EC2 P3 인스턴스 를 참조하세요. NVIDIA 드라이버 384.81 및 CUDA 드라이버 9.0.176은 기본적으로 이러한 인스턴스 유형에 설치됩니다. -
Apache MXNet 지원이 추가되었습니다.
변경 사항, 향상된 기능 및 해결된 문제
-
Presto
-
Glue 데이터 카탈로그를 기본 Hive AWS 메타스토어로 사용하는 것에 대한 지원이 추가되었습니다. 자세한 내용은 AWS Glue 데이터 카탈로그에서 Presto 사용을 참조하세요.
-
지리 공간 함수
에 대한 지원이 추가되었습니다. -
조인의 디스크로 유출
에 대한 지원이 추가되었습니다. -
Redshift 커넥터
에 대한 지원이 추가되었습니다.
-
-
Spark
-
백포트된 SPARK-20640
으로, spark.shuffle.registration.timeout
및spark.shuffle.registration.maxAttempts
속성을 사용하여 셔플 등록 값에 대한 rpc 제한 시간 및 재시도를 구성할 수 있습니다. -
백포트 SPARK-21549
, 비HDFS위치 OutputFormat 에 사용자 지정을 작성할 때 발생하는 오류를 수정합니다.
-
-
하둡-13270
을 백포트했습니다. -
Numpy, Scipy 및 Matplotlib 라이브러리가 기본 Amazon EMR에서 제거되었습니다AMI. 애플리케이션에서 이러한 라이브러리가 필요한 경우, 애플리케이션 리포지토리에서 라이브러리를 사용할 수 있기 때문에 부트스트랩 작업 시
yum install
을 사용하여 모든 노드에 라이브러리를 설치할 수 있습니다. -
Amazon EMR 베이스에는 더 이상 애플리케이션 RPM 패키지가 포함되어 AMI 있지 않으므로 클러스터 노드에 RPM 패키지가 더 이상 존재하지 않습니다. 이제 사용자 지정 AMIs 및 Amazon EMR 기반이 Amazon S3의 RPM 패키지 리포지토리를 AMI 참조합니다.
-
Amazon에 초당 결제가 도입되었으므로 이제 EC2기본 축소 동작은 인스턴스 시간에 종료하지 않고 작업 완료 시 종료됩니다. 자세한 내용은 클러스터 스케일 다운 구성을 참조하세요.
알려진 문제
-
MXNet 에는 OpenCV 라이브러리가 포함되지 않습니다.
-
Hive 2.3.1에서는 기본적으로
hive.compute.query.using.stats=true
를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어,hive.compute.query.using.stats=true
인 테이블이 있을 때 새 파일을LOCATION
테이블에 업로드하고 테이블에서SELECT COUNT(*)
쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.차선책으로
ANALYZE TABLE
명령을 사용하여 새 통계를 수집하거나hive.compute.query.using.stats=false
를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.
릴리스 5.9.0
다음 릴리스 정보에는 Amazon EMR 버전 5.9.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.8.0 릴리스와 관련이 있습니다.
릴리스 날짜: 2017년 10월 5일
최근 기능 업데이트: 2017년 10월 12일
업그레이드
이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.
-
AWS SDK for Java 버전 1.11.183
-
Flink 1.3.2
-
Hue 4.0.1
-
Pig 0.17.0
-
Presto 0.184
새로운 특성
-
Livy 지원이 추가되었습니다(버전 0.4.0-incubating). 자세한 내용은 Apache Livy 단원을 참조하십시오.
-
Spark용 Hue Notebook에 대한 지원이 추가되었습니다.
-
i3 시리즈 Amazon EC2 인스턴스에 대한 지원이 추가되었습니다(2017년 10월 12일).
변경 사항, 향상된 기능 및 해결된 문제
-
Spark
-
Spark가 수동 크기 조절 또는 자동 조정 정책 요청으로 인한 노드 종료를 보다 원활하게 처리할 수 있도록 도움을 주는 새로운 기능 세트를 추가했습니다. 자세한 내용은 노드 서비스 해제 동작 구성 단원을 참조하십시오.
-
SSL는 블록 전송 서비스의 전송 중 암호화에 3DES이 아닌 3이 사용되므로 AES-NI에서 Amazon EC2 인스턴스 유형을 사용할 때 성능이 향상됩니다.
-
SPARK-21494
백포트.
-
-
Zeppelin
-
ZEPPELIN-2377
백포트.
-
-
HBase
-
hbase-site
구성 분류를 사용하여 HBase BucketCache 구성에 대한 추가 값을 허용하는 패치 HBASE-18533을 추가했습니다.
-
-
Hue
-
Hue의 Hive 쿼리 편집기에 대한 AWS Glue 데이터 카탈로그 지원이 추가되었습니다.
-
기본적으로 Hue의 수퍼유저는 Amazon EMR IAM 역할이 액세스할 수 있는 모든 파일에 액세스할 수 있습니다. 새로 생성된 사용자에게는 Amazon S3 파일 브라우저에 액세스할 수 있는 권한이 자동으로 부여되지 않기 때문에 사용자의 그룹에 대해 활성화된
filebrowser.s3_access
권한이 있어야 합니다.
-
-
AWS Glue JSON Data Catalog를 사용하여 생성된 기본 데이터에 액세스할 수 없는 문제를 해결했습니다.
알려진 문제
-
모든 애플리케이션이 설치되고 기본 Amazon EBS 루트 볼륨 크기가 변경되지 않으면 클러스터 시작이 실패합니다. 해결 방법으로의
aws emr create-cluster
명령을 사용하고 더 큰--ebs-root-volume-size
파라미터를 AWS CLI 지정합니다. -
Hive 2.3.0에서는 기본적으로
hive.compute.query.using.stats=true
를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어,hive.compute.query.using.stats=true
인 테이블이 있을 때 새 파일을LOCATION
테이블에 업로드하고 테이블에서SELECT COUNT(*)
쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.차선책으로
ANALYZE TABLE
명령을 사용하여 새 통계를 수집하거나hive.compute.query.using.stats=false
를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.
릴리스 5.8.2
다음 릴리스 정보에는 Amazon EMR 릴리스 5.8.2에 대한 정보가 포함되어 있습니다. 변경 사항은 5.8.1에 관련됩니다.
최초 릴리스 날짜: 2018년 3월 29일
변경 사항, 향상된 기능 및 해결된 문제
잠재적 취약성을 해결하기 EMR 위해 AmazonAMI용 Linux의 Amazon defaultAmazon Linux 커널을 업데이트했습니다.
릴리스 5.8.1
다음 릴리스 정보에는 Amazon EMR 버전 5.8.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.8.0 릴리스와 관련이 있습니다.
최초 릴리스 날짜: 2018년 1월 22일
변경 사항, 향상된 기능 및 해결된 문제
추측 실행(CVE-2017-5715, 및 CVE-2017-5753)과 관련된 취약성을 해결하기 EMR 위해 AmazonAMI용 Linux의 Amazon defaultAmazon Linux 커널을 업데이트했습니다CVE-2017-5754. 자세한 내용은 https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
단원을 참조하십시오.
릴리스 5.8.0
다음 릴리스 정보에는 Amazon EMR 버전 5.8.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.7.0 릴리스와 관련이 있습니다.
최초 릴리스 날짜: 2017년 8월 10일
최근 기능 업데이트: 2017년 9월 25일
업그레이드
이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.
-
AWS SDK 1.11.160
-
Flink 1.3.1
-
Hive 2.3.0 자세한 내용은 Apache Hive 사이트에서 Release notes
를 참조하세요. -
Spark 2.2.0 자세한 내용은 Apache Spark 사이트에서 Release notes
를 참조하세요.
새로운 특성
-
애플리케이션 이력 보기 지원이 추가되었습니다(2017년 9월 25일). 자세한 내용은 Amazon EMR 관리 안내서의 애플리케이션 기록 보기를 참조하세요.
변경 사항, 향상된 기능 및 해결된 문제
-
AWS Glue 데이터 카탈로그와 통합
-
Hive 및 Spark가 AWS Glue 데이터 카탈로그SQL를 Hive 메타데이터 스토어로 사용할 수 있는 기능이 추가되었습니다. 자세한 내용은 Glue 데이터 카탈로그를 Hive의 AWS 메타스토어로 사용 및 Amazon에서 Spark와 함께 AWS Glue 데이터 카탈로그 사용 EMR 단원을 참조하세요.
-
-
클러스터 세부 정보에 애플리케이션 기록을 추가했습니다. 이를 통해 YARN 애플리케이션의 기록 데이터와 Spark 애플리케이션의 추가 세부 정보를 볼 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 애플리케이션 기록 보기를 참조하세요.
-
Oozie
-
OOZIE-2748
백포트.
-
-
Hue
-
백포트 HUE-5859
-
-
HBase
-
를 사용하여 Java Management Extensions(JMX)를 통해 HBase 마스터 서버 시작 시간을 노출하는 패치를 추가했습니다
getMasterInitializedTime
. -
클러스터 시작 시간을 개선하는 패치를 추가했습니다.
-
알려진 문제
-
모든 애플리케이션이 설치되고 기본 Amazon EBS 루트 볼륨 크기가 변경되지 않으면 클러스터 시작이 실패합니다. 해결 방법으로의
aws emr create-cluster
명령을 사용하고 더 큰--ebs-root-volume-size
파라미터를 AWS CLI 지정합니다. -
Hive 2.3.0에서는 기본적으로
hive.compute.query.using.stats=true
를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어,hive.compute.query.using.stats=true
인 테이블이 있을 때 새 파일을LOCATION
테이블에 업로드하고 테이블에서SELECT COUNT(*)
쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.차선책으로
ANALYZE TABLE
명령을 사용하여 새 통계를 수집하거나hive.compute.query.using.stats=false
를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오. -
Spark - Spark를 사용할 때, apppusher 대몬(daemon)과 관련된 파일 핸들러 유출 문제가 있습니다. 이는 몇 시간 또는 며칠 후에 장시간 실행되는 Spark 작업에 나타날 수 있습니다. 이 문제를 해결하려면 마스터 노드에 연결하고
sudo /etc/init.d/apppusher stop
을 입력합니다. 그러면 Amazon이 자동으로 다시 시작하는 apppusher 데몬이 중지EMR됩니다. -
애플리케이션 이력
-
작동 중단 Spark 실행기의 기록 데이터는 사용할 수 없습니다.
-
진행 중인 암호화를 사용하기 위해 보안 구성을 사용하는 클러스터에서는 애플리케이션 이력을 사용할 수 없습니다.
-
릴리스 5.7.0
다음 릴리스 정보에는 Amazon EMR 5.7.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.6.0 릴리스와 관련이 있습니다.
릴리스 날짜: 2017년 7월 13일
업그레이드
-
Flink 1.3.0
-
Phoenix 4.11.0
-
Zeppelin 0.7.2
새로운 특성
-
클러스터를 생성할 AMI 때 사용자 지정 Amazon Linux를 지정하는 기능이 추가되었습니다. 자세한 내용은 사용자 지정 사용을 참조하세요AMI.
변경 사항, 향상된 기능 및 해결된 문제
-
HBase
-
HBase 읽기 전용 복제본 클러스터를 구성하는 기능이 추가되었습니다. 읽기 전용 복제본 클러스터 사용을 참조하세요.
-
다양한 버그 수정 사항 및 기능 향상
-
-
Presto -
node.properties
구성 기능을 추가했습니다. -
YARN - 구성 기능 추가
container-log4j.properties
-
Sqoop - Sqoop 임시 디렉터리를 설정할 수 있는 인수를 도입하는 SQOOP-2880
백포트.
릴리스 5.6.0
다음 릴리스 정보에는 Amazon EMR 5.6.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.5.0 릴리스와 관련이 있습니다.
릴리스 날짜: 2017년 6월 5일
업그레이드
-
Flink 1.2.1
-
HBase 1.3.1
-
Mahout 0.13.0. Amazon 버전 5.0 이상에서 Spark 2.x를 지원하는 첫 번째 Mahout EMR 버전입니다.
-
Spark 2.1.1
변경 사항, 향상된 기능 및 해결된 문제
-
Presto
-
보안 구성을 사용하여 전송 중 암호화를 활성화하여 Presto 노드 간 SSL/TLS 보안 통신을 활성화하는 기능이 추가되었습니다. 자세한 내용은 전송 중인 데이터 암호화를 참조하세요.
-
Presto 7661
의 백포트와 함께 VERBOSE
옵션이EXPLAIN ANALYZE
문에 추가되면서 쿼리 계획에 대해 더욱 자세한 저레벨 통계를 보고할 수 있게 되었습니다.
-
릴리스 5.5.3
다음 릴리스 정보에는 Amazon EMR 릴리스 5.5.3에 대한 정보가 포함되어 있습니다. 변경 사항은 5.5.2에 관련됩니다.
최초 릴리스 날짜: 2018년 8월 29일
변경 사항, 향상된 기능 및 해결된 문제
이 릴리스는 잠재적인 보안 취약점을 해결합니다.
릴리스 5.5.2
다음 릴리스 정보에는 Amazon EMR 릴리스 5.5.2에 대한 정보가 포함되어 있습니다. 변경 사항은 5.5.1에 관련됩니다.
최초 릴리스 날짜: 2018년 3월 29일
변경 사항, 향상된 기능 및 해결된 문제
잠재적 취약성을 해결하기 EMR 위해 AmazonAMI용 Linux의 Amazon defaultAmazon Linux 커널을 업데이트했습니다.
릴리스 5.5.1
다음 릴리스 정보에는 Amazon EMR 5.5.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.5.0 릴리스와 관련이 있습니다.
최초 릴리스 날짜: 2018년 1월 22일
변경 사항, 향상된 기능 및 해결된 문제
추측 실행(CVE-2017-5715, 및 CVE-2017-5753)과 관련된 취약성을 해결하기 EMR 위해 AmazonAMI용 Linux의 Amazon defaultAmazon Linux 커널을 업데이트했습니다CVE-2017-5754. 자세한 내용은 https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
단원을 참조하십시오.
릴리스 5.5.0
다음 릴리스 정보에는 Amazon EMR 5.5.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.4.0 릴리스와 관련이 있습니다.
릴리스 날짜: 2017년 4월 26일
업그레이드
-
Hue 3.12
-
Presto 0.170
-
Zeppelin 0.7.1
-
ZooKeeper 3.4.10
변경 사항, 향상된 기능 및 해결된 문제
-
Spark
-
이 릴리스에 포함된 Spark 버전 2.1.0에서 외부 셔플 서비스를 사용할 수 없는 경우 손실된 모든 셔플 블록을 다시 계산DAGScheduler하기 위해 Spark 패치(SPARK-20115)
를 백포트했습니다.
-
-
Flink
-
Flink는 이제 Scala 2.11로 빌드됩니다. Scala API 및 라이브러리를 사용하는 경우 프로젝트에 Scala 2.11을 사용하는 것이 좋습니다.
-
HADOOP_CONF_DIR
및YARN_CONF_DIR
기본값이 올바로 설정되지 않아서start-scala-shell.sh
작업이 중단되던 문제가 해결되었습니다. 또한env.hadoop.conf.dir
또는env.yarn.conf.dir
구성 분류에서/etc/flink/conf/flink-conf.yaml
및flink-conf
을 사용하여 이 값들을 설정할 수 있는 기능도 추가되었습니다. -
의 래퍼
flink-scala-shell
로 새로운 EMR특정 명령을 도입했습니다start-scala-shell.sh
. 앞으로start-scala-shell
이 아닌 이 명령을 사용하는 것이 좋습니다. 새로운 명령은 실행이 간편합니다. 예를 들어flink-scala-shell -n 2
는 Flink Scala 셸을 작업 병렬 처리 2로 시작합니다. -
의 래퍼
flink-yarn-session
로 새로운 EMR특정 명령을 도입했습니다yarn-session.sh
. 앞으로yarn-session
이 아닌 이 명령을 사용하는 것이 좋습니다. 새로운 명령은 실행이 간편합니다. 예를 들어,flink-yarn-session -d -n 2
는 연결이 끊어진 상태에서 태스크 관리자 2개를 사용하여 장기 실행 Flink 세션을 시작합니다. -
주소 지정(FLINK-6125) 커먼 httpclient는 Flink 1.2에서 더 이상 셰이딩되지 않습니다
.
-
-
Presto
-
LDAP 인증에 대한 지원이 추가되었습니다. Amazon에서 Presto와 LDAP 함께를 사용하려면 Presto 조정자(
http-server.https.enabled=true
의 )에 대한 HTTPS 액세스를 활성화EMR해야 합니다config.properties
. 구성 세부 정보는 Presto 설명서의 LDAP 인증을참조하세요. -
SHOW GRANTS
지원이 추가되었습니다.
-
-
Amazon EMR Base Linux AMI
-
Amazon EMR 릴리스는 이제 Amazon Linux 2017.03을 기반으로 합니다. 자세한 내용은 Amazon Linux AMI 2017.03 릴리스 정보를
참조하세요. -
Amazon EMR 기본 Linux 이미지에서 Python 2.6을 제거했습니다. 이제는 Python 2.7 및 3.4가 기본 설치됩니다. 필요하다면 Python 2.6을 수동으로 설치할 수도 있습니다.
-
릴리스 5.4.0
다음 릴리스 정보에는 Amazon EMR 5.4.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.3.0 릴리스와 관련이 있습니다.
릴리스 날짜: 2017년 3월 8일
업그레이드
이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.
-
Flink 1.2.0로 업그레이드
-
Hbase 1.3.0로 업그레이드
-
Phoenix 4.9.0로 업그레이드
참고
이전 버전의 Amazon에서 EMR Amazon EMR 버전 5.4.0 이상으로 업그레이드하고 보조 인덱싱을 사용하는 경우 Apache Phoenix 설명서에
설명된 대로 로컬 인덱스를 업그레이드합니다. Amazon은 hbase-site
분류에서 필요한 구성을 EMR 제거하지만 인덱스를 다시 채워야 합니다. 인덱스의 온라인 및 오프라인 업그레이드가 지원됩니다. 온라인 업그레이드는 기본값이므로, 버전 4.8.0 이상인 Phoenix 클라이언트에서 초기화하는 동안 인덱스가 다시 채워집니다. 오프라인 업그레이드를 지정하려면phoenix.client.localIndexUpgrade
구성을phoenix-site
분류에서 false로 설정한 다음 SSH를 실행할 마스터 노드로 설정합니다psql [zookeeper] -1
. -
Presto 0.166로 업그레이드
-
Zeppelin 0.7.0로 업그레이드
변경 사항 및 기능 향상
다음은 EMR 릴리스 레이블 emr-5.4.0에 대한 Amazon 릴리스의 변경 사항입니다.
-
r4 인스턴스에 대한 지원을 추가했습니다. Amazon EC2 인스턴스 유형을
참조하세요.
릴리스 5.3.1
다음 릴리스 정보에는 Amazon EMR 5.3.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.3.0 릴리스와 관련이 있습니다.
릴리스 날짜: 2017년 2월 7일
Zeppelin 패치를 백포트하고 AMI Amazon의 기본값을 업데이트하는 사소한 변경EMR.
릴리스 5.3.0
다음 릴리스 정보에는 Amazon EMR 5.3.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.2.1 릴리스와 관련이 있습니다.
릴리스 날짜: 2017년 1월 26일
업그레이드
이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.
-
Hive 2.1.1으로 업그레이드
-
Hue 3.11.0로 업그레이드
-
Spark 2.1.0로 업그레이드
-
Oozie 4.3.0로 업그레이드
-
Flink 1.1.4로 업그레이드
변경 사항 및 기능 향상
다음은 EMR 릴리스 레이블 emr-5.3.0에 대한 Amazon 릴리스의 변경 사항입니다.
-
interpreters_shown_on_wheel
파일에 지정된 순서와 상관없이hue.ini
설정을 사용하여 노트북 선택 휠에 첫 번째로 표시할 인터프리터를 구성할 수 있는 Hue 패치를 추가했습니다. -
Hive의
hive-parquet-logging
파일에서 값을 구성하는 데 사용할 수 있는parquet-logging.properties
구성 분류를 추가했습니다.
릴리스 5.2.2
다음 릴리스 정보에는 Amazon EMR 5.2.2 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.2.1 릴리스와 관련이 있습니다.
릴리스 날짜: 2017년 5월 2일
이전 릴리스에서 해결된 알려진 문제
-
char/varchar 열이 있는 ORC 테이블에서 읽기가 실패할 수 있는 문제를 해결하는 백포트된 SPARK-194459
입니다.
릴리스 5.2.1
다음 릴리스 정보에는 Amazon EMR 5.2.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.2.0 릴리스와 관련이 있습니다.
릴리스 날짜: 2016년 12월 29일
업그레이드
이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.
-
Presto 0.157.1로 업그레이드되었습니다. 자세한 내용은 Presto 설명서에서 Presto 릴리스 정보
를 참조하세요. -
Zookeeper 3.4.9로 업그레이드되었습니다. 자세한 내용은 Apache ZooKeeper 설명서의 ZooKeeper 릴리스 정보를
참조하세요.
변경 사항 및 기능 향상
다음은 EMR 릴리스 레이블 emr-5.2.1에 대한 Amazon 릴리스의 변경 사항입니다.
-
5.0.0, EC2 5.0.3 및 5.2.0을 제외하고 Amazon EMR 버전 4.8.3 이상에서 Amazon m4.16xlarge 인스턴스 유형에 대한 지원이 추가되었습니다.
-
Amazon EMR 릴리스는 이제 Amazon Linux 2016.09를 기반으로 합니다. 자세한 내용은 https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
단원을 참조하십시오. -
이제 환경 변수를 설정할 필요가
/etc/default/flink
없고flink
또는yarn-session.sh
드라이버 스크립트를 실행하여 Flink 작업을 시작할HADOOP_CONF_DIR
때 FlinkFLINK_CONF_DIR
및 YARN 구성 경로의 위치가 기본적으로 설정됩니다. -
FlinkKinesisConsumer 클래스에 대한 지원이 추가되었습니다.
이전 릴리스에서 해결된 알려진 문제
-
대규모 클러스터에서 동일한 파일의 복제와 삭제 간의 경합으로 인해 ReplicationMonitor 스레드가 오랫동안 멈출 수 있는 하둡 문제를 수정했습니다.
-
작업 상태가 성공적으로 업데이트되지 않았을 때 # null 포인터 예외(NPE)로 ControlledJobtoString 실패하는 문제를 수정했습니다.
릴리스 5.2.0
다음 릴리스 정보에는 Amazon EMR 5.2.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.1.0 릴리스와 관련이 있습니다.
릴리스 날짜: 2016년 11월 21일
변경 사항 및 기능 향상
이 릴리스에서는 다음과 같은 변경 사항 및 기능 향상을 사용할 수 있습니다.
-
에 대한 Amazon S3 스토리지 모드가 추가되었습니다HBase.
-
HBase rootdir에 대한 Amazon S3 위치를 지정할 수 있습니다. 자세한 내용은 HBase Amazon S3의 섹션을 참조하세요.
업그레이드
이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.
-
Spark 2.0.2로 업그레이드
이전 릴리스에서 해결된 알려진 문제
-
/mnt가 EBS인스턴스 유형만 2TB로 제한되는 문제를 해결했습니다.
-
instance-controller 및 logpusher 로그가 매시간 회전하는 정상적인 og4j-configured .log 파일 대신 해당 .out 파일로 출력되는 문제를 수정했습니다. .out 파일은 회전하지 않으므로 결국 /emr 파티션이 파일로 가득 찰 수 있습니다. 이 문제는 하드웨어 가상 머신(HVM) 인스턴스 유형에만 영향을 미칩니다.
릴리스 5.1.0
다음 릴리스 정보에는 Amazon EMR 5.1.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.0.0 릴리스와 관련이 있습니다.
릴리스 날짜: 2016년 11월 3일
변경 사항 및 기능 향상
이 릴리스에서는 다음과 같은 변경 사항 및 기능 향상을 사용할 수 있습니다.
-
Flink 1.1.3에 대한 지원을 추가했습니다.
-
Presto는 Hue의 노트북 섹션에서 옵션으로 추가되었습니다.
업그레이드
이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.
-
HBase 1.2.3으로 업그레이드됨
-
Zeppelin 0.6.2로 업그레이드
이전 릴리스에서 해결된 알려진 문제
-
이전 Amazon 4.x 버전과 마찬가지로 파일이 있는 Amazon S3의 Tez 쿼리에서 문제가 해결되었습니다. ORC EMR
릴리스 5.0.3
다음 릴리스 정보에는 Amazon EMR 5.0.3 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.0.0 릴리스와 관련이 있습니다.
릴리스 날짜: 2016년 10월 24일
업그레이드
이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.
-
Hadoop 2.7.3로 업그레이드
-
Presto 0.152.3로 업그레이드했습니다. 여기에는 Presto 웹 인터페이스에 대한 지원이 포함됩니다. 포트 8889를 사용하여 Presto 코디네이터의 Presto 웹 인터페이스에 액세스할 수 있습니다. Presto 웹 인터페이스에 대한 자세한 내용은 Presto 설명서에서 Web interface
를 참조하세요. -
Spark 2.0.1으로 업그레이드
-
Amazon EMR 릴리스는 이제 Amazon Linux 2016.09를 기반으로 합니다. 자세한 내용은 https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
단원을 참조하십시오.
릴리스 5.0.0
릴리스 날짜: 2016년 7월 27일
업그레이드
이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.
-
Hive 2.1으로 업그레이드
-
Presto 0.150로 업그레이드
-
Spark 2.0로 업그레이드
-
Hue 3.10.0로 업그레이드
-
Pig 0.16.0로 업그레이드
-
Tez 0.8.4로 업그레이드
-
Zeppelin 0.6.1으로 업그레이드
변경 사항 및 기능 향상
다음은 EMR 릴리스 레이블 emr-5.0.0 이상의 Amazon 릴리스에 대한 변경 사항입니다.
-
Amazon은 Hive(버전 2.1) 및 Pig(버전 0.16.0)의 최신 오픈 소스 버전을 EMR 지원합니다. 과거에 Amazon에서 Hive 또는 PigEMR를 사용한 적이 있다면 일부 사용 사례에 영향을 미칠 수 있습니다. 자세한 내용은 Hive 및 Pig를 참조하십시오.
-
Hive 및 Pig용 기본 실행 엔진은 이제 Tez입니다. 이 항목을 변경하려면 각각
hive-site
및pig-properties
구성 분류에서 해당 값을 편집합니다. -
향상된 단계 디버깅 기능이 추가되었습니다. 서비스에서 원인을 결정할 수 있는 경우 이 기능을 사용하여 단계 실패의 근본 원인을 확인할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 향상된 단계 디버깅을 참조하세요.
-
이전에 "-Sandbox"로 끝났던 애플리케이션은 더 이상 해당 접미사를 사용하지 않습니다. 이로 인해 예를 들어 스크립트를 사용하여 이 애플리케이션이 있는 클러스터를 시작하는 경우 자동화가 중단될 수 있습니다. 다음 표에는 Amazon EMR 4.7.2와 Amazon EMR 5.0.0의 애플리케이션 이름이 나와 있습니다.
애플리케이션 이름 변경 Amazon EMR 4.7.2 Amazon EMR 5.0.0 Oozie-Sandbox Oozie Presto-Sandbox Presto Sqoop-Sandbox Sqoop Zeppelin-Sandbox Zeppelin ZooKeeper-샌드박스 ZooKeeper -
Spark는 이제 Scala 2.11용으로 컴파일됩니다.
-
이제 Java 8이 기본 입니다JVM. 모든 애플리케이션은 Java 8 실행 시간을 사용하여 실행됩니다. 애플리케이션의 바이트 코드 대상에는 변경 사항이 없습니다. 대부분의 애플리케이션은 계속해서 Java 7을 대상으로 합니다.
-
Zeppelin에는 이제 인증 기능이 포함됩니다. 자세한 내용은 Zeppelin을 참조하십시오.
-
암호화 옵션을 더 쉽게 생성하고 적용할 수 있도록 보안 구성에 대한 지원을 추가했습니다. 자세한 내용은 데이터 암호화를 참조하세요.
릴리스 4.9.5
다음 릴리스 정보에는 Amazon EMR 릴리스 4.9.5에 대한 정보가 포함되어 있습니다. 변경 사항은 4.9.4에 관련됩니다.
최초 릴리스 날짜: 2018년 8월 29일
변경 사항, 향상된 기능 및 해결된 문제
HBase
이 릴리스는 잠재적인 보안 취약점을 해결합니다.
릴리스 4.9.4
다음 릴리스 정보에는 Amazon EMR 릴리스 4.9.4에 대한 정보가 포함되어 있습니다. 변경 사항은 4.9.3에 관련됩니다.
최초 릴리스 날짜: 2018년 3월 29일
변경 사항, 향상된 기능 및 해결된 문제
잠재적 취약성을 해결하기 EMR 위해 AmazonAMI용 Linux의 Amazon defaultAmazon Linux 커널을 업데이트했습니다.
릴리스 4.9.3
다음 릴리스 정보에는 Amazon EMR 4.9.3 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.9.2 릴리스와 관련이 있습니다.
최초 릴리스 날짜: 2018년 1월 22일
변경 사항, 향상된 기능 및 해결된 문제
추측 실행(CVE-2017-5715, 및 CVE-2017-5753)과 관련된 취약성을 해결하기 EMR 위해 AmazonAMI용 Linux의 Amazon defaultAmazon Linux 커널을 업데이트했습니다CVE-2017-5754. 자세한 내용은 https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
단원을 참조하십시오.
릴리스 4.9.2
다음 릴리스 정보에는 Amazon EMR 4.9.2 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.9.1 릴리스와 관련이 있습니다.
릴리스 날짜: 2017년 7월 13일
이번 릴리스에서 일반적인 변경, 버그 수정 및 기능 개선이 이루어졌습니다.
릴리스 4.9.1
다음 릴리스 정보에는 Amazon EMR 4.9.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.8.4 릴리스와 관련이 있습니다.
릴리스 날짜: 2017년 4월 10일
이전 릴리스에서 해결된 알려진 문제
-
HIVE-9976
및 HIVE-10106 의 백포트 -
YARN 많은 수의 노드(2,000개 초과)와 컨테이너(5,000개 초과)로 인해 메모리 부족 오류가 발생하는 문제를 해결했습니다. 예:
"Exception in thread 'main' java.lang.OutOfMemoryError"
.
변경 사항 및 기능 향상
다음은 EMR 릴리스 레이블 emr-4.9.1에 대한 Amazon 릴리스의 변경 사항입니다.
-
Amazon EMR 릴리스는 이제 Amazon Linux 2017.03을 기반으로 합니다. 자세한 내용은 https://aws.amazon.com/amazon-linux-ami/2017.03-release-notes/
단원을 참조하십시오. -
Amazon EMR 기본 Linux 이미지에서 Python 2.6을 제거했습니다. 필요하다면 Python 2.6을 수동으로 설치할 수도 있습니다.
릴리스 4.8.4
다음 릴리스 정보에는 Amazon EMR 4.8.4 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.8.3 릴리스와 관련이 있습니다.
릴리스 날짜: 2017년 2월 7일
이번 릴리스에서 일반적인 변경, 버그 수정 및 기능 개선이 이루어졌습니다.
릴리스 4.8.3
다음 릴리스 정보에는 Amazon EMR 4.8.3 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.8.2 릴리스와 관련이 있습니다.
릴리스 날짜: 2016년 12월 29일
업그레이드
이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.
-
Presto 0.157.1로 업그레이드되었습니다. 자세한 내용은 Presto 설명서에서 Presto 릴리스 정보
를 참조하세요. -
Spark 1.6.3으로 업그레이드되었습니다. 자세한 내용은 Apache Spark 설명서에서 Spark 릴리스 정보
를 참조하세요. -
ZooKeeper 3.4.9로 업그레이드되었습니다. 자세한 내용은 Apache ZooKeeper 설명서의 ZooKeeper 릴리스 정보를
참조하세요.
변경 사항 및 기능 향상
다음은 EMR 릴리스 레이블 emr-4.8.3에 대한 Amazon 릴리스의 변경 사항입니다.
-
5.0.0, EC2 5.0.3 및 5.2.0을 제외하고 Amazon EMR 버전 4.8.3 이상의 Amazon m4.16xlarge 인스턴스 유형에 대한 지원이 추가되었습니다.
-
Amazon EMR 릴리스는 이제 Amazon Linux 2016.09를 기반으로 합니다. 자세한 내용은 https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
단원을 참조하십시오.
이전 릴리스에서 해결된 알려진 문제
-
대규모 클러스터에서 동일한 파일의 복제와 삭제 간의 경합으로 인해 ReplicationMonitor 스레드가 오랫동안 멈출 수 있는 하둡 문제를 수정했습니다.
-
작업 상태가 성공적으로 업데이트되지 않았을 때 null 포인터 예외(NPE)로 ControlledJob#toString 실패하는 문제를 수정했습니다.
릴리스 4.8.2
다음 릴리스 정보에는 Amazon EMR 4.8.2 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.8.0 릴리스와 관련이 있습니다.
릴리스 날짜: 2016년 10월 24일
업그레이드
이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.
-
Hadoop 2.7.3로 업그레이드
-
Presto 0.152.3로 업그레이드했습니다. 여기에는 Presto 웹 인터페이스에 대한 지원이 포함됩니다. 포트 8889를 사용하여 Presto 코디네이터의 Presto 웹 인터페이스에 액세스할 수 있습니다. Presto 웹 인터페이스에 대한 자세한 내용은 Presto 설명서에서 Web interface
를 참조하세요. -
Amazon EMR 릴리스는 이제 Amazon Linux 2016.09를 기반으로 합니다. 자세한 내용은 https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
단원을 참조하십시오.
릴리스 4.8.0
릴리스 날짜: 2016년 9월 7일
업그레이드
이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.
-
HBase 1.2.2로 업그레이드됨
-
Presto-Sandbox 0.151으로 업그레이드
-
Tez 0.8.4로 업그레이드
-
Zeppelin-Sandbox 0.6.1으로 업그레이드
변경 사항 및 기능 향상
다음은 EMR 릴리스 레이블 emr-4.8.0에 대한 Amazon 릴리스의 변경 사항입니다.
-
인스턴스YARN가 종료되어가 더 이상 존재하지 않는 컨테이너를 정리하려고 ApplicationMaster 시도하는 문제를 수정했습니다.
-
Oozie 예제에서 Hive2 작업에 URL 대한 Hive2를 수정했습니다.
-
추가 Presto 카탈로그에 대한 지원을 추가했습니다.
-
백포트 패치: HIVE-8948
, HIVE-12679 , HIVE-13405 , PHOENIX-3116 , HADOOP-12689 -
암호화 옵션을 더 쉽게 생성하고 적용할 수 있도록 보안 구성에 대한 지원을 추가했습니다. 자세한 내용은 데이터 암호화를 참조하세요.
릴리스 4.7.2
다음 릴리스 정보에는 Amazon EMR 4.7.2에 대한 정보가 포함되어 있습니다.
릴리스 날짜: 2016년 7월 15일
특성
이 릴리스에서는 다음 기능을 사용할 수 있습니다.
-
Mahout 0.12.2로 업그레이드
-
Presto 0.148으로 업그레이드
-
Spark 1.6.2로 업그레이드
-
이제를 파라미터URI로 EMRFS 사용하여와 함께 AWSCredentialsProvider 사용할를 생성할 수 있습니다. 자세한 내용은 용 생성을 참조 AWSCredentialsProvider 하세요EMRFS.
-
EMRFS 에서는 이제 사용자가의
fs.s3.consistent.dynamodb.endpoint
속성을 사용하여 Consistent View 메타데이터에 대한 사용자 지정 DynamoDB 엔드포인트를 구성할 수 있습니다emrfs-site.xml
. -
/usr/bin
이라고 하는spark-example
에 스크립트가 추가되면서/usr/lib/spark/spark/bin/run-example
을 래핑하여 직접 예제를 실행할 수 있습니다. 예를 들어 Spark 배포와 함께 제공되는 SparkPi 예제를 실행하려면 명령줄spark-example SparkPi 100
에서 또는를의command-runner.jar
단계로 사용하여를 실행할 수 있습니다API.
이전 릴리스에서 해결된 알려진 문제
-
Oozie 와 함께 Spark도 설치된 경우
spark-assembly.jar
이 올바른 위치에 있지 않아서 Spark 애플리케이션이 Oozie와 함께 시작되지 못하는 문제를 수정했습니다. -
YARN 컨테이너의 Spark Log4j-based 로깅 문제를 해결했습니다.
릴리스 4.7.1
릴리스 날짜: 2016년 6월 10일
이전 릴리스에서 해결된 알려진 문제
-
프라이빗 서브넷이 VPC 있는에서 시작된 클러스터의 시작 시간을 연장하는 문제를 수정했습니다. 버그는 Amazon EMR 4.7.0 릴리스로 시작된 클러스터에만 영향을 미쳤습니다.
-
Amazon EMR4.7.0 릴리스에서 시작된 클러스터에 EMR 대한 Amazon의 파일 목록을 잘못 처리한 문제를 수정했습니다.
릴리스 4.7.0
중요
Amazon EMR 4.7.0은 더 이상 사용되지 않습니다. 대신 Amazon EMR 4.7.1 이상을 사용합니다.
릴리스 날짜: 2016년 6월 2일
특성
이 릴리스에서는 다음 기능을 사용할 수 있습니다.
-
Apache Phoenix 4.7.0 추가
-
Apache Tez 0.8.3 추가
-
HBase 1.2.1로 업그레이드됨
-
Mahout 0.12.0로 업그레이드
-
Presto 0.147으로 업그레이드
-
를 1.10.75 AWS SDK for Java 로 업그레이드했습니다.
-
사용자가 로컬 모드에서 Pig를 실행할 수 있도록
mapreduce.cluster.local.dir
의mapred-site.xml
속성에서 최종 플래그가 제거되었습니다.
클러스터에서 Amazon Redshift JDBC 드라이버 사용 가능
이제 Amazon Redshift JDBC 드라이버가에 포함되어 /usr/share/aws/redshift/jdbc
있습니다. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar
는 JDBC 4.1 호환 Amazon Redshift 드라이버이고 /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar
는 JDBC 4.0 호환 Amazon Redshift 드라이버입니다. 자세한 내용은 Amazon Redshift 관리 안내서의 JDBC 연결 구성을 참조하세요.
Java 8
Presto를 제외하고 OpenJDK 1.7은 모든 애플리케이션에 JDK 사용되는 기본값입니다. 그러나 OpenJDK 1.7과 1.8이 모두 설치됩니다. 애플리케이션에 대해 JAVA_HOME
을 설정하는 방법에 대한 자세한 내용은 Java 8을 사용하도록 애플리케이션 구성을 참조하세요.
이전 릴리스에서 해결된 알려진 문제
-
emr-4.6.0EMR에서 Amazon의 처리량 최적화HDD(st1) EBS 볼륨에 대한 성능에 상당한 영향을 미치는 커널 문제를 수정했습니다.
-
하둡을 애플리케이션으로 선택하지 않고 HDFS 암호화 영역을 지정하면 클러스터가 실패하는 문제를 해결했습니다.
-
기본 HDFS 쓰기 정책을에서
RoundRobin
로 변경했습니다AvailableSpaceVolumeChoosingPolicy
. 일부 볼륨이 RoundRobin 구성에 제대로 사용되지 않아 코어 노드가 실패하고를 신뢰할 수 없습니다HDFS. -
일관된 보기를 위해 기본 DynamoDB 메타데이터 테이블을 생성할 때 예외가 EMRFS CLI발생하는 문제를 해결했습니다.
-
멀티파트 이름 변경 및 복사 작업 중에 발생할 수 EMRFS 있는의 교착 상태 문제를 수정했습니다.
-
에서 CopyPart 크기 기본값이 5MBEMRFS인 문제를 수정했습니다. 기본값은 이제 128MB로 올바르게 설정됩니다.
-
서비스를 중단할 수 없는 Zeppelin upstart 구성 문제를 수정했습니다.
-
Spark 및 Zeppelin 관련 문제를 수정하여
/usr/lib/hadoop/hadoop-aws.jar
가 해당 클래스 경로에 제대로 로드되지 않았기 때문에s3a://
URI 스키마를 사용할 수 없었습니다. -
백포트됨 HUE-2484
. -
HBase 브라우저 샘플 관련 문제를 해결하기 위해 Hue 3.9.0(JIRA존재하지 않음)에서 커
밋을 백포트했습니다. -
HIVE-9073
을 백포트했습니다.
릴리스 4.6.0
릴리스 날짜: 2016년 4월 21일
특성
이 릴리스에서는 다음 기능을 사용할 수 있습니다.
-
HBase 1.2.0 추가
-
Zookeeper-Sandbox 3.4.8 추가
-
Presto-Sandbox 0.143로 업그레이드
-
Amazon EMR 릴리스는 이제 Amazon Linux 2016.03.0을 기반으로 합니다. 자세한 내용은 https://aws.amazon.com/amazon-linux-ami/2016.03-release-notes/
단원을 참조하십시오.
처리량 최적화HDD(st1) EBS 볼륨 유형에 영향을 미치는 문제
Linux 커널 버전 4.2 이상의 문제는의 처리량 최적화HDD(st1) EBS 볼륨에 대한 성능에 상당한 영향을 미칩니다EMR. 이 릴리스(emr-4.6.0)는 커널 버전 4.4.5를 사용하므로 영향을 받습니다. 따라서 st1 EBS 볼륨을 사용하려면 emr-4.6.0을 사용하지 않는 것이 좋습니다. emr-4.5.0 또는 이전 Amazon EMR 릴리스를 st1과 함께 사용해도 아무런 영향도 받지 않습니다. 또한 향후 릴리스에서 수정을 제공합니다.
Python 기본값
이제 Python 3.4가 기본적으로 설치되지만, 시스템 기본값은 여전히 Python 2.7입니다. 부트스트랩 작업을 사용하여 Python 3.4를 시스템 기본값으로 구성할 수 있습니다. 구성을 사용하여 spark-env
분류/usr/bin/python3.4
에서 PYSPARK_PYTHON 내보내기를 로 API 설정하여에서 사용하는 Python 버전에 영향을 미칠 수 있습니다 PySpark.
Java 8
Presto를 제외하고 OpenJDK 1.7은 모든 애플리케이션에 JDK 사용되는 기본값입니다. 그러나 OpenJDK 1.7과 1.8이 모두 설치됩니다. 애플리케이션에 대해 JAVA_HOME
을 설정하는 방법에 대한 자세한 내용은 Java 8을 사용하도록 애플리케이션 구성을 참조하세요.
이전 릴리스에서 해결된 알려진 문제
-
생성된 암호로 인해 애플리케이션 프로비저닝이 가끔 임의로 실패하는 문제를 수정했습니다.
-
이전에는
mysqld
가 모든 노드에 설치되었습니다. 이제 이 항목은 마스터 인스턴스에만 설치되며 선택한 애플리케이션에mysql-server
가 구성 요소로 포함되는 경우에만 설치됩니다. 현재 , HiveHCatalog, Hue, Presto-Sandbox 및 Sqoop-Sandboxmysql-server
구성 요소가 애플리케이션에 포함됩니다. -
기본값인 32에서 80
yarn.scheduler.maximum-allocation-vcores
으로 변경되었으며, 이는 코어 인스턴스 유형이 YARN 32보다 높게 설정된 몇 가지 큰 인스턴스 유형 중 하나인 클러스터에서maximizeResourceAllocation
옵션을 사용하는 동안 주로 Spark에서 발생하는 문제를 수정합니다. 즉, c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge 또는 m4.10xlarge가이 문제의 영향을 받았습니다. -
이제 s3-dist-cp는 모든 Amazon S3 추천EMRFS에를 사용하고 임시 HDFS 디렉터리에 더 이상 단계를 사용하지 않습니다.
-
클라이언트 측 암호화 멀티파트 업로드에 대한 예외 처리 문제를 수정했습니다.
-
사용자가 Amazon S3 스토리지 클래스를 변경할 수 있는 옵션을 추가했습니다. 기본적으로 이 설정은
STANDARD
입니다.emrfs-site
구성 분류 설정은fs.s3.storageClass
이며 가능한 값은STANDARD
,STANDARD_IA
및REDUCED_REDUNDANCY
입니다. 스토리지 클래스에 대한 자세한 내용은 Amazon Simple Storage Service 사용 설명서에서 스토리지 클래스를 참조하세요.
릴리스 4.5.0
릴리스 날짜: 2016년 4월 4일
특성
이 릴리스에서는 다음 기능을 사용할 수 있습니다.
-
Spark 1.6.1으로 업그레이드
-
Hadoop 2.7.2로 업그레이드
-
Presto 0.140로 업그레이드
-
Amazon S3 서버 측 암호화에 대한 AWS KMS 지원이 추가되었습니다.
이전 릴리스에서 해결된 알려진 문제
-
노드가 재부팅된 후 MySQL 및 Apache 서버가 시작되지 않는 문제를 해결했습니다.
-
Amazon S3에 저장된 파티셔닝되지 않은 테이블에서가 올바르게 작동하지 않는 문제를 수정IMPORT했습니다.
-
Hive 테이블에 쓸 때 준비 디렉터리를
/mnt/tmp
대신/tmp
로 지정해야 하는 Presto 문제를 수정했습니다.
릴리스 4.4.0
릴리스 날짜: 2016년 3월 14일
특성
이 릴리스에서는 다음 기능을 사용할 수 있습니다.
-
HCatalog 1.0.0 추가
-
Sqoop-Sandbox 1.4.6 추가
-
Presto 0.136로 업그레이드
-
Zeppelin 0.5.6로 업그레이드
-
Mahout 0.11.1으로 업그레이드
-
dynamicResourceAllocation
을 기본적으로 활성화했습니다. -
릴리스에 대한 모든 구성 분류의 표를 추가했습니다. 자세한 내용은 애플리케이션 구성의 구성 분류 테이블을 참조하세요.
이전 릴리스에서 해결된 알려진 문제
-
maximizeResourceAllocation
설정이 YARN ApplicationMaster 데몬에 충분한 메모리를 예약하지 못하는 문제를 수정했습니다. -
사용자 지정에서 발생하는 문제를 해결했습니다DNS. 제공된 사용자 지정 항목 앞에
resolve.conf
의 항목이 있으면 사용자 지정 항목을 확인할 수 없습니다. 이 동작은 기본 VPC 이름 서버가의 상위 항목으로 삽입VPC된의 클러스터의 영향을 받았습니다resolve.conf
. -
기본 Python이 버전 2.7으로 이동하고 해당 버전에 대해 boto가 설치되지 않는 문제를 수정했습니다.
-
YARN 컨테이너와 Spark 애플리케이션이 고유한 Ganglia 라운드 로빈 데이터베이스(rrd) 파일을 생성하여 인스턴스에 연결된 첫 번째 디스크가 채워지는 문제를 수정했습니다. 이 수정 사항으로 인해 YARN 컨테이너 수준 지표가 비활성화되고 Spark 애플리케이션 수준 지표가 비활성화되었습니다.
-
로그 푸셔에서 비어 있는 모든 로그 폴더가 삭제되는 문제를 수정했습니다. 그 효과는 로그 푸셔가 아래의 빈
user
폴더를 제거했기 때문에 Hive가 로그를 기록할 수 CLI 없다는 것입니다/var/log/hive
. -
Hive 가져오기에 영향을 미치는 문제를 수정했습니다. 이 문제는 파티셔닝에 영향을 미치며 결과적으로 가져오기 중 오류가 발생했습니다.
-
EMRFS 및 s3-dist-cp가 마침표가 포함된 버킷 이름을 제대로 처리하지 못한 문제를 수정했습니다.
-
버전 관리가 활성화된 버킷에서
_$folder$
마커 파일이 지속적으로 생성되지 EMRFS 않도록에서 동작을 변경하여 버전 관리가 활성화된 버킷의 성능을 개선할 수 있습니다. -
클라이언트 측 암호화가 활성화된 경우를 제외하고 명령 파일을 사용하지 EMRFS 않도록에서 동작을 변경했습니다. 클라이언트 측 암호화를 사용하는 동안 지침 파일을 삭제하려는 경우 emrfs-site.xml 속성인
fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled
를 true로 설정할 수 있습니다. -
YARN 로그 집계를 2일 동안 집계 대상에 로그를 보관하도록 변경했습니다. 기본 대상은 클러스터의 HDFS 스토리지입니다. 이 기간을 변경하려는 경우 클러스터를 생성할 때
yarn.log-aggregation.retain-seconds
분류를 사용하여yarn-site
의 값을 변경합니다. 평소와 같이, 클러스터를 생성할 때log-uri
파라미터를 사용하여 애플리케이션 로그를 Amazon S3에 저장할 수 있습니다.
패치 적용됨
이 릴리스에는 다음과 같은 오픈 소스 프로젝트의 패치가 포함되었습니다.
릴리스 4.3.0
릴리스 날짜: 2016년 1월 19일
특성
이 릴리스에서는 다음 기능을 사용할 수 있습니다.
-
Hadoop 2.7.1으로 업그레이드
-
Spark 1.6.0로 업그레이드
-
Ganglia를 3.7.2로 업그레이드
-
Presto를 0.130로 업그레이드
Amazon은 true로 설정된 spark.dynamicAllocation.enabled
경우를 EMR 일부 변경했습니다. 기본적으로 false입니다. 이 값을 true로 설정하면 이 설정은 maximizeResourceAllocation
설정을 통해 지정된 기본값에 영향을 미칩니다.
-
spark.dynamicAllocation.enabled
가 true로 설정되면spark.executor.instances
에서maximizeResourceAllocation
가 설정되지 않습니다. -
이제
spark.driver.memory
설정은spark.executors.memory
가 설정되는 방식과 비슷한 방식으로 클러스터의 인스턴스 유형에 따라 구성됩니다. 그러나 Spark 드라이버 애플리케이션은 마스터 또는 코어 인스턴스 중 하나(예: YARN 클라이언트 및 클러스터 모드)에서 실행될 수 있으므로spark.driver.memory
설정은이 두 인스턴스 그룹 간에 더 작은 인스턴스 유형의 인스턴스 유형에 따라 설정됩니다. -
이제
spark.default.parallelism
설정은 YARN 컨테이너에 사용할 수 있는 CPU 코어 수의 두 배로 설정됩니다. 이전 릴리스에서 이 설정은 해당 값의 절반이었습니다. -
Spark YARN 프로세스에 예약된 메모리 오버헤드에 대한 계산이 더 정확하도록 조정되어 Spark에서 사용할 수 있는 총 메모리 양(즉,
spark.executor.memory
)이 약간 증가했습니다.
이전 릴리스에서 해결된 알려진 문제
-
YARN 이제 로그 집계가 기본적으로 활성화됩니다.
-
로그 집계가 활성화되었을 때 YARN 로그가 클러스터의 Amazon S3 로그 버킷으로 푸시되지 않는 문제를 해결했습니다.
-
YARN 컨테이너 크기는 이제 모든 노드 유형에서 최소 32개입니다.
-
대규모 클러스터의 마스터 노드에 과도한 디스크 I/O를 유발하는 Ganglia 문제를 수정했습니다.
-
클러스터를 종료할 때 애플리케이션 로그가 Amazon S3에 푸시되지 않는 문제를 수정했습니다.
-
에서 특정 명령이 실패EMRFSCLI하는 문제를 수정했습니다.
-
종속성이 기본에 로드되는 것을 방지하는 Zeppelin 관련 문제를 수정했습니다 SparkContext.
-
크기 조정을 실행하여 인스턴스를 추가하려고 할 때 발생하는 문제를 수정했습니다.
-
CREATE TABLE AS가 Amazon S3에 과도한 목록 호출을 SELECT 하는 Hive의 문제를 수정했습니다.
-
Hue, Oozie 및 Ganglia를 설치하면 대규모 클러스터가 제대로 프로비저닝되지 않는 문제를 수정했습니다.
-
s3-dist-cp가 오류로 실패하더라도 0 종료 코드가 반환되는 문제를 수정했습니다.
패치 적용됨
이 릴리스에는 다음과 같은 오픈 소스 프로젝트의 패치가 포함되었습니다.
릴리스 4.2.0
릴리스 날짜: 2015년 11월 18일
특성
이 릴리스에서는 다음 기능을 사용할 수 있습니다.
-
Ganglia 지원 추가
-
Spark 1.5.2로 업그레이드
-
Presto 0.125로 업그레이드
-
Oozie를 4.2.0로 업그레이드
-
Zeppelin을 0.5.5로 업그레이드
-
를 1.10.27 AWS SDK for Java 로 업그레이드했습니다.
이전 릴리스에서 해결된 알려진 문제
-
기본 메타데이터 테이블 이름을 사용하지 않은의 문제를 수정EMRFSCLI했습니다.
-
Amazon S3에서 ORC지원 테이블을 사용할 때 발생하는 문제를 해결했습니다.
-
Spark 구성에서 Python 버전이 일치하지 않는 경우 발생하는 문제를 수정했습니다.
-
의 클러스터 문제로 인해 YARN 노드 상태가 보고되지 않는 DNS 문제를 수정했습니다VPC.
-
노드가 YARN 폐기되어 애플리케이션이 중단되거나 새 애플리케이션을 예약할 수 없을 때 발생하는 문제를 해결했습니다.
-
클러스터가 상태 TIMED_OUT_로 종료될 때 발생하는 문제를 해결했습니다STARTING.
-
다른 빌드에 EMRFS Scala 종속성을 포함할 때 발생하는 문제를 수정했습니다. Scala 종속성이 제거되었습니다.