기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon EMR on EKS 6.9.0 릴리스
다음 Amazon EMR 6.9.0 릴리스는 Amazon on EMR에서 사용할 수 있습니다EKS. 특정 emr-6.9.0-XXXX 릴리스를 선택하여 관련 컨테이너 이미지 태그와 같은 세부 정보를 봅니다.
-
emr-6.9.0-spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Amazon EMR 6.9.0 릴리스 정보
-
지원되는 애플리케이션 ‐ AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.
-
지원되는 구성 요소 ‐
aws-sagemaker-spark-sdk
,emr-ddb
,emr-goodies
,emr-s3-select
,emrfs
,hadoop-client
,hudi
,hudi-spark
,iceberg
,spark-kubernetes
. -
지원되는 구성 분류:
StartJobRun 및 CreateManagedEndpoint와 함께 사용하는 경우APIs:
분류 설명 core-site
Hadoop의 core-site.xml 파일에서 값을 변경합니다.
emrfs-site
EMRFS 설정을 변경합니다.
spark-metrics
Spark metrics.properties 파일의 값을 변경합니다.
spark-defaults
Spark spark-defaults.conf 파일의 값을 변경합니다.
spark-env
the Spark 환경의 값을 변경합니다.
spark-hive-site
Spark의 hive-site.xml 파일에서 값을 변경합니다.
spark-log4j
Spark log4j.properties 파일의 값을 변경합니다.
특히 CreateManagedEndpoint와 함께 사용하는 경우APIs:
분류 설명 jeg-config
Jupyter Enterprise Gateway의
jupyter_enterprise_gateway_config.py
파일에서 값을 변경합니다.jupyter-kernel-overrides
Jupyter 커널 사양 파일에서 커널 이미지 값을 변경합니다.
구성 분류를 사용하면 애플리케이션을 사용자 지정할 수 있습니다. 이는와 같은 애플리케이션의 구성 XML 파일에 해당하는 경우가 많습니다
spark-hive-site.xml
. 자세한 내용은 애플리케이션 구성을 참조하세요.
주목할 만한 기능
-
Nvidia RAPIDS Accelerator for Apache Spark - EC2 Amazon EMR on 그래픽 처리 유닛(GPU) 인스턴스 유형을 사용하여 Spark를 가속화EKS합니다. Spark 이미지를 RAPIDS Accelerator와 함께 사용하려면 릴리스 레이블을 emr-6.9.0-로 지정합니다spark-rapids-latest. 자세한 내용은 설명서 페이지를 참조하세요.
-
Spark-Redshift 커넥터 - Apache Spark용 Amazon Redshift 통합은 Amazon EMR 릴리스 6.9.0 이상에 포함되어 있습니다. 이전의 오픈 소스 도구였던, 이 기본 통합은 Spark 커넥터로, Amazon Redshift와 Amazon Redshift Serverless에서 데이터를 읽고 쓰는 Apache Spark 애플리케이션을 빌드할 수 있습니다. 자세한 내용은 Amazon EMR on EKS에서 Apache Spark용 Amazon Redshift 통합 사용 단원을 참조하십시오.
-
Delta Lake - Delta Lake
는 트랜잭션 일관성, 일관된 데이터 세트 정의, 스키마 진화 변경 및 데이터 변형 지원과 같은 기능을 포함하는 데이터 레이크를 구축할 수 있는 오픈 소스 스토리지 형식입니다. 자세한 내용은 Delta Lake 사용을 참조하세요. -
PySpark 파라미터 수정 - 대화형 엔드포인트는 이제 EMR Studio Jupyter Notebook의 PySpark 세션과 연결된 Spark 파라미터 수정을 지원합니다. 자세한 내용은 PySpark 세션 파라미터 수정을 참조하세요.
해결된 문제
-
Amazon EMR 버전 6.6.0, 6.7.0 및 6.8.0에서 Spark와 함께 DynamoDB 커넥터를 사용하는 경우, 입력 분할이 비어 있지 않은 데이터를 참조하더라도 테이블에서 읽은 모든 읽기는 빈 결과를 반환합니다. Amazon EMR 릴리스 6.9.0에서이 문제를 수정했습니다.
-
Amazon EMR on EKS 6.8.0은 Apache Spark
를 사용하여 생성된 Parquet 파일 메타데이터에 빌드 해시를 잘못 채웁니다. 이 문제로 인해 Amazon EMR on EKS 6.8.0에서 생성된 Parquet 파일의 메타데이터 버전 문자열을 구문 분석하는 도구가 실패할 수 있습니다.
알려진 문제
-
Apache Spark용 Amazon Redshift 통합을 사용하고 Parquet 형식의 time, timetz, timestamp 또는 timestamptz(마이크로초 정밀도)를 사용하는 경우 커넥터는 시간 값을 가장 가까운 밀리초 값으로 반올림합니다. 해결 방법으로, 텍스트 언로드 형식
unload_s3_format
파라미터를 사용합니다.