Amazon EMR on EKS 6.9.0 릴리스 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EMR on EKS 6.9.0 릴리스

다음 Amazon EMR 6.9.0 릴리스는 Amazon on EMR에서 사용할 수 있습니다EKS. 특정 emr-6.9.0-XXXX 릴리스를 선택하여 관련 컨테이너 이미지 태그와 같은 세부 정보를 봅니다.

  • emr-6.9.0-latest

  • emr-6.9.0-20230905

  • emr-6.9.0-20230624

  • emr-6.9.0-20221108

  • emr-6.9.0-spark-rapids-latest

  • emr-6.9.0-spark-rapids-20230624

  • emr-6.9.0-spark-rapids-20221108

  • notebook-spark/emr-6.9.0-latest

  • notebook-spark/emr-6.9.0-20230624

  • notebook-spark/emr-6.9.0-20221108

  • notebook-python/emr-6.9.0-latest

  • notebook-python/emr-6.9.0-20230624

  • notebook-python/emr-6.9.0-20221108

Amazon EMR 6.9.0 릴리스 정보

  • 지원되는 애플리케이션 ‐ AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.

  • 지원되는 구성 요소 ‐ aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg, spark-kubernetes.

  • 지원되는 구성 분류:

    StartJobRun CreateManagedEndpoint와 함께 사용하는 경우APIs:

    분류 설명

    core-site

    Hadoop의 core-site.xml 파일에서 값을 변경합니다.

    emrfs-site

    EMRFS 설정을 변경합니다.

    spark-metrics

    Spark metrics.properties 파일의 값을 변경합니다.

    spark-defaults

    Spark spark-defaults.conf 파일의 값을 변경합니다.

    spark-env

    the Spark 환경의 값을 변경합니다.

    spark-hive-site

    Spark의 hive-site.xml 파일에서 값을 변경합니다.

    spark-log4j

    Spark log4j.properties 파일의 값을 변경합니다.

    특히 CreateManagedEndpoint와 함께 사용하는 경우APIs:

    분류 설명

    jeg-config

    Jupyter Enterprise Gateway의 jupyter_enterprise_gateway_config.py 파일에서 값을 변경합니다.

    jupyter-kernel-overrides

    Jupyter 커널 사양 파일에서 커널 이미지 값을 변경합니다.

    구성 분류를 사용하면 애플리케이션을 사용자 지정할 수 있습니다. 이는와 같은 애플리케이션의 구성 XML 파일에 해당하는 경우가 많습니다spark-hive-site.xml. 자세한 내용은 애플리케이션 구성을 참조하세요.

주목할 만한 기능

  • Nvidia RAPIDS Accelerator for Apache Spark - EC2 Amazon EMR on 그래픽 처리 유닛(GPU) 인스턴스 유형을 사용하여 Spark를 가속화EKS합니다. Spark 이미지를 RAPIDS Accelerator와 함께 사용하려면 릴리스 레이블을 emr-6.9.0-로 지정합니다spark-rapids-latest. 자세한 내용은 설명서 페이지를 참조하세요.

  • Spark-Redshift 커넥터 - Apache Spark용 Amazon Redshift 통합은 Amazon EMR 릴리스 6.9.0 이상에 포함되어 있습니다. 이전의 오픈 소스 도구였던, 이 기본 통합은 Spark 커넥터로, Amazon Redshift와 Amazon Redshift Serverless에서 데이터를 읽고 쓰는 Apache Spark 애플리케이션을 빌드할 수 있습니다. 자세한 내용은 Amazon EMR on EKS에서 Apache Spark용 Amazon Redshift 통합 사용 단원을 참조하십시오.

  • Delta Lake - Delta Lake는 트랜잭션 일관성, 일관된 데이터 세트 정의, 스키마 진화 변경 및 데이터 변형 지원과 같은 기능을 포함하는 데이터 레이크를 구축할 수 있는 오픈 소스 스토리지 형식입니다. 자세한 내용은 Delta Lake 사용을 참조하세요.

  • PySpark 파라미터 수정 - 대화형 엔드포인트는 이제 EMR Studio Jupyter Notebook의 PySpark 세션과 연결된 Spark 파라미터 수정을 지원합니다. 자세한 내용은 PySpark 세션 파라미터 수정을 참조하세요.

해결된 문제

  • Amazon EMR 버전 6.6.0, 6.7.0 및 6.8.0에서 Spark와 함께 DynamoDB 커넥터를 사용하는 경우, 입력 분할이 비어 있지 않은 데이터를 참조하더라도 테이블에서 읽은 모든 읽기는 빈 결과를 반환합니다. Amazon EMR 릴리스 6.9.0에서이 문제를 수정했습니다.

  • Amazon EMR on EKS 6.8.0은 Apache Spark를 사용하여 생성된 Parquet 파일 메타데이터에 빌드 해시를 잘못 채웁니다. 이 문제로 인해 Amazon EMR on EKS 6.8.0에서 생성된 Parquet 파일의 메타데이터 버전 문자열을 구문 분석하는 도구가 실패할 수 있습니다.

알려진 문제

  • Apache Spark용 Amazon Redshift 통합을 사용하고 Parquet 형식의 time, timetz, timestamp 또는 timestamptz(마이크로초 정밀도)를 사용하는 경우 커넥터는 시간 값을 가장 가까운 밀리초 값으로 반올림합니다. 해결 방법으로, 텍스트 언로드 형식 unload_s3_format 파라미터를 사용합니다.