AWS Glue 버전 - AWS Glue

AWS Glue 버전

작업을 추가하거나 업데이트할 때 AWS Glue 버전 파라미터를 구성할 수 있습니다. AWS Glue 버전은 AWS Glue가 지원하는 Apache Spark 및 Python 버전을 결정합니다. Python의 버전으로 Spark 유형의 작업에 대해 지원되는 버전을 확인할 수 있습니다. 다음 테이블에는 이용 가능한 AWS Glue 버전과 그에 상응하는 Spark 및 Python 버전, 그리고 다른 기능 변경 사항이 나열됩니다.

AWS Glue 버전

AWS Glue 버전 지원되는 런타임 환경 버전 지원되는 Java 버전 기능 변경 사항
AWS Glue 5.0
  • Spark 3.5.2

  • Python 3.11

  • Scala 2.12.18

Java 17

프레임워크 업데이트 외에도 이 AWS Glue 릴리스에는 다음과 같은 최적화 및 업그레이드가 내장되어 있습니다.

  • Amazon SageMaker Unified Studio 지원

  • Amazon SageMaker Lakehouse 지원

  • 오픈 테이블 형식(OTF)이 Hudi 0.15.0, Iceberg 1.6.1 및 Delta Lake 3.2.1로 업데이트됨

  • Lake Formation을 사용한 Spark 네이티브 세분화된 액세스 제어.

  • Amazon S3 Access Grants 지원

  • 추가 Python 라이브러리를 설치하기 위한 requirements.txt 지원

  • Amazon DataZone의 데이터 계보 지원

제한 사항

다음은 AWS Glue 5.0의 제한 사항입니다.

  • GlueContext 및 동적 프레임은 Lake Formation을 사용하는 Spark 네이티브 세분화된 액세스 제어(FGAC)에서 지원되지 않습니다.

AWS Glue 버전 5.0으로 마이그레이션에 대한 자세한 내용은 AWS Glue 버전 5.0으로 AWS Glue for Spark 작업 마이그레이션 섹션을 참조하세요.

AWS Glue 4.0 Spark 환경 버전
  • Spark 3.3.0

  • Python 3.10

Java 8

이 AWS Glue 릴리스에는 다음과 같은 AWS Glue 4.0의 여러 최적화 및 업그레이드가 기본으로 제공됩니다.

  • Spark 3.1에서 Spark 3.3으로 다양한 Spark 기능 업그레이드

    • Pandas와 연결할 경우 몇 가지 기능이 개선됩니다. 자세한 내용은 Spark 3.3의 새로운 기능을 참조하세요.

    • Amazon EMR에서 개발된 추가 최적화 포함

    • EMR 파일 시스템(EMRFS) 2.53으로 업그레이드

  • Log4j 1.x에서 Log4j 2로 마이그레이션

  • Boto의 업그레이드 버전과 같은 AWS Glue 3.0의 여러 Python 모듈 업데이트

  • 기본 Amazon Redshift 커넥터를 비롯한 여러 커넥터 업그레이드 부록 C: 커넥터 업그레이드 섹션을 참조하세요.

  • 여러 JDBC 드라이버 업그레이드 부록 B: JDBC 드라이버 업그레이드 섹션을 참조하세요.

  • 새로운 Amazon Redshift 커넥터와 JDBC 드라이버로 업데이트

  • Apache Hudi, Delta Lake 및 Apache Iceberg를 통해 개방형 데이터 레이크 프레임워크 기본 지원

  • Amazon S3를 사용하여 셔플링 및 탄력적인 스토리지 용량을 지원할 수 있도록 Amazon S3 기반 클라우드 셔플 스토리지 플러그인(Apache Spark 플러그인) 기본 지원

제한 사항

다음은 AWS Glue 4.0의 제한 사항입니다.

  • AWS Glue 기계 학습 및 개인 식별 정보(PII) 변환은 AWS Glue 4.0에서 아직 사용할 수 없습니다.

AWS Glue 버전 4.0으로 마이그레이션에 대한 자세한 내용은 AWS Glue 버전 4.0으로 AWS Glue for Spark 작업 마이그레이션 섹션을 참조하세요.

Ray 환경 버전
  • Ray 2.4.0

    Python 3.9

N/A

AWS Glue for Ray에서 분산 Python 애플리케이션을 구축하고 실행합니다.

  • Python 3.9에서 Ray-2.4.0 데이터 배포(ray[data])를 지원합니다. 이번 Ray 릴리스에 대한 자세한 내용은 Ray GitHub 리포지토리의 Ray-2.4.0을 참조하세요.

  • Ray2.4 런타임 환경에 추가 Python 라이브러리 설치를 지원합니다. 자세한 내용은 Ray 작업을 위한 추가 Python 모듈 섹션을 참조하세요.

  • Ray 작업의 로그와 지표를 Amazon CloudWatch와 통합합니다. 자세한 내용은 로그에서 AWS Glue for Ray 오류 해결지표를 통한 Ray 작업 모니터링 단원을 참조하세요.

  • 각 작업 실행 페이지에서 AWS Glue Studio의 Ray 작업에 대한 지표를 집계하고 시각화합니다.

  • 클러스터의 각 작업 디렉터리에 파일을 배포하고, Ray 객체 스토어에서 Amazon S3로 객체를 유출하며, Ray 작업에 할당된 워커 노드의 최소 수를 제어하도록 지원합니다. 자세한 내용은 Ray 작업에서 작업 파라미터 사용 섹션을 참조하세요.

AWS Glue 4.0에서 Ray 작업 제한

  • Ray에 대한 AWS Glue 대화형 세션은 이번 릴리스에서 계속 평가판으로 유지됩니다.

  • AWS Glue for Ray 및 Amazon VPC의 통합은 현재 사용할 수 없습니다. AWS에서 VPC 내 리소스는 퍼블릭 경로로만 액세스할 수 있습니다. Amazon VPC에서 AWS Glue를 사용하는 방법에 대한 자세한 내용은 AWS Glue에 대한 인터페이스 VPC 엔드포인트(AWS PrivateLink) 구성(AWS PrivateLink) 섹션을 참조하세요.

  • AWS Glue for Ray는 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤), 아시아 태평양(도쿄), 유럽(아일랜드)에서 사용 가능합니다.

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Spark 엔진을 3.0으로 업그레이드하는 것 외에도 이 AWS Glue 릴리스에는 다음과 같은 최적화 및 업그레이드가 내장되어 있습니다.

  • Spark의 주요 릴리스인 Spark 3.0에 대해 AWS Glue ETL 라이브러리를 구축합니다.

  • 스트리밍 작업은 AWS Glue 3.0에서 지원됩니다.

  • 성능과 안정성을 위한 새로운 AWS Glue Spark 런타임 최적화를 포함합니다.

    • CSV 데이터 읽기를 위한 Apache Arrow 기반의 더 빠른 인메모리 열 형식 처리.

    • CSV 데이터로 벡터화된 읽기를 위한 SIMD 기반 실행.

    • Spark 업그레이드에는 Amazon EMR에서 개발된 추가 최적화도 포함됩니다.

    • EMRFS가 2.38에서 2.46으로 업그레이드되어 Amazon S3 액세스에 대한 새로운 기능과 버그 수정이 가능합니다.

  • 새 Spark 버전에 필요한 여러 종속성이 업그레이드되었습니다.

  • 기본적으로 지원되는 데이터 원본용으로 JDBC 드라이버가 업그레이드되었습니다.

제한 사항

다음은 AWS Glue 3.0의 제한 사항입니다.

  • AWS Glue 기계 학습 변환은 아직 AWS Glue 3.0에서 사용할 수 없습니다.

  • 일부 사용자 정의 Spark 커넥터는 Spark 2.4에 종속되고 Spark 3.1과 호환되지 않는 경우 AWS Glue 3.0에서 작동하지 않습니다.

AWS Glue 2.0(지원 중단됨, 지원 종료)
  • Spark 2.4.3

  • Python 3.7

N/A

AWS Glue 버전 1.0에서 제공되는 기능 외에도 AWS Glue 버전 2.0은 다음을 제공합니다.

  • AWS Glue에서 Apache Spark ETL 작업을 실행하고 시작 시간을 단축하기 위한 업그레이드된 인프라.

  • 기본 로깅은 이제 드라이버와 실행기, 출력 및 오류에 대한 별도의 스트림을 사용하여 실시간으로 이루어집니다.

  • 작업 수준에서 추가 Python 모듈 또는 다른 버전 지정 지원.

참고

AWS Glue 버전 2.0은 기본 아키텍처 변경으로 인해 일부 종속성 및 버전에 대해 AWS Glue 버전 1.0과 다릅니다. 주요 AWS Glue 버전 릴리스 간에 마이그레이션하기 전에 AWS Glue 작업을 검증합니다.

AWS Glue 1.0(지원 중단됨, 지원 종료)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/A

AWS Glue ETL 작업에서는 Parquet 및 ORC 포맷에 대해 작업 북마크를 유지할 수 있습니다(AWS Glue 버전 1.0 사용). 이전에는 AWS Glue ETL 작업에서 JSON, CSV, Apache Avro, XML처럼 일반적인 Amazon S3 소스 형식만 북마크가 가능했습니다.

ETL 입력 및 출력의 포맷 옵션을 설정할 때 Apache Avro 리더/라이터 포맷 1.8을 사용해 Avro 논리적 유형 읽기 및 쓰기를 지원하도록 지정할 수 있습니다(AWS Glue 버전 1.0 사용). 이전에는 버전 1.7 Avro 리더/라이터 포맷만 지원되었습니다.

DynamoDB 연결 유형은 라이터 옵션(AWS Glue 버전 1.0 사용)을 지원합니다.

제한 사항

다음은 AWS Glue 1.0의 제한 사항입니다.

  • AWS Glue 버전 0.9 및 1.0은 아시아 태평양(자카르타)(ap-southeast-3), 중동(UAE)(me-central-1) 또는 향후 기타 신규 리전에서 사용할 수 없습니다.

AWS Glue 0.9(지원 중단됨, 지원 종료)
  • Spark 2.2.1

  • Python 2.7

N/A

AWS Glue 버전 지정 없이 생성된 작업은 AWS Glue 0.9로 기본 지정됩니다.

제한 사항

다음은 AWS Glue 0.9의 제한 사항입니다.

  • AWS Glue 버전 0.9 및 1.0은 아시아 태평양(자카르타)(ap-southeast-3), 중동(UAE)(me-central-1) 또는 향후 기타 신규 리전에서 사용할 수 없습니다.

참고

다음 Glue 버전은 다음 버전의 PythonShell을 지원합니다.

  • PythonShell v3.6은 Glue 버전 1.0에서 지원됩니다.

  • PythonShell v3.9는 Glue 버전 3.0에서 지원됩니다.

추가로 개발 엔드포인트는 Glue 버전 1.0 및 0.9에서만 지원됩니다.