Amazon EMR에서 인스턴스 스토리지 옵션 및 동작 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EMR에서 인스턴스 스토리지 옵션 및 동작

개요

인스턴스 스토어 및 Amazon EBS 볼륨 스토리지는 HDFS 데이터, 그리고 일부 애플리케이션에서 로컬 파일 시스템으로 '유출'할 수 있는 버퍼, 캐시, 스크래치 데이터 및 기타 임시 콘텐츠에 사용됩니다.

Amazon EBS는 Amazon EMR 내에서 일반 Amazon EC2 인스턴스와는 다르게 작동합니다. Amazon EMR 클러스터에 연결된 Amazon EBS 볼륨은 휘발성입니다. 따라서 클러스터 및 인스턴스 종료 시 볼륨이 삭제되므로(예: 인스턴스 그룹 축소 시), 데이터 지속성을 기대할 수 없습니다. 데이터가 휘발성이더라도, 클러스터 내 노드의 개수와 특수화에 따라 HDFS의 데이터를 복제할 수도 있습니다. Amazon EBS 스토리지 볼륨 추가 시 이들 볼륨이 추가 볼륨으로 마운트됩니다. 이는 부팅 볼륨에 속하지 않습니다. YARN은 모든 추가 볼륨을 사용하도록 구성되어 있지만, 사용자가 추가 볼륨을 로컬 스토리지(예를 들면 로컬 로그 파일용)로 직접 할당해야 합니다.

고려 사항

Amazon EBS를 EMR 클러스터와 함께 사용하는 경우에는 다음의 추가 고려 사항에 유의하세요.

  • Amazon EBS 볼륨의 스냅샷을 생성한 후에 Amazon EMR에서 해당 볼륨을 복원할 수 없습니다. 재사용 가능한 사용자 지정 구성을 생성하려면 사용자 지정 AMI(Amazon EMR 버전 5.7.0 이상에서 사용 가능)를 사용합니다. 자세한 내용은 사용자 지정 AMI를 사용하여 Amazon EMR 클러스터 구성에 더 많은 유연성 제공 단원을 참조하십시오.

  • 암호화된 Amazon EBS 루트 디바이스 볼륨은 사용자 지정 AMI를 사용하는 경우에만 지원됩니다. 자세한 내용은 암호화된 Amazon EBS 루트 디바이스 볼륨이 있는 사용자 지정 AMI 생성 단원을 참조하십시오.

  • Amazon EMR API를 사용하여 태그를 적용할 경우 해당 작업이 EBS 볼륨에 적용됩니다.

  • 인스턴스당 25개 볼륨으로 제한됩니다.

  • 코어 노드의 Amazon EBS 볼륨은 5GB 미만일 수 없습니다.

  • Amazon EBS에는 인스턴스 시작 요청당 2,500개의 EBS 볼륨과 같은 고정된 제한이 있습니다. 이 제한은 EC2 클러스터의 Amazon EMR에도 적용됩니다. 총 EBS 볼륨 수가 이 제한 내에 있는 클러스터를 시작한 다음, 필요에 따라 클러스터를 수동으로 스케일 업하거나 Amazon EMR Managed Scaling을 사용하는 것이 좋습니다. EBS 볼륨 제한에 대해 자세히 알아보려면 Service quotas를 참조하세요.

인스턴스의 기본 Amazon EBS 스토리지

EBS 전용 스토리지가 있는 EC2 인스턴스에서는 Amazon EMR이 Amazon EBS gp2 또는 gp3 스토리지 볼륨을 인스턴스에 할당합니다. Amazon EMR 릴리스 5.22.0 이상을 사용하여 클러스터를 생성할 때 Amazon EBS 스토리지의 기본 크기가 인스턴스 크기에 따라 증가합니다.

증가된 스토리지는 복수의 볼륨에서 분할됩니다. 이로 인해 IOPS 성능이 향상되고, 결과적으로 일부 표준화된 워크로드의 성능이 높아집니다. 다른 Amazon EBS 인스턴스 스토리지 구성을 사용하려는 경우 EMR 클러스터를 생성하거나 기존 클러스터에 노드를 추가할 때 이 구성을 지정할 수 있습니다. Amazon EBS gp2 또는 gp3 볼륨을 루트 볼륨으로 사용하고 gp2 또는 gp3 볼륨을 추가 볼륨으로 추가할 수 있습니다. 자세한 내용은 추가 EBS 스토리지 볼륨 지정 단원을 참조하십시오.

다음 테이블에는 Amazon EBS gp2 스토리지 볼륨의 기본 수, 크기 및 인스턴스 유형별 총 크기가 나와 있습니다. gp2 볼륨과 gp3의 볼륨 비교에 대한 자세한 내용을 확인하려면 Amazon EBS 볼륨 유형 gp2 및 gp3 비교 섹션을 참조하세요.

Amazon EMR 5.22.0 이상에서 인스턴스 유형별 기본 Amazon EBS gp2 스토리지 볼륨 및 크기
인스턴스 크기 볼륨 수 볼륨 크기(GiB) 총 크기(GiB)

*.large

1

32

32

*.xlarge

2

32

64

*.2xlarge

4

32

128

*.4xlarge

4

64

256

*.8xlarge

4

128

512

*.9xlarge

4

144

576

*.10xlarge

4

160

640

*.12xlarge

4

192

768

*.16xlarge

4

256

1024

*.18xlarge

4

288

1152

*.24xlarge

4

384

1536

인스턴스에 대한 기본 Amazon EBS 루트 볼륨

Amazon EMR 릴리스 6.15 이상에서는 성능 향상을 위해 AMI용 루트 디바이스로 Amazon EBS 범용 SSD(gp3)를 자동으로 연결합니다. 이전 릴리스를 사용하는 경우에는 Amazon EMR에서 EBS 범용 SSD(gp2)를 루트 디바이스로 연결합니다.

6.15 이상 6.14.x 이하
기본 루트 볼륨 유형
  • gp3

  • gp2

기본 크기
  • 15GiB

  • (구성 가능)

  • 6.10 이상 = 15GiB

  • 6.9 이하 = 10GiB

  • (구성 가능)

기본 IOPS
  • 3000

  • (구성 가능)

기본 처리량
  • 125MiB/s

  • (구성 가능)

Amazon EBS 루트 디바이스 볼륨을 사용자 지정하는 방법에 대한 자세한 내용을 확인하려면 추가 EBS 스토리지 볼륨 지정 섹션을 참조하세요.

추가 EBS 스토리지 볼륨 지정

Amazon EMR에서 인스턴스 유형을 구성할 때 추가 EBS 볼륨을 지정하여 인스턴스 스토어(있는 경우) 및 기본 EBS 볼륨 외에 용량을 추가할 수 있습니다. Amazon EBS는 범용(SSD), 프로비저닝된 IOPS(SSD), 처리량 최적화(HDD), 콜드(HDD) 및 마그네틱 등의 볼륨 유형을 제공합니다. 이들 유형은 성능 특성과 가격이 다르므로 애플리케이션의 분석 및 비즈니스 필요에 맞게 스토리지를 조정할 수 있습니다. 예를 들어, 일부 애플리케이션의 경우 디스크로 유출되어야 하는 반면, 다른 애플리케이션은 메모리 내에서 또는 Amazon S3를 사용하여 안전하게 작업할 수 있습니다.

클러스터를 시작할 때, 그리고 추가 태스크 노드 인스턴스 그룹을 추가할 때에만 클러스터의 인스턴스에 Amazon EBS 볼륨을 추가할 수 있습니다. Amazon EMR 클러스터의 인스턴스가 작동하지 않는 경우 해당 인스턴스와 연결된 Amazon EBS 볼륨이 모두 새 볼륨으로 대체됩니다. 따라서 Amazon EBS 볼륨을 수동으로 분리하는 경우 Amazon EMR에서는 해당 동작을 오류로 간주하여 두 인스턴스 스토리지(해당하는 경우)와 볼륨 스토어를 모두 바꿉니다.

Amazon EMR에서는 기존 EMR 클러스터의 볼륨 유형을 gp2에서 gp3로 수정할 수 없습니다. 워크로드에 gp3를 사용하려면 새 EMR 클러스터를 시작해야 합니다. 또한 Amazon EMR은 클러스터 스케일 업 중에 추가하는 모든 새 인스턴스에 대해 클러스터 시작 시 지정한 처리량과 IOPS 값을 사용하므로 사용 중이거나 프로비저닝 중인 클러스터의 처리량 및 IOPS는 업데이트하지 않는 것이 좋습니다. 자세한 내용은 Amazon EBS 볼륨 유형 gp2 및 gp3 비교gp3 Amazon EBS 볼륨 유형으로 마이그레이션할 때 IOPS 및 처리량 선택 단원을 참조하세요.

중요

EMR 클러스터에서 gp3 볼륨을 사용하려면 새 클러스터를 시작해야 합니다.