Amazon EMR 클러스터 출력 위치 구성 - Amazon EMR

Amazon EMR 클러스터 출력 위치 구성

Amazon EMR 클러스터의 가장 일반적인 출력 형식은 압축 또는 압축 해제된 텍스트 파일입니다. 일반적으로 이 파일은 Amazon S3 버킷에 기록됩니다. 클러스터를 시작하기 전에 이 버킷을 만들어야 합니다. 클러스터를 시작할 때 S3 버킷을 출력 위치로 지정합니다.

자세한 정보는 다음 주제를 참조하세요.

Amazon S3 버킷 생성 및 구성

Amazon EMR은 Amazon S3를 사용하여 입력 데이터, 로그 파일 및 출력 데이터를 저장합니다. Amazon S3에서는 이러한 스토리지 위치를 버킷이라고 합니다. 버킷에는 Amazon S3 및 DNS 요구 사항을 준수하기 위한 특정 규제 및 제한이 있습니다. 자세한 내용은 Amazon Simple Storage Service 개발자 안내서DPTJ 버킷 규제 및 제한을 참조하세요.

Amazon S3 버킷을 생성하려면 Amazon Simple Storage Service 사용 설명서에서 버킷 생성 지침을 따릅니다.

참고

Create a Bucket(버킷 생성) 마법사에서 로깅을 활성화할 경우 클러스터 로그가 아니라 버킷 액세스 로그만 활성화됩니다.

참고

리전별 버킷을 지정하는 방법에 대한 자세한 내용은 Amazon Simple Storage Service 개발자 안내서에서 버킷 및 리전Available Region Endpoints for the AWS SDK를 참조하세요.

버킷을 생성한 후에는 해당 버킷에 적합한 권한을 설정할 수 있습니다. 일반적으로 자신(소유자)에게 읽기 및 쓰기 액세스 권한을 부여합니다. 버킷을 구성할 때는 Amazon S3의 보안 모범 사례를 따르는 것이 좋습니다.

클러스터를 생성하려면 먼저 필수 Amazon S3 버킷이 필요합니다. 클러스터에서 참조되는 모든 필수 스크립트 또는 데이터를 Amazon S3로 업로드해야 합니다. 다음 표에서는 예제 데이터, 스크립트 및 로그 파일 위치에 대해 설명합니다.

정보 Amazon S3에서 위치 예제
스크립트 또는 프로그램 s3://amzn-s3-demo-bucket1/script/MapperScript.py
로그 파일 s3://amzn-s3-demo-bucket1/logs
입력 데이터 s3://amzn-s3-demo-bucket1/input
출력 데이터 s3://amzn-s3-demo-bucket1/output