Amazon EMR에서 COPY - Amazon Redshift

Amazon EMR에서 COPY

COPY 명령을 사용하면 클러스터의 Hadoop 분산 파일 시스템(HDFS)에 고정 폭 파일, 문자로 구분된 파일, CSV 파일, JSON 파일 또는 Avro 파일 형식으로 텍스트 파일을 쓰도록 구성된 Amazon EMR 클러스터에서 병렬로 데이터를 로드할 수 있습니다.

구문

FROM 'emr://emr_cluster_id/hdfs_filepath' authorization [ optional_parameters ]

다음은 Amazon EMR 클러스터에서 데이터를 로드하는 예입니다.

copy sales from 'emr://j-SAMPLE2B500FC/myoutput/part-*' iam_role 'arn:aws:iam::0123456789012:role/MyRedshiftRole';

파라미터

FROM

로드할 데이터 원본입니다.

'emr://emr_cluster_id/hdfs_file_path'

COPY 명령에서 데이터 파일을 참조하는 Amazon EMR 클러스터 및 HDFS 파일 경로의 고유 식별자입니다. HDFS 데이터 파일 이름에는 와일드카드 문자인 별표(*)와 물음표(?)가 포함되어서는 안 됩니다.

참고

Amazon EMR 클러스터는 COPY 작업이 완료될 때까지 계속 실행되어야 합니다. COPY 작업을 마치기 전에 HDFS 데이터 파일이 하나라도 변경되거나 삭제되면 예상하지 못한 결과가 나오거나 COPY 작업이 중단될 수 있습니다.

와일드카드 문자인 별표(*)와 물음표(?)를 hdfs_file_path 인수에 사용하여 다수의 파일을 로드하도록 지정할 수 있습니다. 예를 들어 'emr://j-SAMPLE2B500FC/myoutput/part*'는 파일 part-0000, part-0001 등을 식별합니다. 와일드카드 문자가 없는 파일 경로는 문자열 리터럴로 처리됩니다. 폴더 이름만 지정하면 COPY가 폴더의 모든 파일을 로드하려고 합니다.

중요

와일드카드 문자를 사용하거나 폴더 이름만 사용하는 경우에는 불필요한 파일이 로드되지 않는지 확인하십시오. 예를 들어 일부 프로세스에서는 로그 파일이 출력 폴더로 로드되는 경우도 있습니다.

자세한 내용은 Amazon EMR에서 데이터 로드 단원을 참조하십시오.

권한 부여

COPY 명령을 실행하려면 Amazon S3, Amazon EMR, Amazon DynamoDB, Amazon EC2의 데이터를 포함해 다른 AWS 리소스의 데이터에도 액세스할 수 있도록 권한 부여가 필요합니다. 권한은 클러스터에 연결되는 AWS Identity and Access Management(IAM) 역할을 참조하거나(역할 기반 액세스 제어) 사용자의 액세스 자격 증명을 입력하면(키 기반 액세스 제어) 부여할 수 있습니다. 보안과 유연성을 높이려면 IAM 역할 기반 액세스 제어를 권장합니다. 자세한 내용은 권한 부여 파라미터 단원을 참조하십시오.

지원되는 파라미터

Amazon EMR에서 COPY를 지원할 때는 다음 파라미터를 옵션으로 지정할 수 있습니다.

지원되지 않는 파라미터

Amazon EMR에서 COPY를 지원할 때는 다음 파라미터를 사용할 수 없습니다.

  • Encrypted

  • MANIFEST

  • REGION

  • READRATIO

  • SSH