Apache Pig - Amazon EMR

Apache Pig

Apache Pig는 하둡을 기반으로 실행되는 오픈 소스 Apache 라이브러리이며, Java와 같은 낮은 수준의 컴퓨터 언어로 복잡한 코드를 작성할 필요가 없이 대규모 데이터 세트를 변환하는 데 사용할 수 있는 스크립팅 언어를 제공합니다. 라이브러리는 Pig Latin이라는 언어로 작성된 SQL 유형 명령을 가져와서, DAG(방향성 비순환 그래프) 또는 MapReduce 프로그램 기반의 Tez 작업으로 변환합니다. Pig는 다양한 형식의 정형 및 비정형 데이터를 사용하여 작업합니다. Pig에 대한 자세한 내용은 http://pig.apache.org/를 참조하십시오.

대화형으로 또는 배치 모드에서 Pig 명령을 실행할 수 있습니다. 대화형으로 Pig를 사용하려면 마스터 노드에 대한 SSH 연결을 생성하고 Grunt 셸을 사용하여 명령을 제출합니다. 배치 모드로 Pig를 사용하려면 Pig 스크립트를 작성하고 해당 스크립트를 Amazon S3에 업로드한 다음 클러스터 단계로 제출합니다. 클러스터에 작업을 제출하는 방법에 대한 자세한 내용은 Amazon EMR 관리 안내서에서 클러스터에 작업 제출을 참조하세요.

Pig를 사용하여 Amazon S3의 HCatalog 테이블에 출력을 쓰는 경우 mapred.output.direct.NativeS3FileSystemmapred.output.direct.EmrFileSystem 속성을 false로 설정하여 Amazon EMR 직접 쓰기를 비활성화합니다. 자세한 내용은 HCatalog 사용 단원을 참조하십시오. Pig 스크립트에서 SET mapred.output.direct.NativeS3FileSystem falseSET mapred.output.direct.EmrFileSystem false 명령을 사용할 수 있습니다.

다음 테이블에는 Amazon EMR이 Pig를 통해 설치하는 구성 요소와 함께 Amazon EMR 7.x 시리즈의 최신 릴리스에 포함된 Pig의 버전이 나열되어 있습니다.

이 릴리스에서 Pig와 함께 설치된 구성 요소의 버전은 릴리스 7.3.0 구성 요소 버전을 참조하세요.

emr-7.3.0용 Pig 버전 정보
Amazon EMR 릴리스 레이블 Pig 버전 Pig와 함께 설치된 구성 요소

emr-7.3.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

다음 테이블에는 Amazon EMR이 Pig를 통해 설치하는 구성 요소와 함께 Amazon EMR 6.x 시리즈의 최신 릴리스에 포함된 Pig의 버전이 나열되어 있습니다.

이 릴리스에서 Pig와 함께 설치된 구성 요소의 버전은 릴리스 6.15.0 구성 요소 버전을 참조하세요.

emr-6.15.0용 Pig 버전 정보
Amazon EMR 릴리스 레이블 Pig 버전 Pig와 함께 설치된 구성 요소

emr-6.15.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

다음 테이블에는 Amazon EMR이 Pig를 통해 설치하는 구성 요소와 함께 Amazon EMR 5.x 시리즈의 최신 릴리스에 포함된 Pig의 버전이 나열되어 있습니다.

이 릴리스에서 Pig와 함께 설치된 구성 요소의 버전은 릴리스 5.36.2 구성 요소 버전을 참조하세요.

emr-5.36.2용 Pig 버전 정보
Amazon EMR 릴리스 레이블 Pig 버전 Pig와 함께 설치된 구성 요소

emr-5.36.2

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn