Apache Pig
O Apache Pig é uma biblioteca Apache de código aberto que é executada sobre o Hadoop, fornecendo uma linguagem de scripts que você pode usar para transformar grandes conjuntos de dados sem precisar gravar códigos complexos em uma linguagem de computação de nível inferior, como Java. A biblioteca usa comandos semelhantes aos do SQL, escritos em uma linguagem chamada de Pig Latin, e converte esses comandos em trabalhos do Tez com base em gráficos acíclicos dirigidos (DAGs) ou programas MapReduce. O Pig funciona com dados estruturados e não estruturados em vários formatos. Para obter mais informações sobre o Pig, consulte http://pig.apache.org/
Você pode executar comandos do Pig interativamente ou no modo em lote. Para usar o Pig interativamente, crie uma conexão SSH com o nó principal e envie os comandos usando o shell do Grunt. Para usar o Pig no modo em lote, escreva os scripts do Pig, carregue-os no Amazon S3 e envie-os como etapas do cluster. Para obter mais informações sobre como enviar trabalhos para um cluster, consulte Enviar trabalhos para um cluster no Guia de gerenciamento do Amazon EMR.
Ao usar o Pig para gravar a saída em uma tabela do HCatalog no Amazon S3, desabilite a gravação direta do Amazon EMR definindo as propriedades mapred.output.direct.NativeS3FileSystem
e mapred.output.direct.EmrFileSystem
como false
. Para ter mais informações, consulte Uso do HCatalog. Dentro de um script do Pig, você pode usar os comandos SET mapred.output.direct.NativeS3FileSystem false
e SET mapred.output.direct.EmrFileSystem false
.
A tabela a seguir lista a versão do Pig incluída na versão mais recente da série 7.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Pig.
Para obter a versão dos componentes instalados com o Pig nesse lançamento, consulte Release 7.3.0 Component Versions.
Rótulo de versão do Amazon EMR | Versão do Pig | Componentes instalados com o Pig |
---|---|---|
emr-7.3.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
A tabela a seguir lista a versão do Pig incluída na versão mais recente da série 6.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Pig.
Para obter a versão dos componentes instalados com o Pig nessa versão, consulte Release 6.15.0 Component Versions.
Rótulo de versão do Amazon EMR | Versão do Pig | Componentes instalados com o Pig |
---|---|---|
emr-6.15.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
A tabela a seguir lista a versão do Pig incluída na versão mais recente da série 5.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Pig.
Para obter a versão dos componentes instalados com o Pig nesse lançamento, consulte Release 5.36.2 Component Versions.
Rótulo de versão do Amazon EMR | Versão do Pig | Componentes instalados com o Pig |
---|---|---|
emr-5.36.2 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn |