Apache Pig - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Apache Pig

Apache Pig è una libreria Apache open source eseguibile in Hadoop. Fornisce un linguaggio di script che puoi utilizzare per trasformare set di dati di grandi dimensioni senza dover scrivere codice complesso in un linguaggio di programmazione di livello inferiore come Java. La libreria SQL accetta comandi simili a quelli scritti in un linguaggio chiamato Pig Latin e li converte in lavori Tez basati su grafici aciclici diretti () o programmi. DAGs MapReduce Pig utilizza dati strutturati e non strutturati in vari formati. Per ulteriori informazioni su Pig, visita la pagina Web all'indirizzo http://pig.apache.org/.

Puoi eseguire i comandi Pig in modalità interattiva o batch. Per usare Pig in modo interattivo, crea una SSH connessione al nodo master e invia i comandi usando la shell Grunt. Per utilizzare Pig in modalità batch, scrivi script Pig, caricali in Amazon S3 e inviali come fasi del cluster. Per ulteriori informazioni sull'invio di lavori a un cluster, consulta la sezione Invia lavoro a un cluster nella Amazon EMR Management Guide.

Quando usi Pig per scrivere l'output su una HCatalog tabella in Amazon S3, disabilita EMR Amazon Direct Write impostando mapred.output.direct.NativeS3FileSystem le proprietà mapred.output.direct.EmrFileSystem and su. false Per ulteriori informazioni, consulta Usando HCatalog. In uno script Pig, puoi utilizzare i comandi SET mapred.output.direct.NativeS3FileSystem false e SET mapred.output.direct.EmrFileSystem false.

La tabella seguente elenca la versione di Pig inclusa nell'ultima versione della serie Amazon EMR 7.x, insieme ai componenti che Amazon EMR installa con Pig.

Per la versione dei componenti installati con Pig in questa versione, consulta Versioni dei componenti della release 7.3.0.

Informazioni sulla versione di Pig per emr-7.3.0
Etichetta EMR di rilascio Amazon Version di Pig Componenti installati con Pig

emr-7.3.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

La tabella seguente elenca la versione di Pig inclusa nell'ultima versione della serie Amazon EMR 6.x, insieme ai componenti che Amazon EMR installa con Pig.

Per la versione dei componenti installati con Pig in questo rilascio, consulta Versioni dei componenti del rilascio 6.15.0.

Informazioni sulla versione di Pig per emr-6.15.0
Etichetta EMR di rilascio Amazon Version di Pig Componenti installati con Pig

emr-6.15.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

La tabella seguente elenca la versione di Pig inclusa nell'ultima versione della serie Amazon EMR 5.x, insieme ai componenti che Amazon EMR installa con Pig.

Per la versione dei componenti installati con Pig in questa versione, consulta Versioni dei componenti della release 5.36.2.

Informazioni sulla versione di Pig per emr-5.36.2
Etichetta EMR di rilascio Amazon Version di Pig Componenti installati con Pig

emr-5.36.2

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn