Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Apache Pig
Apache Pig ist eine Open-Source-Apache-Bibliothek, die auf Hadoop basiert und eine Skriptsprache bereitstellt, die Sie verwenden können, um große Datasets zu transformieren, ohne dass Sie komplexen Code in einer Computersprache einer niedrigeren Ebene schreiben müssen, wie etwa Java. Die Bibliothek verwendet SQL ähnliche Befehle, die in einer Sprache namens Pig Latin geschrieben sind, und konvertiert diese Befehle in Tez-Jobs, die auf gerichteten azyklischen Graphen (DAGs) oder Programmen basieren. MapReduce Pig funktioniert mit strukturierten und unstrukturierten Daten in verschiedenen Formaten. Weitere Informationen zu Pig finden Sie unter http://pig.apache.org/
Sie können Pig-Befehle interaktiv oder im Batch-Modus ausführen. Um Pig interaktiv zu verwenden, stellen Sie eine SSH Verbindung zum Master-Knoten her und senden Sie Befehle mithilfe der Grunt-Shell. Um Pig im Batch-Modus zu nutzen, laden Sie Ihre Pig-Skripts in Amazon S3 hoch und senden diese dann als Cluster-Schritte. Weitere Informationen zum Einreichen von Arbeit an einen Cluster finden Sie unter Arbeit an einen Cluster einreichen im Amazon EMR Management Guide.
Wenn Sie Pig verwenden, um Ausgaben in eine HCatalog Tabelle in Amazon S3 zu schreiben, deaktivieren Sie Amazon EMR Direct Write, indem Sie die mapred.output.direct.EmrFileSystem
Eigenschaften mapred.output.direct.NativeS3FileSystem
und auf setzenfalse
. Weitere Informationen finden Sie unter Verwenden von HCatalog. Innerhalb eines Pig-Skripts können Sie die Befehle SET mapred.output.direct.NativeS3FileSystem false
und SET mapred.output.direct.EmrFileSystem false
verwenden.
In der folgenden Tabelle sind die Version von Pig aufgeführt, die in der neuesten Version der Amazon EMR 7.x-Serie enthalten ist, sowie die Komponenten, die Amazon zusammen mit Pig EMR installiert.
Informationen zur Version der Komponenten, die in dieser Version mit Pig installiert wurden, finden Sie unter Komponentenversionen von Version 7.5.0.
EMRAmazon-Freigabeetikett | Pig-Version | Mit Pig installierte Komponenten |
---|---|---|
emr-7.5.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
In der folgenden Tabelle sind die Version von Pig aufgeführt, die in der neuesten Version der Amazon EMR 6.x-Serie enthalten ist, sowie die Komponenten, die Amazon zusammen mit Pig EMR installiert.
Die Version der Komponenten, die mit Pig in dieser Version installiert wurden, finden Sie unter Komponentenversionen der Version 6.15.0.
EMRAmazon-Freigabeetikett | Pig-Version | Mit Pig installierte Komponenten |
---|---|---|
emr-6.15.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
In der folgenden Tabelle sind die Version von Pig aufgeführt, die in der neuesten Version der Amazon EMR 5.x-Serie enthalten ist, sowie die Komponenten, die Amazon zusammen mit Pig EMR installiert.
Informationen zur Version der Komponenten, die in dieser Version mit Pig installiert wurden, finden Sie unter Komponentenversionen von Version 5.36.2.
EMRAmazon-Freigabeetikett | Pig-Version | Mit Pig installierte Komponenten |
---|---|---|
emr-5.36.2 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn |