Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Apache Pig ist eine Open-Source-Apache-Bibliothek, die auf Hadoop basiert und eine Skriptsprache bereitstellt, die Sie verwenden können, um große Datasets zu transformieren, ohne dass Sie komplexen Code in einer Computersprache einer niedrigeren Ebene schreiben müssen, wie etwa Java. Die Bibliothek verwendet SQL-ähnliche Befehle, die in einer Sprache namens Pig Latin geschrieben sind, und konvertiert diese Befehle in Tez-Jobs, die auf gerichteten azyklischen Graphen () oder Programmen basieren. DAGs MapReduce Pig funktioniert mit strukturierten und unstrukturierten Daten in verschiedenen Formaten. Weitere Informationen zu Pig finden Sie unter http://pig.apache.org/
Sie können Pig-Befehle interaktiv oder im Batch-Modus ausführen. Um Pig interaktiv zu nutzen, erstellen Sie eine SSH-Verbindung mit dem Master-Knoten und senden Befehle per Grunt-Shell. Um Pig im Batch-Modus zu nutzen, laden Sie Ihre Pig-Skripts in Amazon S3 hoch und senden diese dann als Cluster-Schritte. Weitere Informationen zum Übermitteln von Aufträgen an einen Cluster finden Sie unter Aufträge an einen Cluster übermitteln im Verwaltungshandbuch für Amazon EMR.
Wenn Sie Pig verwenden, um Ausgaben in eine HCatalog Tabelle in Amazon S3 zu schreiben, deaktivieren Sie Amazon EMR Direct Write, indem Sie die mapred.output.direct.EmrFileSystem
Eigenschaften mapred.output.direct.NativeS3FileSystem
und auf false
setzen. Weitere Informationen finden Sie unter Verwenden HCatalog. Innerhalb eines Pig-Skripts können Sie die Befehle SET mapred.output.direct.NativeS3FileSystem false
und SET mapred.output.direct.EmrFileSystem false
verwenden.
Die folgende Tabelle listet die Version von Pig auf, die in der neuesten Version der Amazon-EMR-7.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Pig installiert.
Informationen zur Version der Komponenten, die in dieser Version zusammen mit Pig installiert wurden, finden Sie unter Komponentenversionen von Version 7.8.0.
Amazon-EMR-Versionsbezeichnung | Pig-Version | Mit Pig installierte Komponenten |
---|---|---|
emr-7.8.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
Die folgende Tabelle listet die Version von Pig auf, die in der neuesten Version der Amazon-EMR-6.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Pig installiert.
Die Version der Komponenten, die mit Pig in dieser Version installiert wurden, finden Sie unter Komponentenversionen der Version 6.15.0.
Amazon-EMR-Versionsbezeichnung | Pig-Version | Mit Pig installierte Komponenten |
---|---|---|
emr-6.15.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
Die folgende Tabelle listet die Version von Pig auf, die in der neuesten Version der Amazon-EMR-5.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Pig installiert.
Informationen zur Version der Komponenten, die in dieser Version mit Pig installiert wurden, finden Sie unter Komponentenversionen von Version 5.36.2.
Amazon-EMR-Versionsbezeichnung | Pig-Version | Mit Pig installierte Komponenten |
---|---|---|
emr-5.36.2 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn |