Apache Pig

Modo de enfoque

Apache Pig - Amazon EMR

Apache Pig es una biblioteca de Apache de código abierto que se ejecuta sobre Hadoop y proporciona un lenguaje de scripting que puede utilizar para transformar grandes conjuntos de datos complejos sin tener que escribir código complejo en un lenguaje informático de nivel inferior, como Java. La biblioteca toma comandos tipo SQL escritos en un lenguaje llamado Pig Latin y los convierte en tareas de Tez basadas en gráficos acíclicos dirigidos (DAGs) o programas. MapReduce Pig funciona con datos estructurados y no estructurados en una variedad de formatos. Para obtener más información acerca de Pig, consulte http://pig.apache.org/.

Puede ejecutar los comandos de Pig de forma interactiva o en el modo por lotes. Para utilizar Pig de forma interactiva, cree una conexión SSH al nodo principal y envíe los comandos utilizando el shell de Grunt. Para utilizar Pig en modo por lotes, escriba sus scripts de Pig, cárguelos en Amazon S3 y envíelos como pasos de clúster. Para obtener más información sobre cómo enviar trabajo a un clúster, consulte Enviar un trabajo a un clúster en la Guía de administración de Amazon EMR.

Cuando utilice Pig para escribir el resultado en una HCatalog tabla de Amazon S3, desactive la escritura directa de Amazon EMR configurando las mapred.output.direct.EmrFileSystem propiedades mapred.output.direct.NativeS3FileSystem y en. false Para obtener más información, consulte Usando HCatalog. En un script de Pig, puede utilizar los comandos SET mapred.output.direct.NativeS3FileSystem false y SET mapred.output.direct.EmrFileSystem false.

En la siguiente tabla, se muestra la versión de Pig incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Pig.

Para ver la versión de los componentes instalados con Pig en esta versión, consulte Versiones de componentes de la versión 7.8.0.

Información sobre la versión de Pig para emr-7.8.0
Etiqueta de versión de Amazon EMR	Versión de Pig	Componentes instalados con Pig
emr-7.8.0	Pig 0.17.0	emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

En la tabla siguiente, se muestra la versión de Pig incluida en la última versión de la serie Amazon EMR 6.x, junto con los componentes que Amazon EMR instala con Pig.

Para ver la versión de los componentes instalados con Pig en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

Información de la versión de Pig para emr-6.15.0
Etiqueta de versión de Amazon EMR	Versión de Pig	Componentes instalados con Pig
emr-6.15.0	Pig 0.17.0	emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

En la tabla siguiente, se muestra la versión de Pig incluida en la última versión de la serie Amazon EMR 5.x, junto con los componentes que Amazon EMR instala con Pig.

Para ver la versión de los componentes instalados con Pig en esta versión, consulte Versiones del componente de la versión 5.36.2.

Información de la versión de Pig para emr-5.36.2
Etiqueta de versión de Amazon EMR	Versión de Pig	Componentes instalados con Pig
emr-5.36.2	Pig 0.17.0	emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn