Apache Pig - Amazon EMR

Apache Pig

Apache Pig es una biblioteca de Apache de código abierto que se ejecuta sobre Hadoop y proporciona un lenguaje de scripting que puede utilizar para transformar grandes conjuntos de datos complejos sin tener que escribir código complejo en un lenguaje informático de nivel inferior, como Java. La biblioteca toma comandos de tipo SQL escritos en un lenguaje denominado Pig Latin y convierte estos comandos en trabajos de Tez basados en gráficos acíclicos dirigidos (DAG) o programas de MapReduce. Pig funciona con datos estructurados y no estructurados en una variedad de formatos. Para obtener más información acerca de Pig, consulte http://pig.apache.org/.

Puede ejecutar los comandos de Pig de forma interactiva o en el modo por lotes. Para utilizar Pig de forma interactiva, cree una conexión SSH al nodo principal y envíe los comandos utilizando el shell de Grunt. Para utilizar Pig en modo por lotes, escriba sus scripts de Pig, cárguelos en Amazon S3 y envíelos como pasos de clúster. Para obtener más información sobre cómo enviar trabajo a un clúster, consulte Enviar un trabajo a un clúster en la Guía de administración de Amazon EMR.

Cuando utilice Pig para escribir el resultado en una tabla de HCatalog en Amazon S3, deshabilite la escritura directa de Amazon EMR; para ello, establezca las propiedades mapred.output.direct.NativeS3FileSystem y mapred.output.direct.EmrFileSystem en false. Para obtener más información, consulte Uso de HCatalog. En un script de Pig, puede utilizar los comandos SET mapred.output.direct.NativeS3FileSystem false y SET mapred.output.direct.EmrFileSystem false.

En la siguiente tabla, se muestra la versión de Pig incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Pig.

Para ver la versión de los componentes instalados con Pig en esta versión, consulte Versiones de los componentes de la versión 7.3.0.

Información de la versión de Pig para emr-7.3.0
Etiqueta de versión de Amazon EMR Versión de Pig Componentes instalados con Pig

emr-7.3.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

En la tabla siguiente, se muestra la versión de Pig incluida en la última versión de la serie Amazon EMR 6.x, junto con los componentes que Amazon EMR instala con Pig.

Para ver la versión de los componentes instalados con Pig en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

Información de la versión de Pig para emr-6.15.0
Etiqueta de versión de Amazon EMR Versión de Pig Componentes instalados con Pig

emr-6.15.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

En la tabla siguiente, se muestra la versión de Pig incluida en la última versión de la serie Amazon EMR 5.x, junto con los componentes que Amazon EMR instala con Pig.

Para ver la versión de los componentes instalados con Pig en esta versión, consulte Versiones del componente de la versión 5.36.2.

Información de la versión de Pig para emr-5.36.2
Etiqueta de versión de Amazon EMR Versión de Pig Componentes instalados con Pig

emr-5.36.2

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn