Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Apache Pig es una biblioteca de Apache de código abierto que se ejecuta sobre Hadoop y proporciona un lenguaje de scripting que puede utilizar para transformar grandes conjuntos de datos complejos sin tener que escribir código complejo en un lenguaje informático de nivel inferior, como Java. La biblioteca toma comandos tipo SQL escritos en un lenguaje llamado Pig Latin y los convierte en tareas de Tez basadas en gráficos acíclicos dirigidos (DAGs) o programas. MapReduce Pig funciona con datos estructurados y no estructurados en una variedad de formatos. Para obtener más información acerca de Pig, consulte http://pig.apache.org/
Puede ejecutar los comandos de Pig de forma interactiva o en el modo por lotes. Para utilizar Pig de forma interactiva, cree una conexión SSH al nodo principal y envíe los comandos utilizando el shell de Grunt. Para utilizar Pig en modo por lotes, escriba sus scripts de Pig, cárguelos en Amazon S3 y envíelos como pasos de clúster. Para obtener más información sobre cómo enviar trabajo a un clúster, consulte Enviar un trabajo a un clúster en la Guía de administración de Amazon EMR.
Cuando utilice Pig para escribir el resultado en una HCatalog tabla de Amazon S3, desactive la escritura directa de Amazon EMR configurando las mapred.output.direct.EmrFileSystem
propiedades mapred.output.direct.NativeS3FileSystem
y en. false
Para obtener más información, consulte Usando HCatalog. En un script de Pig, puede utilizar los comandos SET mapred.output.direct.NativeS3FileSystem false
y SET mapred.output.direct.EmrFileSystem false
.
En la siguiente tabla, se muestra la versión de Pig incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Pig.
Para ver la versión de los componentes instalados con Pig en esta versión, consulte Versiones de componentes de la versión 7.8.0.
Etiqueta de versión de Amazon EMR | Versión de Pig | Componentes instalados con Pig |
---|---|---|
emr-7.8.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
En la tabla siguiente, se muestra la versión de Pig incluida en la última versión de la serie Amazon EMR 6.x, junto con los componentes que Amazon EMR instala con Pig.
Para ver la versión de los componentes instalados con Pig en esta versión, consulte Versiones de los componentes de la versión 6.15.0.
Etiqueta de versión de Amazon EMR | Versión de Pig | Componentes instalados con Pig |
---|---|---|
emr-6.15.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
En la tabla siguiente, se muestra la versión de Pig incluida en la última versión de la serie Amazon EMR 5.x, junto con los componentes que Amazon EMR instala con Pig.
Para ver la versión de los componentes instalados con Pig en esta versión, consulte Versiones del componente de la versión 5.36.2.
Etiqueta de versión de Amazon EMR | Versión de Pig | Componentes instalados con Pig |
---|---|---|
emr-5.36.2 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn |