Apache Hive - Amazon EMR

Apache Hive

Hive es un almacén de datos y paquete de análisis de código abierto que se ejecuta sobre un clúster de Hadoop. Los scripts de Hive usan un lenguaje como SQL llamado Hive QL (lenguaje de consultas) que resume los modelos de programación y admite las interacciones típicas de un almacén de datos. Hive permite evitar la complejidad de escribir trabajos Tez basados en DAG (directed acyclic graphs) o programas MapReduce en un lenguaje de programación inferior como es Java.

Hive amplía el paradigma de SQL incluyendo formatos de serialización. También puede personalizar el procesamiento de consultas creando un esquema de tabla acorde con sus datos, sin tocar los datos. Aunque SQL solo es compatible con tipos de valor primitivos (como fechas, números y cadenas), los valores de las tablas de Hive son elementos estructurados, por ejemplo, objetos JSON, cualquier tipo de datos definido por el usuario o cualquier función escrita en Java.

Para obtener más información acerca de Hive, consulte http://hive.apache.org.

En la siguiente tabla, se muestra la versión de Hive incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Hive.

Para ver la versión de los componentes instalados con Hive en esta versión, consulte Versiones de los componentes de la versión 7.3.0.

Información de la versión de Hive para emr-7.3.0
Etiqueta de versión de Amazon EMR Versión de Hive Componentes instalados con Hive

emr-7.3.0

Hive 3.1.3

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn, tez-on-worker, zookeeper-client, zookeeper-server

En la tabla siguiente, se muestra la versión de Hive incluida en la última versión de la serie Amazon EMR 6.x, junto con los componentes que Amazon EMR instala con Hive.

Para ver la versión de los componentes instalados con Hive en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

Información de la versión de Hive para emr-6.15.0
Etiqueta de versión de Amazon EMR Versión de Hive Componentes instalados con Hive

emr-6.15.0

Hive 3.1.3

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn, tez-on-worker, zookeeper-client, zookeeper-server

En la tabla siguiente, se muestra la versión de Hive incluida en la última versión de la serie Amazon EMR 5.x, junto con los componentes que Amazon EMR instala con Hive.

Para ver la versión de los componentes instalados con Hive en esta versión, consulte Versiones del componente de la versión 5.36.2.

Información de la versión de Hive para emr-5.36.2
Etiqueta de versión de Amazon EMR Versión de Hive Componentes instalados con Hive

emr-5.36.2

Hive 2.3.9

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn

A partir de Amazon EMR 5.18.0, puede utilizar el repositorio de artefactos de Amazon EMR para compilar el código de trabajos con las versiones exactas de las bibliotecas y dependencias que están disponibles con determinadas versiones de Amazon EMR. Para obtener más información, consulte Comprobación de dependencias mediante el repositorio de artefactos de Amazon EMR.