Apache Hive
Hive é um data warehouse e um pacote de análises de código aberto executado além de um cluster do Hadoop. Os scripts do Hive usam uma linguagem semelhante a SQL chamada Hive QL (query language, linguagem de consulta) que abstrai modelos de programação e dá suporte a interações de data warehouse típicas. O Hive permite evitar as complexidades de escrever trabalhos do Tez com base em Directed Acyclic Graphs (DAGs – Gráficos acíclicos dirigidos) ou em programas do MapReduce em uma linguagem de computador de nível inferior, como Java.
O Hive amplia o paradigma do SQL incluindo formatos de serialização. Você também pode personalizar o processamento de consultas com a criação de um esquema de tabela que corresponda a seus dados, sem tocar nos próprios dados. Enquanto o SQL oferece suporte a tipos de valor primitivos, como datas, números e strings, os valores de tabelas do Hive são elementos estruturados, como objetos JSON, qualquer tipo de dados definido pelo usuário ou qualquer função escrita em Java.
Para obter mais informações sobre o Hive, consulte http://hive.apache.org/
A tabela a seguir lista a versão do Hive incluída na versão mais recente da série 7.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Hive.
Para obter a versão dos componentes instalados com o Hive nesse lançamento, consulte Release 7.3.0 Component Versions.
Rótulo de versão do Amazon EMR | Versão do Hive | Componentes instalados com o Hive |
---|---|---|
emr-7.3.0 |
Hive 3.1.3 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn, tez-on-worker, zookeeper-client, zookeeper-server |
A tabela a seguir lista a versão do Hive incluída na versão mais recente da série 6.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Hive.
Para obter a versão dos componentes instalados com o Hive nessa versão, consulte Release 6.15.0 Component Versions.
Rótulo de versão do Amazon EMR | Versão do Hive | Componentes instalados com o Hive |
---|---|---|
emr-6.15.0 |
Hive 3.1.3 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn, tez-on-worker, zookeeper-client, zookeeper-server |
A tabela a seguir lista a versão do Hive incluída na versão mais recente da série 5.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Hive.
Para obter a versão dos componentes instalados com o Hive nesse lançamento, consulte Release 5.36.2 Component Versions.
Rótulo de versão do Amazon EMR | Versão do Hive | Componentes instalados com o Hive |
---|---|---|
emr-5.36.2 |
Hive 2.3.9 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn |
Desde a versão 5.18.0 do Amazon EMR, você pode usar o repositório de artefatos do Amazon EMR para criar o código de trabalho em comparação com as versões exatas de bibliotecas e dependências disponíveis com versões específicas do Amazon EMR. Para ter mais informações, consulte Verificar dependências usando o repositório de artefatos do Amazon EMR.