Apache HBase - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Apache HBase

HBaseé um banco de dados distribuído, não relacional e de código aberto desenvolvido como parte do projeto Hadoop da Apache Software Foundation. HBase é executado sobre o Hadoop Distributed File System (HDFS) para fornecer recursos de banco de dados não relacional para o ecossistema Hadoop. HBase está incluído na versão 4.6.0 e posterior do Amazon EMR.

HBase funciona perfeitamente com o Hadoop, compartilhando seu sistema de arquivos e servindo como entrada e saída diretas para a MapReduce estrutura e o mecanismo de execução. HBase também se integra ao Apache Hive, permitindo consultas semelhantes a SQL em tabelas, uniões com HBase tabelas baseadas em Hive e suporte para conectividade de banco de dados Java (JDBC). Para obter mais informações sobre HBase, consulte o Apache HBase e a HBase documentação no site do Apache. Para ver um exemplo de como usar HBase com o Hive, consulte a postagem do blog sobre AWS Big Data Combine NoSQL e análises paralelas massivas usando o Apache e o HBase Apache Hive no Amazon EMR.

Com o HBase Amazon EMR, você também pode fazer backup de seus HBase dados diretamente no Amazon Simple Storage Service (Amazon S3) e restaurar a partir de um backup criado anteriormente ao iniciar um cluster. HBase O Amazon EMR oferece opções de integração adicionais com o Amazon S3 para recuperação de desastres e persistência de dados.

  • HBase no Amazon S3 - Com o Amazon EMR versão 5.2.0 e posterior, você pode usar no Amazon HBase S3 para armazenar o diretório HBase raiz e os metadados de um cluster diretamente no Amazon S3. Posteriormente, você pode iniciar um novo cluster, apontando-o para o local do diretório de raiz no Amazon S3. Somente um cluster por vez pode usar a HBase localização no Amazon S3, com exceção de um cluster de réplica de leitura. Para obter mais informações, consulte HBase no Amazon S3 (modo de armazenamento Amazon S3).

  • HBase réplicas de leitura - O Amazon EMR versão 5.7.0 e posterior com o Amazon HBase S3 oferece suporte a clusters de réplica de leitura. Um cluster de réplica de leitura fornece acesso somente leitura aos arquivos de armazenamento de um cluster primário e a metadados para operações somente leitura. Para obter mais informações, consulte Usar um cluster de réplica de leitura.

  • HBase Snapshots - Como alternativa ao HBase Amazon S3, com o EMR versão 4.0 e posterior, você pode criar instantâneos de seus dados HBase diretamente no Amazon S3 e depois recuperar dados usando os snapshots. Para obter mais informações, consulte Usando HBase instantâneos.

Importante

Para a escalabilidade de HBase clusters do Amazon EMR, não recomendamos usar escalabilidade gerenciada ou escalabilidade com políticas personalizadas com clusters. HBase

A tabela a seguir lista a versão HBase incluída na versão mais recente da série 7.x do Amazon EMR, junto com os componentes com os quais o Amazon EMR é instalado. HBase

Para a versão dos componentes instalados HBase nesta versão, consulte Versões de componentes da versão 7.6.0.

HBase informações sobre a versão do emr-7.6.0
Rótulo de versão do Amazon EMR HBase Versão Componentes instalados com HBase

emr-7.6.0

HBase 2.6.1

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

A tabela a seguir lista a versão HBase incluída na versão mais recente da série 6.x do Amazon EMR, junto com os componentes com os quais o Amazon EMR é instalado. HBase

Para a versão dos componentes instalados HBase nesta versão, consulte Versões de componentes da versão 6.15.0.

HBase informações da versão do emr-6.15.0
Rótulo de versão do Amazon EMR HBase Versão Componentes instalados com HBase

emr-6.15.0

HBase 2.4.17

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

nota

O Apache HBase HBCK2 é uma ferramenta operacional separada para reparar HBase regiões e tabelas do sistema. No Amazon EMR 6.1.0 e versões posteriores, o hbase-hbck2.jar é fornecido em /usr/lib/hbase-operator-tools/ no nó primário. Para obter mais informações sobre como criar e usar a ferramenta, consulte HBaseHBCK2.

A tabela a seguir lista a versão HBase incluída na versão mais recente da série 5.x do Amazon EMR, junto com os componentes com os quais o Amazon EMR é instalado. HBase

Para a versão dos componentes instalados HBase nesta versão, consulte Versões de componentes da versão 5.36.2.

HBase informações da versão do emr-5.36.2
Rótulo de versão do Amazon EMR HBase Versão Componentes instalados com HBase

emr-5.36.2

HBase 1.4.13

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, zookeeper-client, zookeeper-server