Apache HBase - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Apache HBase

HBase是一个开源、非关系的分布式数据库,是作为 Apache 软件基金会 Hadoop 项目的一部分而开发的。HBase在 Hadoop 分布式文件系统 (HDFS) 之上运行,为 Hadoop 生态系统提供非关系数据库功能。HBase包含在 Amazon EMR 发行版 4.6.0 及更高版本中。

HBase与 Hadoop 无缝协作,共享其文件系统,并作为 MapReduce 框架和执行引擎的直接输入和输出。HBase还与 Apache Hive 集成,支持对HBase表SQL的类似查询,与基于 Hive 的表进行联接,并支持 Java 数据库连接 ()。JDBC有关的更多信息HBase,请参阅 Apache HBase 和 Apach e 网站上的HBase文档。有关如何使用 HBase Hive 的示例,请参阅 AWS 大数据博客文章 Combine No SQL 和在亚马逊上使用 Apache 和 Apache HBase Hive 进行大规模并行分析。EMR

HBase在 Amazon 上EMR,您还可以将HBase数据直接备份到亚马逊简单存储服务 (Amazon S3) Simple Storage Service,并在启动HBase集群时从先前创建的备份中恢复。Amazon EMR 提供了与 Amazon S3 集成的其他选项,以实现数据持久性和灾难恢复。

  • HBase在 Amazon S3 上 ——在亚马逊 5.2.0 及更高EMR版本中,你可以HBase在 Amazon S3 上使用将集群的HBase根目录和元数据直接存储到 Amazon S3 中。随后,您可以启动新集群,将其指向 Amazon S3 中的根目录位置。一次只能有一个集群使用 Amazon S3 中的HBase位置,只读副本集群除外。有关更多信息,请参阅 HBase在亚马逊 S3 上(亚马逊 S3 存储模式)

  • HBase只读副本-A mazon HBase S3 上的 Amazon 5.7.0 及更高EMR版本支持只读副本集群。在只读操作中,只读副本集群提供对主集群的存储文件和元数据的只读访问权限。有关更多信息,请参阅 使用只读副本集群

  • HBase快照-作为 Amaz HBase on S3 的替代方案,在 4.0 及更高EMR版本中,您可以将HBase数据直接创建到 Amazon S3 的快照,然后使用快照恢复数据。有关更多信息,请参阅 使用HBase快照

重要

对于 Amazon EMR HBase 集群扩展,我们不建议对集HBase群使用托管扩展或使用自定义策略进行扩展。

下表列出了最新版本的 Amazon EMR 7.x 系列中HBase包含的版本以及亚马逊随之EMR安装的组件。HBase

有关此版本HBase中安装的组件的版本,请参阅 7.3.0 版组件版本

HBaseemr-7.3.0 的版本信息
亚马逊EMR发行标签 HBase版本 随 HBase 安装的组件

emr-7.3.0

HBase 2.4.17

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

下表列出了最新版本的 Amazon EMR 6.x 系列中HBase包含的版本以及亚马逊随之EMR安装的组件。HBase

有关此版本HBase中安装的组件的版本,请参阅 6.15.0 版组件版本

HBaseemr-6.15.0 的版本信息
亚马逊EMR发行标签 HBase版本 随 HBase 安装的组件

emr-6.15.0

HBase 2.4.17

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

注意

Apache HBase HBCK2 是一个单独的操作工具,用于修复HBase区域和系统表。在亚马逊 6.1.0 及更高EMR版本中,hbase-hbck2.jar 是在主节点/usr/lib/hbase-operator-tools/上提供的。有关如何构建和使用该工具的更多信息,请参阅HBaseHBCK2

下表列出了最新版本的 Amazon EMR 5.x 系列中HBase包含的版本以及亚马逊随之EMR安装的组件。HBase

有关此版本HBase中安装的组件的版本,请参阅 5.36.2 版组件版本

HBaseemr-5.36.2 的版本信息
亚马逊EMR发行标签 HBase版本 随 HBase 安装的组件

emr-5.36.2

HBase 1.4.13

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, zookeeper-client, zookeeper-server