Amazon 中的实例存储选项和行为 EMR - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 中的实例存储选项和行为 EMR

概述

实例存储和 Amazon EBS 卷存储用于存储HDFS数据和缓冲区、缓存、暂存数据以及某些应用程序可能 “溢出” 到本地文件系统的其他临时内容。

亚马逊在亚马逊内部EBS的工作方式与EMR普通亚马逊EC2实例的运作方式不同。连接到 Amazon EMR 集群的 Amazon EBS 卷是临时性的:这些卷会在集群和实例终止时被删除(例如,缩减实例组时),因此您不应该指望数据会持续存在。尽管数据是短暂的,但HDFS可以根据集群中节点的数量和专业化来复制中的数据。当您添加 Amazon EBS 存储卷时,这些存储卷将作为额外卷进行装载。它们不是启动卷的一部分。 YARN配置为使用所有其他卷,但您负责将额外的卷分配为本地存储(例如本地日志文件)。

注意事项

在EMR集群中使用 Amazon EBS 时,请记住以下其他注意事项:

  • 您无法对亚马逊EBS卷进行快照,然后在亚马逊内部将其恢复EMR。要创建可重复使用的自定义配置,请使用自定义配置AMI(在 Amazon 5.7.0 及更高EMR版本中可用)。有关更多信息,请参阅 使用自定义AMI为 Amazon EMR 集群配置提供更大的灵活性

  • 只有使用自定义卷时,才支持加密的 Amazon EBS 根设备卷AMI。有关更多信息,请参阅 AMI使用加密的 Amazon EBS 根设备卷创建自定义卷

  • 如果您使用 Amazon 应用标签 EMRAPI,则这些操作将应用于EBS卷。

  • 每个实例最多有 25 个卷。

  • 核心节点上的 Amazon EBS 卷不能小于 5 GB。

  • Amazon EBS 对每个实例启动请求设定了 2,500 个EBS卷的固定限制。此限制也适用于EC2集群EMR上的 Amazon。我们建议您启动EBS卷总数在此限制范围内的集群,然后根据需要手动扩展集群或使用 Amazon EMR 托管扩展。要了解有关EBS音量限制的更多信息,请参阅服务配额

实例的默认 Amazon EBS 存储

对于EBS仅有存储空间的EC2实例,亚马逊会将 Amazon EBS gp2 或 gp3 存储卷EMR分配给实例。当您使用 Amazon EMR 版本 5.22.0 及更高版本创建集群时,默认的 Amazon EBS 存储量会随着实例的大小而增加。

我们会将任何增加的存储拆分到多个卷中。这可以提高IOPS性能,进而提高某些标准化工作负载的性能。如果您想使用不同的 Amazon EBS 实例存储配置,则可以在创建EMR集群或向现有集群添加节点时指定此配置。您可以使用 Amazon EBS gp2 或 gp3 卷作为根卷,并将 gp2 或 gp3 卷添加为其他卷。有关更多信息,请参阅 指定其他EBS存储卷

下表列出了 Amazon EBS gp2 存储卷的默认数量、大小和每种实例类型的总大小。有关 gp2 卷与 gp3 相比较的信息,请参阅 比较亚马逊的EBS卷类型 gp2 和 gp3

亚马逊 EMR 5. EBS 22.0 及更高版本的默认 Amazon gp2 存储卷和按实例类型划分的大小
实例大小 卷数 卷大小(GiB) 总大小(GiB)

*.large

1

32

32

*.xlarge

2

32

64

*.2xlarge

4

32

128

*.4xlarge

4

64

256

*.8xlarge

4

128

512

*.9xlarge

4

144

576

*.10xlarge

4

160

640

*.12xlarge

4

192

768

*.16xlarge

4

256

1024

*.18xlarge

4

288

1152

*.24xlarge

4

384

1536

实例的默认 Amazon EBS 根卷

随着亚马逊EMR发布6.15及更高版本,亚马逊EMR会自动将亚马逊EBS通用用途 SSD (gp3) 作为其根设备,AMIs以增强性能。在早期版本中,Amazon EBS 将通用SSD型 (gp2) EMR 附加为根设备。

6.15 及更高版本 6.14 及更低版本
默认的根卷类型
  • gp3

  • gp2

默认大小
  • 15GiB

  • (可配置)

  • 6.10 及更高版本 = 15GiB

  • 6.9 及更低版本 = 10GiB

  • (可配置)

默认 IOPS
  • 3000

  • (可配置)

默认吞吐量
  • 125 MiB/s

  • (可配置)

有关如何自定义 Amazon EBS 根设备音量的信息,请参阅指定其他EBS存储卷

指定其他EBS存储卷

在 Amazon 中配置实例类型时EMR,您可以指定其他EBS卷来增加实例存储(如果存在)和默认EBS卷之外的容量。Amazon EBS 提供以下卷类型:通用型 (SSD)、预配置 IOPS (SSD)、吞吐量优化 (HDD)、冷卷 (HDD) 和磁卷。它们的性能特点和价格不同,您可根据应用程序的分析和业务需求定制您的存储。例如,一些应用程序可能需要溢出到磁盘,而其它应用程序可在内存中或使用 Amazon S3 安全工作。

只有在集群启动时以及添加额外的任务节点实例组时,您才能将 Amazon EBS 卷附加到实例。如果 Amazon EMR 集群中的某个实例出现故障,则该实例和连接的 Amazon EBS 卷都将被新卷替换。因此,如果您手动分离 Amazon EBS 卷,Amazon EMR 会将其视为故障,并替换实例存储(如果适用)和卷存储。

亚马逊EMR不允许您将现有集群的卷类型从 gp2 修改为 gp3。EMR要将 gp3 用于您的工作负载,请启动一个新EMR集群。此外,我们不建议您更新正在使用或正在预配置的集群IOPS上的吞吐量,因为 Amazon 在集群扩展期间添加的任何新实例都会EMR使用您在集群启动时指定的吞吐量和IOPS值。有关更多信息,请参阅比较亚马逊的EBS卷类型 gp2 和 gp3迁移到 gp3 Ama EBS zon 卷类型时的选择IOPS和吞吐量

重要

要在集群中使用 gp3 卷,必须启动一个新EMR集群。