Amazon 中的執行個體儲存選項和行為 EMR - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon 中的執行個體儲存選項和行為 EMR

概觀

執行個體存放區和 Amazon EBS磁碟區儲存用於HDFS資料,以及緩衝區、快取、暫存資料,以及某些應用程式可能「溢出」到本機檔案系統的其他暫時內容。

Amazon 在 Amazon 中的EBS運作方式EMR與一般 Amazon EC2執行個體不同。連接至 Amazon EMR叢集的 Amazon EBS磁碟區是暫時性的:磁碟區會在叢集和執行個體終止時刪除 (例如,縮減執行個體群組時),因此您不應預期資料會持續存在。雖然資料是暫時性的,但 中的資料HDFS可能會根據叢集中節點的數量和專門程度進行複寫。當您新增 Amazon EBS儲存磁碟區時,這些磁碟區會掛載為額外的磁碟區。它們不是開機磁碟區的一部分。 YARN 已設定為使用所有其他磁碟區,但您有責任將其他磁碟區配置為本機儲存體 (例如本機日誌檔案)。

考量事項

當您將 Amazon EBS與EMR叢集搭配使用時,請記住以下其他考量事項:

  • 您無法快照 Amazon EBS磁碟區,然後在 Amazon 中還原EMR。若要建立可重複使用的自訂組態,請使用 自訂 AMI(適用於 Amazon 5.7.0 版及更新EMR版本)。如需詳細資訊,請參閱使用自訂AMI為 Amazon EMR叢集組態提供更大的彈性

  • 只有在使用自訂 時,才支援加密的 Amazon EBS根裝置磁碟區AMI。如需詳細資訊,請參閱AMI 使用加密的 Amazon EBS根裝置磁碟區建立自訂

  • 如果您使用 Amazon EMR 套用標籤API,這些操作會套用至EBS磁碟區。

  • 每個執行個體的磁碟區限制為 25。

  • 核心節點上的 Amazon EBS磁碟區不能小於 5 GB。

  • Amazon 每個執行個體啟動請求的固定限制EBS為 2,500 個EBS磁碟區。此限制也適用於EC2叢集EMR上的 Amazon。我們建議您啟動總EBS磁碟區數在此限制內的叢集,然後視需要手動擴展叢集或 Amazon EMR受管擴展。若要進一步了解EBS磁碟區限制,請參閱服務配額

執行個體的預設 Amazon EBS儲存體

對於具有EBS僅限 儲存體的EC2執行個體,Amazon 會將 Amazon EBS gp2 或 gp3 儲存磁碟區EMR分配給執行個體。當您使用 Amazon 5.22.0 版及更高EMR版本建立叢集時,Amazon EBS儲存體的預設數量會相對於執行個體的大小增加。

我們將任何增加的儲存空間分配至多個磁碟區。這可提高IOPS效能,進而提高某些標準化工作負載的效能。如果您想要使用不同的 Amazon EBS執行個體儲存組態,您可以在建立EMR叢集或將節點新增至現有叢集時指定此選項。您可以使用 Amazon EBS gp2 或 gp3 磁碟區做為根磁碟區,並將 gp2 或 gp3 磁碟區新增為額外的磁碟區。如需詳細資訊,請參閱指定其他EBS儲存磁碟區

下表識別每個執行個體類型的預設 Amazon EBS gp2 儲存磁碟區數量、大小和總大小。如需有關 gp2 磁碟區與 gp3 的比較資訊,請參閱 比較 Amazon EBS磁碟區類型 gp2 和 gp3

Amazon 5.22.0 EBS 及更高版本執行個體類型的預設 Amazon EMR gp2 儲存磁碟區和大小
執行個體大小 磁碟區數目 磁碟區大小 (GiB) 大小總計 (GiB)

*.large

1

32

32

*.xlarge

2

32

64

*.2xlarge

4

32

128

*.4xlarge

4

64

256

*.8xlarge

4

128

512

9xlarge

4

144

576

10xlarge

4

160

640

12xlarge

4

192

768

*.16xlarge

4

256

1024

18xlarge

4

288

1152

24xlarge

4

384

1536

執行個體的預設 Amazon EBS根磁碟區

使用 Amazon 6.15 版及更新EMR版本,Amazon EMR會自動將 Amazon EBS General Purpose SSD(gp3) 附加為根裝置AMIs,以增強效能。使用舊版時,Amazon 會將EBS一般用途 SSD(gp2) EMR 附加為根裝置。

6.15 及更高版本 6.14 及更低版本
預設根磁碟區類型
  • gp3

  • gp2

預設大小
  • 15 GiB

  • (可設定)

  • 6.10 及更高版本 = 15 GiB

  • 6.9 及更低版本 = 10 GiB

  • (可設定)

預設 IOPS
  • 3000

  • (可設定)

預設輸送量
  • 125 MiB/s

  • (可設定)

如需如何自訂 Amazon EBS根裝置磁碟區的資訊,請參閱 指定其他EBS儲存磁碟區

指定其他EBS儲存磁碟區

當您在 Amazon 中設定執行個體類型時EMR,您可以指定額外的EBS磁碟區,以新增執行個體存放區 (如果有) 和預設EBS磁碟區以外的容量。Amazon EBS提供下列磁碟區類型:一般用途 (SSD)、佈建 IOPS(SSD)、輸送量最佳化 (HDD)、冷 (HDD) 和磁性。它們各有不同的效能特性及價格,因此您可以根據應用程式的分析和商業需求來量身打造儲存空間。例如,有些應用程式可能需要溢寫至磁碟,而有些則可以在記憶體內或使用 Amazon S3 安全地運作。

您只能在叢集啟動時間和新增額外的任務節點執行個體群組時,將 Amazon EBS磁碟區連接至執行個體。如果 Amazon EMR叢集中的執行個體失敗,則執行個體和連接的 Amazon EBS磁碟區都會取代為新的磁碟區。因此,如果您手動分離 Amazon EBS磁碟區,Amazon EMR會將該磁碟區視為失敗,並取代執行個體儲存體 (如適用) 和磁碟區存放區。

Amazon EMR 不允許您將現有EMR叢集的磁碟區類型從 gp2 修改為 gp3。若要針對工作負載使用 gp3,請啟動新的EMR叢集。此外,我們不建議您更新使用中或佈建中叢集IOPS上的輸送量和 ,因為 Amazon EMR會使用您在叢集啟動時間所指定的輸送量和IOPS值,用於叢集擴展期間新增的任何新執行個體。如需詳細資訊,請參閱 比較 Amazon EBS磁碟區類型 gp2 和 gp3遷移至 gp3 Amazon EBS磁碟區類型時選取 IOPS 和輸送量

重要

若要搭配EMR叢集使用 gp3 磁碟區,您必須啟動新的叢集。