EMR 上的叢集 AWS Outposts - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

EMR 上的叢集 AWS Outposts

從 Amazon EMR 5.28.0 開始,您可以在內部部署設施中建立和執行EMR叢集 on AWS Outposts. AWS Outposts enables 原生 AWS 服務、基礎設施和操作模型。在 AWS Outposts 環境中,您可以使用與您在 AWS 雲端中使用的相同 AWS APIs、工具和基礎設施。Amazon EMR on AWS Outposts 非常適合需要在靠近內部部署資料和應用程式的情況下執行的低延遲工作負載。如需詳細資訊 AWS Outposts,請參閱 AWS Outposts 使用者指南

必要條件

以下是在 EMR上使用 Amazon 的先決條件 AWS Outposts:

  • 您必須在內部部署資料中心 AWS Outposts 安裝並設定 。

  • 您必須在 Outpost 環境和 AWS 區域之間擁有可靠的網路連線。

  • 您的 Outpost 中必須有足夠的容量來支援 Amazon EMR支援的執行個體類型。

限制

以下是EMR在 上使用 Amazon 的限制 AWS Outposts:

  • 隨需執行個體是 Amazon EC2執行個體唯一支援的選項。Spot 執行個體不適用於 Amazon EMR on AWS Outposts。

  • 如果您需要額外的 Amazon EBS儲存磁碟區,僅支援一般用途 SSD(GP2)。

  • 當您 AWS Outposts 搭配 Amazon 5.28 版到 6.x EMR版使用 時,您只能使用 S3 儲存貯體,將物件存放在 AWS 區域 您指定的 中。使用 Amazon EMR 7.0.0 和更新版本時,Amazon EMR on AWS Outposts 也支援 S3A filesystem 用戶端,字首 s3a://

  • Amazon EMR on 僅支援下列執行個體類型 AWS Outposts:

    執行個體類別 執行個體類型
    一般用途

    m5.xlarge | m5.2xlarge | m5.4xlarge | m5.12xlarge | m5.24xlarge | m5d.xlarge | m5d.2xlarge | m5d.4xlarge | m5d.12xlarge | m5d.24xlarge

    運算最佳化

    c5.xlarge | c5.2xlarge | c5.4xlarge | c5.18xlarge | c5d.xlarge | c5d.2xlarge | c5d.4xlarge | c5d.18xlarge

    記憶體最佳化

    r5.xlarge | r5.2xlarge | r5.4xlarge | r5.12xlarge | r5d.xlarge | r5d.2xlarge | r5d.4xlarge | r5d.12xlarge | r5d.24xlarge

    儲存最佳化

    i3en.xlarge | i3en.2xlarge | i3en.3xlarge | i3en.6xlarge | i3en.12xlarge | i3en.24xlarge

網路連線能力考量

  • 如果您的 Outpost 與其 AWS 區域之間的網路連線中斷,您的叢集將繼續執行。不過,在連線恢復之前,您將無法建立新叢集或對現有叢集採取新動作。在執行個體失敗的情況下,執行個體將不會被自動替換。此外,將步驟新增至執行中叢集、檢查步驟執行狀態,以及傳送 CloudWatch 指標和事件等動作將會延遲。

  • 我們建議您在 Outpost 和 AWS 區域之間提供可靠且高可用性的網路連線。如果您的 Outpost 與其 AWS 區域之間的網路連線中斷超過數小時,已啟用終止保護的叢集將繼續執行,而已停用終止保護的叢集可能會終止。

  • 若網路連線會受到例行維護影響,建議您主動啟用終止保護。一般而言,連線中斷是指無法存取不是 Outpost 或客戶網路本機的任何外部依存項目。這包括 Amazon S3、DynamoDB 與EMRFS一致性檢視搭配使用,以及 AmazonRDS,如果 區域內執行個體用於具有多個主節點的 Amazon EMR叢集。

在 上建立 Amazon EMR叢集 AWS Outposts

在 上建立 Amazon EMR叢集 AWS Outposts 類似於在 AWS 雲端中建立 Amazon EMR叢集。在 上建立 Amazon EMR叢集時 AWS Outposts,您必須指定與您的 Outpost 相關聯的 Amazon EC2子網路。

Amazon VPC可以跨越 AWS 區域中的所有可用區域。 AWS Outposts 是可用區域的延伸,而且您可以在 VPC 帳戶中擴展 Amazon,以跨越多個可用區域和相關聯的 Outpost 位置。當您設定 Outpost 時,您可以將子網路與其建立關聯,將區域VPC環境擴展到內部部署設施。Outpost 執行個體和相關服務會顯示為區域 的一部分VPC,類似於具有相關聯子網路的可用區域。如需更多詳細資訊,請參閱 AWS Outposts 使用者指南相關文章。

主控台

若要 AWS Outposts 使用 在 上建立新的 Amazon EMR叢集 AWS Management Console,請指定與您的 Outpost 相關聯的 Amazon EC2子網路。

Console
AWS Outposts 使用主控台在 上建立叢集
  1. 登入 AWS Management Console,並在 https://console.aws.amazon.com/emr 開啟 Amazon EMR主控台。

  2. 在左側導覽窗格中的 EMR下EC2,選擇叢集,然後選擇建立叢集

  3. 叢集組態下,選取執行個體群組執行個體機群。然後,從選擇執行個體類型下拉式選單中選擇EC2執行個體類型,或選擇動作,然後選擇新增EBS磁碟區。Amazon EMR on AWS Outposts 支援有限的 Amazon EBS磁碟區和執行個體類型。

  4. 聯網下,選取具有此格式 Outpost ID 的EC2子網路:op-123456789。

  5. 選擇適用於您的叢集的任何其他選項。

  6. 若要啟動您的叢集,請選擇建立叢集

CLI
AWS Outposts 使用 在 上建立叢集 AWS CLI
  • 若要 AWS Outposts 使用 在 上建立新的 Amazon EMR叢集 AWS CLI,請指定與您的 Outpost 相關聯的EC2子網路,如下列範例所示。將 取代subnet-22XXXX01為您自己的 Amazon EC2子網路 ID。

    aws emr create-cluster \ --name "Outpost cluster" \ --release-label emr-7.5.0 \ --applications Name=Spark \ --ec2-attributes KeyName=myKey SubnetId=subnet-22XXXX01 \ --instance-type m5.xlarge --instance-count 3 --use-default-roles