設定 Amazon EMR叢集的網路存取權 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定 Amazon EMR叢集的網路存取權

開始使用 Amazon EMR或 EMR Serverless 進行 Studio 中的資料準備任務之前,請確定您或您的管理員已設定您的網路,以允許 Studio 與 Amazon 之間的通訊EMR。啟用此通訊後,您可以選擇:

注意

對於無EMR伺服器使用者,最簡單的設定涉及在 Studio UI 中建立應用程式,而不修改虛擬私有雲端 (VPC) 選項的預設設定。此方法允許在 SageMaker 網域的 中建立應用程式VPC,無需額外的聯網組態。如果您選擇此選項,您可以略過下列聯網設定區段。

網路指示會根據 Studio 和 Amazon EMR 是否部署在私有 Amazon Virtual Private Cloud (VPC) 內或透過網際網路通訊而有所不同。

根據預設,Studio 或 Studio Classic VPC會在具有網際網路存取 的 AWS 受管 中執行。使用網際網路連線時,Studio 和 Studio Classic 透過網際網路存取 AWS 資源,例如 Amazon S3 儲存貯體。不過,如果您有安全需求來控制對資料和任務容器的存取,建議您設定 Studio 或 Studio Classic 和 Amazon,EMR以便無法透過網際網路存取您的資料和容器。若要控制對資源的存取,或在沒有公有網際網路存取的情況下執行 Studio 或 Studio Classic,您可以在加入 Amazon SageMaker 網域 時指定VPC only網路存取類型。在此案例中,Studio 和 Studio Classic 都會透過私有VPC端點 與其他 AWS 服務建立連線。如需在VPC only模式下設定 Studio 或 Studio Classic 的相關資訊,請參閱 中的VPC將 SageMaker Studio 或 Studio Classic 筆記本連線至外部資源。

前兩個章節說明如何確保 Studio 或 Studio Classic 與 Amazon 在 EMR中無需公有網際網路存取VPCs的通訊。最後一節說明如何確保 Studio 或 Studio Classic 與 Amazon 之間EMR使用網際網路連線進行通訊。EMR 在沒有網際網路存取的情況下連接 Studio 或 Studio Classic 和 Amazon 之前,請務必為 Amazon Simple Storage Service (資料儲存)、Amazon CloudWatch (記錄和監控) 和 Amazon SageMaker Runtime (精細的角色型存取控制 (RBAC)) 建立端點。

若要連接 Studio 或 Studio Classic 和 AmazonEMR:

Studio 和 Amazon EMR 位於單獨的 VPCs

若要允許 Studio 或 Studio Classic 與 Amazon 在個別 中部署EMR通訊VPCs:

  1. 首先VPCs透過VPC對等連線來連接您的 。

  2. 更新每個 中的路由表VPC,以雙向路由 Studio 或 Studio Classic 子網路與 Amazon EMR子網路之間的網路流量。

  3. 設定您的安全群組以允許傳入和傳出流量。

無論資源部署在單一 AWS 帳戶 (單一帳戶使用案例) 中還是跨多個 AWS 帳戶 (跨帳戶使用案例),連線 Studio 或 Studio Classic 和 Amazon 的步驟EMR都相同。

  1. VPC 對等

    建立VPC對等連線,以促進兩者之間的聯網 VPCs(Studio 或 Studio Classic 和 Amazon EMR)。

    1. 從 Studio 或 Studio Classic 帳戶,在VPC儀表板上選擇對等連線 ,然後選擇建立對等連線

    2. 建立您的請求,以將 Studio 或 Studio Classic VPC與 Amazon EMR 進行對等VPC。在另一個 AWS 帳戶中請求對等時,請在選擇另一個帳戶以與 對等。 VPC

      對於跨帳戶對等,管理員必須接受來自 Amazon EMR帳戶的請求。

      對私有子網路進行對等時,您應該在對VPC等連線層級啟用私有 IP DNS解析。

  2. 路由表

    雙向傳送 Studio 或 Studio Classic 子網路與 Amazon EMR子網路之間的網路流量。

    建立對等連線後,管理員 (在每個帳戶上進行跨帳戶存取) 可以將路由新增至私有子網路路由表,以在 Studio 或 Studio Classic 與 Amazon EMR子網路之間路由流量。您可以前往VPC儀表板VPC中每個 的路由表區段來定義這些路由

    Studio VPC子網路的路由表下圖顯示透過對等連線從 Studio 帳戶到 Amazon EMR VPC IP 範圍 (此處為 2.0.1.0/24) 的傳出路由範例。

    Studio VPC子網路的路由表顯示從 Studio 帳戶到 Amazon EMR VPC IP 範圍的傳出路由 (此處為 2.0.1.0/24),透過對等連線

    Amazon EMRVPC子網路的路由表下圖顯示透過對等連線從 Amazon EMRVPC到 Studio VPC IP 範圍 (此處為 10.0.20.0/24) 的傳回路由範例。

    Amazon EMRVPC子網路的路由表,透過對等連線顯示從 Amazon EMR帳戶到 Studio VPC IP 範圍 (此處為 10.0.20.0/24) 的傳回路由
  3. 安全群組

    最後,Studio 或 Studio Classic 網域的安全群組必須允許傳出流量,而 Amazon EMR主節點的安全群組必須允許來自 Studio 或 Studio Classic 執行個體安全群組的 Apache LivyHive Presto TCP 連接埠 (分別為 8998100008889) 上的傳入流量。Apache Livy 是一種服務,可透過EMRREST介面與 Amazon 互動。

下圖顯示 Amazon VPC設定的範例,可讓 JupyterLab 或 Studio Classic 筆記本從 Service Catalog 中的 AWS CloudFormation 範本佈建 Amazon EMR叢集,然後連接至相同 AWS 帳戶中的 Amazon EMR叢集。圖表提供當 VPCs無法存取網際網路時,直接連線至各種 AWS 服務所需的端點的額外圖解 CloudWatch,例如 Amazon S3 或 Amazon 。或者,必須使用NAT閘道來允許多個私有子網路中的執行個體VPCs在存取網際網路時共用網際網路閘道提供的單一公有 IP 地址。

架構圖說明簡單的 Amazon VPC設定範例,可讓 Studio 或 Studio Classic 筆記本從 Service Catalog 中的 AWS CloudFormation 範本佈建 Amazon EMR叢集,然後連接至相同 AWS 帳戶中的 Amazon EMR叢集。圖表提供當 VPCs沒有網際網路存取時,直接連線至各種 AWS 服務所需的端點的額外圖解 CloudWatch,例如 Amazon S3 或 Amazon 。或者,必須使用NAT閘道來允許多個私有子網路中的執行個體VPCs在存取網際網路時共用網際網路閘道提供的單一公有 IP 地址。

Studio 和 Amazon EMR 位於相同位置 VPC

如果 Studio 或 Studio Classic 和 Amazon EMR 位於不同的子網路中,請將路由新增至每個私有子網路路由表,以在 Studio 或 Studio Classic 和 Amazon EMR子網路之間路由流量。您可以前往VPC儀表板VPC中每個 的路由表區段來定義這些路由。如果您在相同子網路EMR中部署 Studio 或 Studio Classic VPC和 Amazon,則不需要在 Studio 和 Amazon 之間路由流量EMR。

無論您是否需要更新路由表,Studio 或 Studio Classic 網域的安全群組都必須允許傳出流量,而 Amazon EMR主要節點的安全群組都必須允許來自 Studio 或 Studio Classic 8998執行個體安全群組的 Apache LivyHive Presto TCP 連接埠 (分別是 10000、 和 8889) 上的傳入流量。Apache Livy 是一項服務,可透過EMRREST介面與 Amazon 互動。

Studio 和 Amazon 透過公有網際網路EMR進行通訊

根據預設,Studio 和 Studio Classic 提供網路介面,允許透過與 SageMaker 網域VPC相關聯的網際網路閘道與網際網路通訊。如果您選擇EMR透過公有網際網路連線至 Amazon,Amazon EMR 需要接受來自其網際網路閘道的 Apache LivyHive Presto TCP 連接埠 (分別是 8998100008889) 上的傳入流量。Apache Livy 是一種服務,可透過EMRREST介面與 Amazon 互動。

請注意,允許傳入流量的任何連接埠都代表潛在安全漏洞。請詳閱自訂安全群組,以確保您將漏洞數量降至最低。如需更多資訊,請參閱使用安全群組控制網路流量

或者,請參閱 部落格和白皮書 以取得如何在 Amazon 上啟用 KerberosEMR、在私有子網路中設定叢集,以及使用 Network Load Balancer (NLB) 存取叢集的詳細演練,以僅公開透過安全群組進行存取控制的特定連接埠。

注意

透過公有網際網路連線至 Apache Livy 端點時,建議您使用 保護 Studio 或 Studio Classic 與 Amazon EMR叢集之間的通訊TLS。

如需HTTPS使用 Apache Livy 設定的資訊,請參閱HTTPS使用 Apache Livy 啟用 。如需在啟用傳輸加密的情況下設定 Amazon EMR叢集的資訊,請參閱提供使用 Amazon EMR加密來加密傳輸中資料的憑證。此外,您需要設定 Studio 或 Studio Classic 以存取 中指定的憑證金鑰透過 連接至 Amazon EMR叢集 HTTPS