設定聯網 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定聯網

本節提供有關管理員如何設定其網路以允許 Studio 或工作室傳統版和 Amazon EMR 叢集之間進行通訊的相關資訊。

聯網指示會根據 Studio 和 Amazon 是否在私EMR有 Amazon 虛擬私有雲 (VPC) 中部署,還是透過網際網路通訊而有所不同。

默認情況下,工作室或工作室經典運行在受 AWS 管理VPC的互聯網訪問。使用網際網路連線時,工作室和工作室經典版會透過網際網路存取 AWS 資源,例如 Amazon S3 儲存貯體。但是,如果您有安全要求來控制對資料和任務容器的存取,建議您設定 Studio 或 Studio 經典版和 Amazon,EMR以便無法透過網際網路存取資料和容器。若要控制對資源的存取,或在沒有公用網際網路存取的情況下執行 Studio 或 Studio Classic,您可以在登入 Amazon VPC only 網 SageMaker 域時指定網路存取類型。在這個案例中,工作室和工作室傳統會透過私有VPC端點與其他 AWS 服務建立連線。如需有關在VPC only模式中設定 Studio 或 Studio 傳統版的詳細資訊,請參閱將 SageMaker Studio 或 Studio 傳統型筆記本 Connect VPC 到外部資源。

前兩節說明如何在沒有公共網際網路存取的VPCs情況下確保 Studio 或工作室經典版與 Amazon EMR 叢集之間的通訊。最後一節介紹如何使用互聯網連接確保工作室或工作室經典和 EMR Amazon 之間的通信。在不存取網際網路的EMR情況下連接 Studio 或 Studio Classic 和 Amazon 之前,請確保為 Amazon 簡單儲存服務 (資料儲存)、Amazon CloudWatch (記錄和監控) 和 Amazon SageMaker 執行階段 (精細的角色型存取控制 (RBAC) 建立端點。

要連接工作室或工作室經典版和 Amazon EMR 集群:

工作室和 Amazon EMR 是在獨立 VPCs

若要在單獨部署工作室或工作室經典版和 Amazon EMR 之間進行通訊VPCs:

  1. 首先通VPCs過對等連接連接VPC連接。

  2. 更新每個路由表中的路由表,VPC以兩種方式在 Studio 或 Studio 經典子網路和 Amazon EMR 子網路之間路由網路流量。

  3. 設定您的安全群組以允許傳入和傳出流量。

無論資源是在單一帳戶 (單一帳戶使用案例) 還是跨多個 AWS AWS 帳戶 (跨帳戶使用案例) 部署,連接 Studio 或 Studio 經典版和 Amazon EMR 的步驟都是相同的。

  1. VPC窺視

    創建一個VPC對等連接以促進兩者之間的聯網VPCs(工作室或工作室經典版和 AmazonEMR)。

    1. 在您的 Studio 或 Studio 傳統版帳戶中,選擇VPC儀表板上的對等互連連線,然後選擇建立對等連線。

    2. 創建您的請求,以將工作室或工作室經典VPC與 Amazon 對等EMRVPC。在另一個 AWS 帳戶中要求對等互連時,請在選擇另一個帳戶中選擇另一個帳戶VPC進行對等

      對於跨帳戶對等互連,管理員必須接受來自 Amazon EMR 帳戶的請求。

      對等私有子網路時,您應該在對等連線VPC層級啟用私有 IP DNS 解析。

  2. 路由表

    在工作室或工作室經典子網和 Amazon EMR 子網之間以兩種方式發送網絡流量。

    建立對等連線之後,系統管理員 (針對跨帳戶存取的每個帳戶) 可以將路由新增至私有子網路路由表格,以便在 Studio 或 Studio Classic 和叢集子網路之間路由流量。您可以通過轉到VPC儀表板VPC中每個路由的「路由表」部分來定義這些路由。

    Studio 子網路的VPC路由表的下圖顯示透過對等連線從 Studio 帳戶到 Amazon EMR VPC IP 範圍 (此處2.0.1.0/24) 的輸出路由範例。

    顯示出站路由的 Studio VPC 子網路的路由表。

    Amazon 子網路的EMRVPC路由表的下圖顯示透過對等連線從 Amazon EMR VPC 到 Studio VPC IP 範圍 (此處10.0.20.0/24) 的傳回路徑範例。

    顯示返回路徑的 Amazon EMR VPC 子網路的路由表。
  3. 安全群組

    最後,Studio 或 Studio 傳統網域的安全群組必須允許輸出流量,而且 Amazon EMR 主要節點的安全群組必須允許來自 Studio 或 Studio 傳統執行個體安全群組的 Apache Livy 8998 10000HivePresto TCP 連接埠 (分別和8889) 上的輸入流量。阿帕奇利維是一種服務,可以EMR通過REST界面與 Amazon 進行交互。

下圖顯示 Amazon VPC 設定範例,可讓 JupyterLab工作室傳統筆記本從 Service Catalog 中的 AWS CloudFormation 範本佈建 Amazon EMR 叢集,然後連接到同一 AWS 帳戶內的 Amazon EMR 叢集。該圖提供了在無法存取網際網路時直接連線到各種 AWS 服務 (例如 Amazon S3 或 Amazon CloudWatch) 所需端點的VPCs其他插圖。或者,在存取網際網路時,必須使用NAT閘道來允許多個VPCs私有子網路中的執行個體共用網際網路閘道所提供的單一公用 IP 位址。

示例 Amazon VPC 設置架構。

工作室和 Amazon EMR 都在同一 VPC

如果 Studio 或 Studio 典型版和 Amazon EMR 叢集位於不同的子網路中,請將路由新增至每個私有子網路路由表,以便在 Studio 或 Studio 典型和叢集子網路之間路由流量。您可以通過轉到VPC儀表板VPC中每個路由的「路由表」部分來定義這些路由。如果您在相同且相同的子網路中部署了工作室或工作室傳統版VPC和 Amazon EMR 叢集,則不需要在工作室或工作室傳統版和叢集之間路由流量。

無論您是否需要更新路由表,Studio 或 Studio 傳統網域的安全群組都必須允許輸出流量,而 Amazon EMR 主要節點的安全群組必須允許來自 Studio 或 Studio 傳統執行個體安全群組的 Apache Livy 8998 10000HivePresto TCP 連接埠上的輸入流量。8889Apache Livy 是一項服務,可透過REST界面與 Amazon EMR 叢集進行互動。

工作室和 Amazon EMR 通過公共互聯網通

默認情況下,Studio 和 Studio 經典提供了一個網絡接口,允許通過與 SageMaker 域相關聯的互聯網網關聯的互聯網網VPC關與互聯網進行通信。如果您選擇EMR透過公用網際網路連線到 Amazon,您的 Amazon EMR 叢集必須接受來自其網際網路閘道的 Apache LivyHive普雷斯托連接TCP埠 (分別8998為和8889) 上的入站流量。10000Apache Livy 是一項服務,可透過REST界面與 Amazon EMR 叢集進行互動。

請注意,允許傳入流量的任何連接埠都代表潛在安全漏洞。請詳閱自訂安全群組,以確保您將漏洞數量降至最低。如需更多資訊,請參閱使用安全群組控制網路流量

或者,請參閱部落格與白皮書以取得如何在 Amazon 上啟用 Kerberos EMR、在私有子網路中設定叢集,以及使用 Network Load Balancer (NLB) 存取叢集以僅公開特定連接埠 (透過安全群組進行存取控制) 的詳細逐步解說。

注意

透過公用TLS網際網路連線到 Apache Livy 端點時,建議您使用保護工作室或工作室傳統版與 Amazon EMR 叢集之間的通訊安全。

如需使用 Apache Livy 設定HTTPS的相關資訊,請參閱使用 Apache Livy 啟HTTPS用。如需設定啟用傳輸加密的 Amazon EMR 叢集的相關資訊,請參閱提供憑證以使用 Amazon EMR 加密加密傳輸中的資料。此外,您需要配置工作室或工作室經典版來訪問您的證書密鑰,如中所指定Connect 到 Amazon EMR 集群 HTTPS