Amazon EMRクラスターのネットワークアクセスを設定する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMRクラスターのネットワークアクセスを設定する

Studio でデータ準備タスクに Amazon EMRまたは EMR Serverless の使用を開始する前に、Studio と Amazon 間の通信を許可するようにユーザーまたは管理者がネットワークを設定していることを確認してくださいEMR。この通信が有効になったら、以下を選択できます。

注記

EMR Serverless ユーザーの場合、最も簡単なセットアップでは、仮想プライベートクラウド (VPC) オプションのデフォルト設定を変更せずに Studio UI でアプリケーションを作成します。このアプローチにより、 SageMaker ドメインの 内でアプリケーションを作成できるためVPC、追加のネットワーク設定が不要になります。このオプションを選択した場合は、次のネットワーク設定セクションをスキップできます。

ネットワーク手順は、Studio と Amazon EMR がプライベート Amazon Virtual Private Cloud (VPC) 内にデプロイされているか、インターネット経由で通信しているかによって異なります。

デフォルトでは、Studio または Studio Classic は、インターネットアクセス VPC で AWS 管理される で実行されます。インターネット接続を使用する場合、Studio および Studio Classic はAmazon S3バケットなどの AWS リソースにインターネット経由でアクセスします。ただし、データコンテナとジョブコンテナへのアクセスを制御するセキュリティ要件がある場合は、データコンテナとコンテナがインターネット経由でアクセスできないEMRように Studio または Studio Classic と Amazon を設定することをお勧めします。パブリックインターネットアクセスなしで リソースへのアクセスを制御したり、Studio または Studio Classic を実行したりするには、Amazon SageMaker ドメイン にオンボードするときにVPC onlyネットワークアクセスタイプを指定できます。このシナリオでは、Studio と Studio Classic の両方が、プライベートVPCエンドポイント を介して他の AWS サービスとの接続を確立します。Studio または Studio Classic を VPC only モードで設定する方法については、「 の SageMaker Studio または Studio Classic ノートブックを外部リソースVPCに接続する」を参照してください。

最初の 2 つのセクションでは、パブリックインターネットアクセスVPCsなしで Studio または Studio Classic と Amazon EMR 間の通信を確保する方法について説明します。最後のセクションでは、インターネット接続EMRを使用して Studio または Studio Classic と Amazon 間の通信を確保する方法について説明します。インターネットアクセスEMRなしで Studio または Studio Classic と Amazon を接続する前に、Amazon Simple Storage Service (データストレージ)、Amazon CloudWatch (ログ記録とモニタリング)、および Amazon SageMaker Runtime (きめ細かなロールベースのアクセス制御 (RBAC)) のエンドポイントを必ず確立してください。

Studio または Studio Classic と Amazon を接続するにはEMR:

Studio と Amazon EMRは別個に VPCs

Studio または Studio Classic と Amazon 間の通信を別の にデプロイEMRするときに許可するにはVPCs:

  1. まず、VPCピアリング接続VPCsを介して を接続します。

  2. それぞれの のルーティングテーブルを更新VPCして、Studio または Studio Classic サブネットと Amazon EMRサブネット間のネットワークトラフィックを双方向にルーティングします。

  3. インバウンドおよびアウトバウンドのトラフィックを許可するようにセキュリティグループを設定します。

Studio または Studio Classic と Amazon を接続する手順は、リソースが 1 つの AWS アカウント (単一アカウントのユースケース) にデプロイされているか、複数の AWS アカウント (クロスアカウントのユースケース) にデプロイされているかにかかわらず同じEMRです。

  1. VPC ピアリング

    VPC ピアリング接続を作成して、2 つの VPCs (Studio または Studio Classic と Amazon ) 間のネットワークを容易にしますEMR。

    1. Studio または Studio Classic アカウントから、VPCダッシュボードでピアリング接続 を選択し、ピアリング接続 を作成します

    2. Studio または Studio Classic を Amazon EMR VPCとピアリングするリクエストを作成しますVPC。別の AWS アカウントでピアリングをリクエストする場合は、 とピアリングする別のアカウントを選択する で別のアカウントを選択します。 VPC

      クロスアカウントピアリングの場合、管理者は Amazon EMRアカウントからのリクエストを受け入れる必要があります。

      プライベートサブネットをピアリングする場合は、VPCピアリング接続レベルでプライベート IP DNS解決を有効にする必要があります。

  2. ルーティングテーブル

    Studio または Studio Classic サブネットと Amazon EMR サブネット間のネットワークトラフィックを双方向に送信します。

    ピアリング接続を確立すると、管理者 (クロスアカウントアクセス用の各アカウント) はプライベートサブネットルートテーブルにルートを追加して、Studio または Studio Classic と Amazon EMR サブネット間のトラフィックをルーティングできます。これらのルートは、VPCVPCダッシュボードの各 のルートテーブルセクションに移動して定義できます。

    Studio VPCサブネットのルートテーブルの次の図は、ピアリング接続を介した Studio アカウントから Amazon EMR VPC IP 範囲 (ここでは 2.0.1.0/24) へのアウトバウンドルートの例を示しています。

    ピアリング接続を介した Studio アカウントから Amazon EMR VPC IP 範囲 (ここでは 2.0.1.0/24) へのアウトバウンドルートを示す Studio VPCサブネットのルートテーブル

    Amazon EMRVPCサブネットのルートテーブルの次の図は、ピアリング接続を介した Amazon から Studio VPC IP 範囲 (ここでは 10.0.20.0/24) EMRVPCへのリターンルートの例を示しています。

    ピアリング接続を介した Amazon EMRアカウントから Studio VPC IP 範囲 (ここでは 10.0.20.0/24) への戻りルートを示す Amazon EMRVPCサブネットのルートテーブル
  3. セキュリティグループ

    最後に、Studio または Studio Classic ドメインのセキュリティグループはアウトバウンドトラフィックを許可し、Amazon EMRプライマリノードのセキュリティグループは Studio または Studio Classic インスタンスセキュリティグループからの Apache Livy Hive 、または Presto TCP ポート (それぞれ 899810000、、および 8889) のインバウンドトラフィックを許可する必要があります。Apache Livy は、RESTインターフェイスEMRを介して Amazon とのインタラクションを可能にするサービスです。

次の図は、 または Studio Classic ノートブックが Service Catalog の AWS CloudFormation テンプレートから Amazon EMRクラスターをプロビジョニングし、同じ AWS アカウント内の Amazon EMRクラスターに接続できるようにする JupyterLab Amazon VPCセットアップの例を示しています。この図は、 CloudWatchにインターネットアクセスVPCsがない場合に Amazon S3 や Amazon などのさまざまな AWS サービスに直接接続するために必要なエンドポイントの追加図を示しています。または、複数のプライベートサブネット内のインスタンスがインターネットにアクセスするときにインターネットNATゲートウェイによって提供される単一のパブリック IP アドレスVPCsを共有できるようにするには、ゲートウェイを使用する必要があります。 https://docs.aws.amazon.com/vpc/latest/userguide/VPC_Internet_Gateway.html

Studio または Studio Classic ノートブックが Service Catalog の AWS CloudFormation テンプレートから Amazon EMRクラスターをプロビジョニングし、同じ AWS アカウント内の Amazon EMRクラスターに接続できるようにするシンプルな Amazon VPCセットアップの例を示すアーキテクチャ図。この図は、 CloudWatchにインターネットアクセスVPCsがない場合に Amazon S3 や Amazon などのさまざまな AWS サービスに直接接続するために必要なエンドポイントの追加図を示しています。または、複数のプライベートサブネット内のインスタンスがインターネットにアクセスするときにインターネットNATゲートウェイによって提供される単一のパブリック IP アドレスVPCsを共有できるようにするには、ゲートウェイを使用する必要があります。 https://docs.aws.amazon.com/vpc/latest/userguide/VPC_Internet_Gateway.html

Studio と Amazon EMR は同じ VPC

Studio または Studio Classic と Amazon EMRが異なるサブネットにある場合は、各プライベートサブネットルートテーブルにルートを追加して、Studio または Studio Classic と Amazon EMR サブネット間のトラフィックをルーティングします。これらのルートは、VPCVPCダッシュボードの各 のルートテーブルセクションに移動して定義できます。Studio または Studio Classic と Amazon を同じサブネットVPCと同じサブネットEMRにデプロイした場合、Studio と Amazon の間でトラフィックをルーティングする必要はありませんEMR。

ルーティングテーブルを更新する必要があるかどうかにかかわらず、Studio または Studio Classic ドメインのセキュリティグループはアウトバウンドトラフィックを許可し、Amazon EMRプライマリノードのセキュリティグループは Studio または Studio Classic インスタンスセキュリティグループからの Apache Livy Hive 、または Presto TCP ポート (それぞれ 899810000、、および 8889) のインバウンドトラフィックを許可する必要があります。Apache Livy は、RESTインターフェイスEMRを介して Amazon とのインタラクションを可能にするサービスです。

Studio と Amazon がパブリックインターネット経由でEMR通信する

デフォルトでは、Studio と Studio Classic は、 SageMaker ドメインVPCに関連付けられた のインターネットゲートウェイを介したインターネットとの通信を許可するネットワークインターフェイスを提供します。パブリックインターネットEMR経由で Amazon に接続する場合、Amazon はインターネットゲートウェイから Apache Livy Hive 、または Presto TCP ポート (それぞれ 899810000、および 8889) のインバウンドトラフィックを受け入れるEMR必要があります。Apache Livy は、RESTインターフェイスEMRを介して Amazon とのインタラクションを可能にするサービスです。

インバウンドトラフィックを許可するポートでは、セキュリティ脆弱性が生じる可能性があることに注意してください。カスタムセキュリティグループを注意深く確認して、脆弱性を最小限に抑えます。詳細については、「セキュリティグループを使用してネットワークトラフィックを制御する」を参照してください。

または、Amazon で Kerberos EMRを有効にし、プライベートサブネットにクラスターを設定し、Network Load Balancer (NLB) を使用してクラスターにアクセスして、セキュリティグループを介してアクセスコントロールされる特定のポートのみを公開する方法の詳細なチュートリアルブログとホワイトペーパーについては、「」を参照してください。

注記

パブリックインターネット経由で Apache Livy エンドポイントに接続する場合は、 を使用して Studio または Studio Classic と Amazon EMRクラスター間の通信を保護することをお勧めしますTLS。

Apache Livy HTTPSでのセットアップの詳細については、「Apache Livy HTTPSでの有効化」を参照してください。トランジット暗号化を有効にして Amazon EMRクラスターを設定する方法については、「Amazon 暗号化 で転送中のデータをEMR暗号化するための証明書の提供」を参照してください。さらに、 で指定されているように、証明書キーにアクセスするように Studio または Studio Classic を設定する必要があります経由で Amazon EMRクラスターに接続する HTTPS