기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon EMR 클러스터에 대한 네트워크 액세스 구성
Studio에서 데이터 준비 작업에 Amazon EMR 또는 EMR Serverless 사용을 시작하기 전에 사용자 또는 관리자가 Studio와 Amazon EMR 간의 통신을 허용하도록 네트워크를 구성했는지 확인하세요. 이 통신이 활성화되면 다음을 수행할 수 있습니다.
참고
EMR Serverless 사용자의 경우 가장 간단한 설정 방법은 가상 프라이빗 클라우드(VPC) 옵션의 기본 설정을 수정하지 않고 Studio UI에서 애플리케이션을 만드는 것입니다. 이 접근 방식을 사용하면 SageMaker 도메인의 VPC 내에서 애플리케이션을 만들 수 있으므로 추가 네트워킹 구성이 필요하지 않습니다. 이 옵션을 선택하면 다음 네트워킹 설정 섹션을 건너뛸 수 있습니다.
네트워킹 지침은 Studio 및 Amazon EMR이 프라이빗 Amazon Virtual Private Cloud(Amazon VPC) 내에 배포되어 있는지 아니면 인터넷으로 통신하는지에 따라 달라집니다.
기본적으로 Studio 또는 Studio Classic은 인터넷에 액세스할 수 있는 AWS 관리형 VPC에서 실행됩니다. 인터넷 연결을 사용하는 경우 Studio 및 Studio Classic은 인터넷을 통해 Amazon S3 버킷과 같은 AWS 리소스에 액세스합니다. 하지만 데이터 및 작업 컨테이너에 대한 액세스를 제어하기 위한 보안 요구 사항이 있는 경우 인터넷을 통해 데이터와 컨테이너에 액세스할 수 없도록 Studio 또는 Studio Classic 및 Amazon EMR을 구성하는 것이 좋습니다. 리소스에 대한 액세스를 제어하거나 퍼블릭 인터넷 액세스 없이 Studio 또는 Studio Classic을 실행하려면 Amazon SageMaker AI 도메인에 온보딩할 때 VPC only
네트워크 액세스 유형을 지정할 수 있습니다. 이 시나리오에서는 Studio와 Studio Classic 모두 프라이빗 VPC 엔드포인트를 통해 다른 AWS 서비스와의 연결을 설정합니다. VPC only
모드에서 Studio 또는 Studio Classic을 구성하는 방법에 대한 자세한 내용은 Connect SageMaker Studio or Studio Classic notebooks in a VPC to external resources를 확인하세요.
처음 두 섹션에서는 퍼블릭 인터넷 액세스가 없는 VPC에서 Studio 및 Studio Classic과 Amazon EMR 간 통신을 보장하는 방법을 설명합니다. 마지막 섹션에서는 인터넷 연결을 사용하여 Studio 또는 Studio Classic과 Amazon EMR 간 통신을 보장하는 방법을 다룹니다. 인터넷 액세스 없이 Studio 또는 Studio Classic과 Amazon EMR을 연결하기 전에 Amazon Simple Storage Service(데이터 스토리지), Amazon CloudWatch(로깅 및 모니터링) 및 Amazon SageMaker Runtime(세분화된 역할 기반 액세스 제어(RBAC))의 엔드포인트를 설정해야 합니다.
Studio 또는 Studio Classic과 Amazon EMR을 연결하는 방법:
-
Studio 또는 Studio Classic과 Amazon EMR이 동일한 AWS 계정 또는 다른 계정에 있는 별도의 VPCs에 있는 경우 섹션을 참조하세요 서로 다른 VPC에 있는 Studio와 Amazon EMR.
-
Studio 또는 Studio Classic과 Amazon EMR이 동일한 VPC에 있는 경우 동일한 VPC에 있는 Studio와 Amazon EMR 섹션을 참조하세요.
-
퍼블릭 인터넷을 통해 Studio 또는 Studio Classic과 Amazon EMR을 연결하려는 경우 Studio와 Amazon EMR은 퍼블릭 인터넷을 통해 통신합니다 섹션을 참조하세요.
서로 다른 VPC에 있는 Studio와 Amazon EMR
Studio 또는 Studio Classic과 Amazon EMR을 서로 다른 VPC에 배포할 때 Studio 또는 Studio Classic과 Amazon EMR 간 통신을 허용하는 방법은 다음과 같습니다.
-
VPC 피어링 연결을 통해 VPC를 연결하여 시작합니다.
-
Studio 또는 Studio Classic 서브넷과 Amazon EMR 서브넷 간 네트워크 트래픽을 양방향으로 라우팅하도록 각 VPC의 라우팅 테이블을 업데이트합니다.
-
인바운드 및 아웃바운드 트래픽을 허용하도록 보안 그룹을 구성합니다.
Studio 또는 Studio Classic과 Amazon EMR을 연결하는 단계는 리소스가 단일 AWS 계정(단일 계정 사용 사례)에 배포되든 여러 AWS 계정(교차 계정 사용 사례)에 배포되든 동일합니다.
-
VPC 피어링
VPC 피어링 연결을 만들어 두 VPC(Studio 또는 Studio Classic과 Amazon EMR) 간 네트워킹을 용이하게 합니다.
-
Studio 또는 Studio Classic 계정의 VPC 대시보드에서 피어링 연결을 선택한 다음 피어링 연결 만들기를 선택합니다.
-
Amazon EMR VPC와 Studio 또는 Studio Classic VPC를 피어링하는 요청을 만듭니다. 다른 AWS 계정에서 피어링을 요청할 때 피어링할 다른 VPC 선택에서 다른 계정을 선택합니다.
교차 계정 피어링의 경우 관리자는 Amazon EMR 계정의 요청을 수락해야 합니다.
프라이빗 서브넷을 피어링할 때는 VPC 피어링 연결 수준에서 프라이빗 IP DNS 확인을 활성화해야 합니다.
-
-
라우팅 테이블
Studio 또는 Studio Classic 서브넷과 Amazon EMR 서브넷 간 네트워크 트래픽을 양방향으로 전송합니다.
피어링 연결을 설정한 후 관리자(교차 계정 액세스를 위한 각 계정에서)는 프라이빗 서브넷 라우팅 테이블에 경로를 추가하여 Studio 또는 Studio Classic VPC와 Amazon EMR VPC 간 트래픽을 라우팅할 수 있습니다. VPC 대시보드에서 각 VPC의 라우팅 테이블 섹션으로 이동하여 이러한 경로를 정의할 수 있습니다.
Studio VPC 서브넷의 라우팅 테이블을 보여주는 다음 그림은 피어링 연결을 통해 Studio 계정에서 Amazon EMR VPC IP 범위(여기에서는
2.0.1.0/24
)를 향하는 아웃바운드 경로의 예를 보여줍니다.Amazon EMR VPC 서브넷의 라우팅 테이블을 보여주는 다음 그림은 피어링 연결을 통해 Amazon EMR VPC에서 Studio VPC IP 범위(여기에서는
10.0.20.0/24
)를 향하는 반환 경로의 예를 보여줍니다. -
보안 그룹
마지막으로 Studio 또는 Studio Classic 도메인의 보안 그룹은 아웃바운드 트래픽을 허용해야 하며 Amazon EMR 프라이머리 노드의 보안 그룹은 Studio 또는 Studio Classic 인스턴스 보안 그룹의 Apache Livy, Hive 또는 Presto TCP 포트(각각
8998
,10000
및8889
)의 인바운드 트래픽을 허용해야 합니다. Apache Livy는 REST 인터페이스를 통해 Amazon EMR과 상호 작용을 활성화하는 서비스입니다.
다음 다이어그램은 JupyterLab 또는 Studio Classic 노트북이 Service Catalog의 AWS CloudFormation 템플릿에서 Amazon EMR 클러스터를 프로비저닝한 다음 동일한 AWS 계정 내의 Amazon EMR 클러스터에 연결할 수 있도록 하는 Amazon VPC 설정의 예를 보여줍니다. 이 다이어그램은 VPCs가 인터넷에 액세스할 수 없는 경우 Amazon S3 또는 Amazon CloudWatch와 같은 다양한 AWS 서비스에 직접 연결하는 데 필요한 엔드포인트를 추가로 보여줍니다. 또는 인터넷에 액세스할 때 NAT 게이트웨이를 사용하여 여러 VPC의 프라이빗 서브넷에 있는 인스턴스가 인터넷 게이트웨이가 제공하는 단일 퍼블릭 IP 주소를 공유할 수 있도록 해야 합니다.

동일한 VPC에 있는 Studio와 Amazon EMR
Studio 또는 Studio Classic과 Amazon EMR이 서로 다른 서브넷에 있는 경우 각 프라이빗 서브넷 라우팅 테이블에 경로를 추가하여 Studio 또는 Studio Classic과 Amazon EMR 서브넷 간 트래픽을 라우팅합니다. VPC 대시보드에서 각 VPC의 라우팅 테이블 섹션으로 이동하여 이러한 경로를 정의할 수 있습니다. Studio 또는 Studio Classic과 Amazon EMR을 동일한 VPC, 동일한 서브넷에 배포한 경우 Studio 또는 Studio Classic과 Amazon EMR 간 트래픽을 라우팅할 필요가 없습니다.
라우팅 테이블을 업데이트해야 하든 아니든 관계없이 Studio 또는 Studio Classic 도메인의 보안 그룹은 아웃바운드 트래픽을 허용해야 하며 Amazon EMR 프라이머리 노드의 보안 그룹은 Studio 또는 Studio Classic 인스턴스 보안 그룹의 Apache Livy, Hive 또는 Presto TCP 포트(각각8998
, 10000
및 8889
)의 인바운드 트래픽을 허용해야 합니다. Apache Livy
Studio와 Amazon EMR은 퍼블릭 인터넷을 통해 통신합니다
기본적으로 Studio 및 Studio Classic은 SageMaker 도메인과 연결된 VPC의 인터넷 게이트웨이를 통해 인터넷으로 통신할 수 있는 네트워크 인터페이스를 제공합니다. 퍼블릭 인터넷을 통해 Amazon EMR에 연결하기로 선택한 경우 Amazon EMR은 인터넷 게이트웨이로부터 Apache Livy, Hive 또는 Presto TCP 포트 (각각 8998
, 10000
, 및 8889
)의 인바운드 트래픽을 수락해야 합니다. Apache Livy
인바운드 트래픽을 허용하는 모든 포트는 잠재적인 보안 취약성을 나타낸다는 점에 유의하세요. 취약점들을 최소한으로 줄일 수 있도록 사용자 지정 보안 그룹을 신중하게 검토하세요. 자세한 내용은 보안 그룹에서 네트워크 트래픽 제어를 참조하세요.
또는 Amazon EMR에서 Kerberos를 활성화하고 클러스터를 프라이빗 서브넷에 설정하며 Network Load Balancer(NLB)를 사용해 클러스터에 액세스하여 보안 그룹을 통해 액세스를 제어하는 특정 포트만 노출하는 방법에 대한 자세한 내용은 블로그 및 백서을 참조하세요.
참고
퍼블릭 인터넷을 통해 Apache Livy 엔드포인트에 연결할 때는 TLS를 사용하여 Studio 또는 Studio Classic과 Amazon EMR 클러스터 간 통신을 보호하는 것이 좋습니다.
Apache Livy로 HTTPS를 설정하는 방법에 대한 자세한 내용은 Enabling HTTPS with Apache Livy를 참조하세요. 전송 암호화가 활성화된 Amazon EMR 클러스터를 설정하는 방법에 대한 자세한 내용은 Providing certificates for encrypting data in transit with Amazon EMR encryption을 참조하세요. 또한 HTTPS를 통해 Amazon EMR 클러스터에 연결에서 지정한 대로 인증서 키에 액세스하도록 Studio 또는 Studio Classic을 구성해야 합니다.