As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configurar o acesso à rede para o cluster do Amazon EMR
Antes de começar a usar o Amazon EMR ou o EMR Sem Servidor para suas tarefas de preparação de dados no Studio, certifique-se de que você ou seu administrador tenham configurado sua rede para permitir a comunicação entre o Studio e o Amazon EMR. Depois que essa comunicação estiver ativada, você poderá escolher:
nota
Para usuários do EMR Sem Servidor, a configuração mais simples envolve criar sua aplicação na interface de usuário do Studio sem modificar as configurações padrão da opção de nuvem privada virtual (VPC). Essa abordagem permite que o aplicativo seja criado na VPC do seu SageMaker domínio, eliminando a necessidade de configuração adicional de rede. Se escolher essa opção, ignore a seguinte seção de configuração de rede:
As instruções de rede variam de acordo com o fato de o Studio e o Amazon EMR estarem implantados em uma nuvem privada virtual (VPC) da Amazon ou se comunicarem pela internet.
Por padrão, o Studio ou o Studio Classic são executados em uma VPC AWS gerenciada com acesso à Internet. Ao usar uma conexão com a Internet, o Studio e o Studio Classic acessam AWS recursos, como buckets do Amazon S3, pela Internet. No entanto, se você tiver requisitos de segurança para controlar o acesso aos contêineres de dados e tarefas, recomendamos que você configure o Studio ou o Studio Classic e o Amazon EMR para que seus dados e contêineres não fiquem acessíveis pela internet. Para controlar o acesso aos seus recursos ou executar o Studio ou o Studio Classic sem acesso público à Internet, você pode especificar o tipo de acesso à VPC only
rede ao fazer a integração com o domínio Amazon SageMaker AI. Nesse cenário, tanto o Studio quanto o Studio Classic estabelecem conexões com outros AWS serviços por meio de VPC endpoints privados. Para obter informações sobre como configurar o Studio ou o Studio Classic no VPC only
modo, consulte Conectar notebooks SageMaker Studio ou Studio Classic em uma VPC a recursos externos. .
As duas primeiras seções descrevem como garantir a comunicação entre o Studio ou o Studio Classic e o Amazon EMR VPCs sem acesso público à Internet. A última seção aborda como garantir a comunicação entre o Studio ou o Studio Classic e o Amazon EMR usando uma conexão com a internet. Antes de conectar o Studio ou o Studio Classic ao Amazon EMR sem acesso à Internet, certifique-se de estabelecer endpoints para o Amazon Simple Storage Service (armazenamento de dados), Amazon (registro e monitoramento) e Amazon SageMaker Runtime CloudWatch (controle de acesso baseado em funções (RBAC) refinado).
Para conectar o Studio ou o Studio Classic ao Amazon EMR:
-
Se o Studio ou o Studio Classic e o Amazon EMR estiverem separados VPCs, na mesma AWS conta ou em contas diferentes, consulte. O Studio e o Amazon EMR estão separados VPCs
-
Se o Studio ou o Studio Classic e o Amazon EMR estiverem na mesma VPC, consulte Studio e Amazon EMR na mesma VPC.
-
Se você optar por conectar o Studio ou o Studio Classic e o Amazon EMR pela internet pública, consulte Studio e Amazon EMR se comunicam pela Internet pública.
O Studio e o Amazon EMR estão separados VPCs
Para permitir a comunicação entre o Studio ou o Studio Classic e o Amazon EMR quando eles são implantados separadamente: VPCs
-
Comece conectando seu por VPCs meio de uma conexão de emparelhamento de VPC.
-
Atualize suas tabelas de rotas em cada VPC para rotear o tráfego de rede entre as sub-redes do Studio ou Studio Classic e as sub-redes do Amazon EMR nos dois sentidos.
-
Configure seus grupos de segurança da VPC para permitir tráfego de entrada e saída.
As etapas para conectar o Studio ou o Studio Classic e o Amazon EMR são as mesmas, independentemente de os recursos serem implantados em uma única AWS conta (caso de uso de conta única) ou em várias AWS contas (caso de uso entre contas).
-
emparelhamento da VPC
Crie uma conexão de emparelhamento VPC para facilitar a rede entre os dois VPCs (Studio ou Studio Classic e Amazon EMR).
-
Na sua conta do Studio ou Studio Classic, no painel da VPC, escolha Conexões de emparelhamento e, em seguida, Criar conexão de emparelhamento.
-
Crie sua solicitação para emparelhar a VPC do Studio ou Studio Classic com a VPC do Amazon EMR. Ao solicitar o emparelhamento em outra AWS conta, escolha Outra conta em Selecionar outra VPC para fazer o peering.
Para emparelhamento de contas cruzadas, o administrador deve aceitar a solicitação da conta do Amazon EMR.
Ao emparelhar sub-redes privadas, você deve ativar a resolução de DNS de IP privado na conexão de emparelhamento de VPC.
-
-
Tabelas de rotas
Envie o tráfego de rede entre as sub-redes do Studio ou Studio Classic e as sub-redes do Amazon EMR nos dois sentidos.
Depois de estabelecer a conexão de emparelhamento, o administrador (em cada conta para acesso entre contas) pode adicionar rotas às tabelas de rotas da sub-rede privada para rotear o tráfego entre o Studio ou Studio Classic e as sub-redes do Amazon EMR. Você pode definir essas rotas acessando a seção Tabelas de rotas de cada VPC no painel da VPC.
A ilustração a seguir da tabela de rotas de uma sub-rede de VPC do Studio mostra um exemplo de uma rota de saída da conta do Studio para o intervalo de IP da VPC do Amazon EMR (aqui
2.0.1.0/24
) por meio da conexão de emparelhamento.A ilustração a seguir de uma tabela de rotas de uma sub-rede da VPC do Amazon EMR mostra um exemplo de rotas de retorno do intervalo de IP do Amazon EMR VPC para o Studio VPC (aqui
10.0.20.0/24
) por meio da conexão de emparelhamento. -
Grupos de segurança
Por fim, o grupo de segurança do domínio do Studio ou Studio Classic deve permitir o tráfego de saída, e o grupo de segurança do nó primário do Amazon EMR deve permitir o tráfego de entrada nas portas TCP Apache Livy, Hive ou Presto (respectivamente,
8998
,10000
e8889
) vindo do grupo de segurança da instância do Studio ou Studio Classic. O Apache Livyé um serviço que permite a interação com o Amazon EMR por meio de uma interface REST.
O diagrama a seguir mostra um exemplo de uma configuração do Amazon VPC que permite JupyterLab que os notebooks Studio Classic provisionem clusters do Amazon EMR a partir de modelos AWS CloudFormation no Service Catalog e depois se conectem a um cluster do Amazon EMR na mesma conta. AWS O diagrama fornece uma ilustração adicional dos endpoints necessários para uma conexão direta com vários AWS serviços, como Amazon S3 ou CloudWatch Amazon, quando eles não têm acesso VPCs à Internet. Como alternativa, um gateway NAT deve ser usado para permitir que instâncias em sub-redes privadas de várias VPCs compartilhem um único endereço IP público fornecido pelo gateway da Internet ao acessar a Internet.

Studio e Amazon EMR na mesma VPC
Se o Studio ou o Studio Classic e o Amazon EMR estiverem em sub-redes diferentes, adicione rotas a cada tabela de rotas de sub-rede privada para rotear o tráfego entre o Studio ou o Studio Classic e as sub-redes do Amazon EMR. Você pode definir essas rotas acessando a seção Tabelas de rotas de cada VPC no painel da VPC. Se você implantou o Studio ou o Studio Classic e o Amazon EMR na mesma VPC e na mesma sub-rede, não precisa rotear o tráfego entre o Studio e o Amazon EMR.
Independentemente de você precisar atualizar suas tabelas de roteamento, o grupo de segurança do domínio do Studio ou Studio Classic deve permitir o tráfego de saída, e o grupo de segurança do nó primário do Amazon EMR deve permitir tráfego de entrada nas portas TCP Apache Livy, Hive ou Presto (respectivamente, 8998
, 10000
e 8889
) vindo do grupo de segurança da instância do Studio ou Studio Classic. O Apache Livy
Studio e Amazon EMR se comunicam pela Internet pública
Por padrão, o Studio e o Studio Classic fornecem uma interface de rede que permite a comunicação com a Internet por meio de um gateway de Internet na VPC associada ao SageMaker domínio. Se você optar por se conectar ao Amazon EMR pela internet pública, o Amazon EMR precisará aceitar o tráfego de entrada nas portas TCP Apache Livy, Hive ou Presto (respectivamente, 8998
, 10000
e 8889
) do gateway da internet. O Apache Livy
Lembre-se de que qualquer porta na qual você permita o tráfego de entrada representa uma possível vulnerabilidade de segurança. Revise atentamente os grupos de segurança personalizados para minimizar vulnerabilidades. Para obter mais informações, consulte Controlar o tráfego de rede com grupos de segurança.
Como alternativa, consulte Blogs e guias técnicos para obter uma explicação passo a passo de como habilitar o Kerberos no Amazon EMR, configurar o cluster em uma sub-rede privada e acessar o cluster usando um Network Load Balancer (NLB) para expor somente portas específicas, que são controladas pelo acesso por meio de grupos de segurança.
nota
Ao se conectar ao endpoint do Apache Livy pela internet pública, recomendamos que você proteja as comunicações entre o Studio ou o Studio Classic e o cluster do Amazon EMR usando TLS.
Para obter informações sobre como configurar o HTTPS com o Apache Livy, consulte Como habilitar o HTTPS com o Apache Livy. Para obter informações sobre como configurar um cluster do Amazon EMR com a criptografia de trânsito ativada, consulte Fornecimento de certificados para criptografar dados em trânsito com a criptografia do Amazon EMR. Além disso, é necessário configurar o Studio ou o Studio Classic para acessar a chave de certificado conforme especificado em Conecte-se a um cluster do Amazon EMR por HTTPS.