As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configure o acesso à rede para seu EMR cluster Amazon
Antes de começar a usar a Amazon EMR ou o EMR Serverless para suas tarefas de preparação de dados no Studio, certifique-se de que você ou seu administrador tenham configurado sua rede para permitir a comunicação entre o Studio e a Amazon. EMR Depois que essa comunicação estiver ativada, você poderá optar por:
nota
Para usuários EMR sem servidor, a configuração mais simples envolve criar seu aplicativo na interface do usuário do Studio sem modificar as configurações padrão da opção Virtual private cloud () VPC. Essa abordagem permite que o aplicativo seja criado dentro do seu SageMaker domínioVPC, eliminando a necessidade de configuração adicional de rede. Se você escolher essa opção, poderá pular a seção de configuração de rede a seguir.
As instruções de rede variam de acordo com o fato de o Studio e a Amazon EMR estarem implantados em uma Amazon Virtual Private Cloud (VPC) privada ou se comunicarem pela Internet.
Por padrão, o Studio ou o Studio Classic são executados em um ambiente AWS gerenciado VPC com acesso à Internet. Ao usar uma conexão com a Internet, o Studio e o Studio Classic acessam AWS recursos, como buckets do Amazon S3, pela Internet. No entanto, se você tiver requisitos de segurança para controlar o acesso aos seus contêineres de dados e trabalhos, recomendamos que você configure o Studio ou o Studio Classic e a Amazon EMR para que seus dados e contêineres não sejam acessíveis pela Internet. Para controlar o acesso aos seus recursos ou executar o Studio ou o Studio Classic sem acesso público à Internet, você pode especificar o tipo de acesso à VPC only
rede ao fazer a integração com o SageMaker domínio da Amazon. Nesse cenário, tanto o Studio quanto o Studio Classic estabelecem conexões com outros AWS serviços por meio de VPCendpoints privados. Para obter informações sobre como configurar o Studio ou o Studio Classic no VPC only
modo, consulte Conectar notebooks SageMaker Studio ou Studio Classic VPC a recursos externos. .
As duas primeiras seções descrevem como garantir a comunicação entre o Studio ou o Studio Classic e a Amazon EMR VPCs sem acesso público à Internet. A última seção aborda como garantir a comunicação entre o Studio ou o Studio Classic e a Amazon EMR usando uma conexão com a Internet. Antes de conectar o Studio ou o Studio Classic à Amazon EMR sem acesso à Internet, certifique-se de estabelecer endpoints para o Amazon Simple Storage Service (armazenamento de dados), Amazon CloudWatch (registro e monitoramento) e Amazon SageMaker Runtime (controle de acesso detalhado baseado em funções ()). RBAC
Para conectar o Studio ou o Studio Classic e a AmazonEMR:
-
Se o Studio ou o Studio Classic e a Amazon EMR estiverem separadosVPCs, na mesma AWS conta ou em contas diferentes, consulte Studio e Amazon EMR estão separados VPCs.
-
Se o Studio ou o Studio Classic e a Amazon EMR estiverem no mesmo VPC lugar, consulteStudio e Amazon EMR estão no mesmo VPC.
-
Se você optar por conectar o Studio ou o Studio Classic e a Amazon pela EMR Internet pública, consulteStudio e Amazon EMR se comunicam pela Internet pública.
Studio e Amazon EMR estão separados VPCs
Para permitir a comunicação entre o Studio ou o Studio Classic e a Amazon EMR quando eles são implantados separadamenteVPCs:
-
Comece conectando o seu VPCs por meio de uma conexão VPC de peering.
-
Atualize suas tabelas de roteamento em cada uma VPC para rotear o tráfego de rede entre as sub-redes Studio ou Studio Classic e as sub-redes da Amazon EMR nos dois sentidos.
-
Configure seus grupos de segurança da VPC para permitir tráfego de entrada e saída.
As etapas para conectar o Studio ou o Studio Classic e a Amazon EMR são as mesmas, independentemente de os recursos serem implantados em uma única AWS conta (caso de uso de conta única) ou em várias AWS contas (caso de uso entre contas).
-
VPCespiando
Crie uma conexão VPC de peering para facilitar a rede entre os dois VPCs (Studio ou Studio Classic e AmazonEMR).
-
Na sua conta Studio ou Studio Classic, no VPC painel, escolha Conexões de emparelhamento e, em seguida, Criar conexão de emparelhamento.
-
Crie sua solicitação para emparelhar o Studio ou o Studio Classic VPC com a Amazon EMRVPC. Ao solicitar o emparelhamento em outra AWS conta, escolha Outra conta em Selecionar outra VPC para fazer o peering.
Para o emparelhamento entre contas, o administrador deve aceitar a solicitação da conta da AmazonEMR.
Ao emparelhar sub-redes privadas, você deve ativar a DNS resolução de IP privado no nível da conexão de VPC emparelhamento.
-
-
Tabelas de rotas
Envie o tráfego de rede entre as sub-redes Studio ou Studio Classic e as sub-redes da Amazon nos dois EMR sentidos.
Depois de estabelecer a conexão de emparelhamento, o administrador (em cada conta para acesso entre contas) pode adicionar rotas às tabelas de rotas da sub-rede privada para rotear o tráfego entre o Studio ou o Studio Classic e as sub-redes da Amazon. EMR Você pode definir essas rotas acessando a seção Tabelas de rotas de cada uma VPC no VPC painel.
A ilustração a seguir da tabela de rotas de uma VPC sub-rede do Studio mostra um exemplo de uma rota de saída da conta do Studio para o intervalo de EMR VPC IP da Amazon (aqui
2.0.1.0/24
) por meio da conexão de emparelhamento.A ilustração a seguir de uma tabela de rotas de uma EMR VPC sub-rede da Amazon mostra um exemplo de rotas de retorno da faixa de VPC IP da Amazon EMR VPC para o Studio (aqui
10.0.20.0/24
) por meio da conexão de emparelhamento. -
Grupos de segurança
Por fim, o grupo de segurança do seu domínio Studio ou Studio Classic deve permitir tráfego de saída, e o grupo de segurança do nó EMR primário da Amazon deve permitir tráfego de entrada nas TCP portas Apache Livy, Hive ou Presto (respectivamente
8998
10000
, e8889
) do grupo de segurança da instância Studio ou Studio Classic. O Apache Livyé um serviço que permite a interação com a Amazon EMR por meio de uma REST interface.
O diagrama a seguir mostra um exemplo de uma VPC configuração da Amazon que permite que JupyterLab nossos notebooks Studio Classic provisionem EMR clusters da Amazon a partir de AWS CloudFormation modelos no Service Catalog e depois se conectem a um EMR cluster da Amazon na mesma AWS conta. O diagrama fornece uma ilustração adicional dos endpoints necessários para uma conexão direta com vários AWS serviços, como Amazon S3 ou CloudWatch Amazon, quando eles não têm acesso VPCs à Internet. Como alternativa, um NATgateway deve ser usado para permitir que instâncias em sub-redes privadas de várias VPCs compartilhem um único endereço IP público fornecido pelo gateway da Internet ao acessar a Internet.
Studio e Amazon EMR estão no mesmo VPC
Se o Studio ou o Studio Classic e a Amazon EMR estiverem em sub-redes diferentes, adicione rotas a cada tabela de rotas de sub-rede privada para rotear o tráfego entre o Studio ou o Studio Classic e as sub-redes da Amazon. EMR Você pode definir essas rotas acessando a seção Tabelas de rotas de cada uma VPC no VPC painel. Se você implantou o Studio ou o Studio Classic VPC e a Amazon EMR na mesma sub-rede, não precisa rotear o tráfego entre o Studio e a Amazon. EMR
Independentemente de você precisar atualizar suas tabelas de roteamento, o grupo de segurança do seu domínio Studio ou Studio Classic deve permitir tráfego de saída, e o grupo de segurança do nó EMR primário da Amazon deve permitir tráfego de entrada nas TCP portas Apache Livy, Hive ou Presto (respectivamente 8998
10000
, e8889
) do grupo de segurança da instância Studio ou Studio Classic. O Apache Livy
Studio e Amazon EMR se comunicam pela Internet pública
Por padrão, o Studio e o Studio Classic fornecem uma interface de rede que permite a comunicação com a Internet por meio de um gateway de Internet VPC associado ao SageMaker domínio. Se você optar por se conectar à Amazon EMR pela Internet pública, a Amazon EMR precisará aceitar tráfego de entrada nas TCP portas Apache Livy, Hive ou Presto (respectivamente 8998
10000
, e8889
) de seu gateway de internet. O Apache Livy
Lembre-se de que qualquer porta na qual você permita o tráfego de entrada representa uma possível vulnerabilidade de segurança. Revise atentamente os grupos de segurança personalizados para minimizar vulnerabilidades. Para obter mais informações, consulte Controlar o tráfego de rede com grupos de segurança.
Como alternativa, consulte Blogs e whitepapers para obter uma explicação detalhada de como habilitar o Kerberos na EMR Amazon, configurar o cluster em uma sub-rede privada e acessar o cluster usando um Network Load Balancer NLB () para expor somente portas específicas, que são controladas pelo acesso por meio de grupos de segurança.
nota
Ao se conectar ao seu endpoint Apache Livy pela Internet pública, recomendamos que você proteja as comunicações entre o Studio ou o Studio Classic e seu cluster Amazon EMR usando. TLS
Para obter informações sobre como configurar HTTPS com o Apache Livy, consulte Habilitando HTTPS com o Apache Livy. Para obter informações sobre como configurar um EMR cluster da Amazon com a criptografia de trânsito ativada, consulte Fornecimento de certificados para criptografar dados em trânsito com a EMR criptografia da Amazon. Além disso, você precisa configurar o Studio ou o Studio Classic para acessar sua chave de certificado conforme especificado emConecte-se a um EMR cluster da Amazon em HTTPS.