Conectar os cadernos do Studio em uma VPC para recursos externos
O tópico a seguir fornece informações sobre como conectar os cadernos do Studio em uma VPC para recursos externos.
Comunicação padrão com a internet
Por padrão, o SageMaker Studio fornece uma interface de rede que permite a comunicação com a Internet por meio de uma VPC gerenciada pelo SageMaker. O tráfego para os serviços da AWS, como Amazon S3 e CloudWatch, passa por um gateway da internet. O tráfego que acessa a API do SageMaker e o runtime do SageMaker também passa por um gateway da internet. O tráfego entre o domínio e seu volume do Amazon EFS passa pela VPC que você especificou quando se integrou ao Studio ou chamou a API CreateDomain. O diagrama a seguir mostra a configuração padrão.
Comunicação da VPC only
com a internet
Para evitar que o SageMaker forneça acesso à internet aos seus cadernos do Studio, desative o acesso à internet especificando o tipo de acesso à rede VPC only
. Especifique esse tipo de acesso à rede ao se integrar ao Studio ou chamar a API CreateDomain. Como resultado, não será possível executar um caderno do Studio, a menos que:
-
sua VPC tenha um endpoint de interface para a API do SageMaker e o runtime ou um gateway NAT com acesso à internet;
-
seus grupos de segurança permitam conexões de saída.
O diagrama a seguir mostra uma configuração para usar o modo somente VPC.
Requisitos para usar o modo VPC only
Quando você escolher VpcOnly
, siga estas etapas:
-
Você deve usar somente sub-redes privadas. Você não pode usar sub-redes públicas no modo
VpcOnly
. -
Certifique-se de que suas sub-redes tenham o número exigido de endereços IP necessários. O número esperado de endereços IP necessários por usuário pode variar de acordo com o caso de uso. Recomendamos entre 2 e 4 endereços IP por usuário. A capacidade total do endereço IP de um domínio do Studio é a soma dos endereços IP disponíveis para cada sub-rede fornecida quando o domínio é criado. Certifique-se de que o uso estimado de endereço IP não exceda a capacidade compatível com o número de sub-redes que você fornece. Além disso, o uso de sub-redes distribuídas em várias zonas de disponibilidade pode ajudar na disponibilidade de endereço IP. Para obter mais informações, consulte Dimensionamento da VPC e da sub-rede para IPv4.
nota
Você pode configurar somente sub-redes com uma VPC de locação padrão em que sua instância é executada em hardware compartilhado. Para obter mais informações sobre o atributo de locação para VPCs, consulte Instâncias dedicadas.
-
Atenção
Ao usar o modo
VpcOnly
, você possui parcialmente a configuração de rede do domínio. Recomendamos a melhor prática de segurança de aplicar permissões de privilégio mínimo ao acesso de entrada e saída que as regras do grupo de segurança fornecem. Configurações de regras de entrada excessivamente permissivas podem permitir que usuários com acesso à VPC interajam com as aplicações de outros perfis de usuário sem autenticação.Configure um ou mais grupos de segurança com regras de entrada e saída que permitam o seguinte tráfego:
-
Tráfego NFS via TCP na porta 2049 entre o domínio e o volume do Amazon EFS.
-
Tráfego TCP dentro do grupo de segurança. Isso é necessário para a conectividade entre a aplicação Jupyter Server e as aplicações Kernel Gateway. Você deve permitir o acesso pelo menos às portas no intervalo
8192-65535
.
Crie um grupo de segurança distinto para cada perfil de usuário e adicione acesso de entrada desse mesmo grupo de segurança. Não recomendamos reutilizar um grupo de segurança no nível de domínio para perfis de usuário. Se o grupo de segurança no nível de domínio permitir acesso de entrada para ele mesmo, todas as aplicações no domínio terão acesso a todas as outras aplicações no domínio.
-
-
Se você quiser permitir o acesso à Internet, deverá usar um gateway NAT com acesso à Internet, por exemplo, por meio de um gateway da Internet.
-
Se você remover o acesso à internet, crie endpoints da VPC de interface (AWS PrivateLink) para permitir que o Studio acesse os seguintes serviços com os nomes de serviço correspondentes: Você também deve associar os grupos de segurança da sua VPC a esses endpoints.
-
API do SageMaker:
com.amazonaws.
region
.sagemaker.api -
Runtime do SageMaker:.
com.amazonaws.
Isso é necessário para executar cadernos Studio e para treinar e hospedar modelos.region
.sagemaker.runtime -
Amazon S3:
com.amazonaws.
.region
.s3 -
Para usar o SageMaker Projects:
com.amazonaws.
.region
.servicecatalog -
Quaisquer outros serviços da AWS de que você precise.
Se você usa o SageMaker Python SDK
para executar trabalhos de treinamento remoto, você também deve criar os seguintes endpoints da Amazon VPC: -
AWS Security Token Service:
com.amazonaws.
region
.sts -
Amazon CloudWatch:
com.amazonaws.
. Isso é necessário para permitir que o SageMaker Python SDK obtenha o status do trabalho de treinamento remoto do Amazon CloudWatch.region
.logs
-
nota
Para um cliente que trabalha no modo VPC, os firewalls da empresa podem causar problemas de conexão com o SageMaker Studio ou entre o JupyterServer e o KernelGateway. Faça as seguintes verificações se você encontrar um desses problemas ao usar o SageMaker Studio por trás de um firewall:
-
Verifique se o URL do Studio está na lista de permissões da sua rede.
-
Verifique se as conexões do websocket não estão bloqueadas. O Jupyter usa um websocket dentro do sistema. Se a aplicação KernelGateway estiver InService, o JupyterServer pode não ser capaz de se conectar ao KernelGateway. Você também deve ver esse problema ao abrir o Terminal do Sistema.