Conectar os cadernos do Studio em uma VPC para recursos externos - Amazon SageMaker

Conectar os cadernos do Studio em uma VPC para recursos externos

O tópico a seguir fornece informações sobre como conectar os cadernos do Studio em uma VPC para recursos externos.

Comunicação padrão com a internet

Por padrão, o SageMaker Studio fornece uma interface de rede que permite a comunicação com a Internet por meio de uma VPC gerenciada pelo SageMaker. O tráfego para os serviços da AWS, como Amazon S3 e CloudWatch, passa por um gateway da internet. O tráfego que acessa a API do SageMaker e o runtime do SageMaker também passa por um gateway da internet. O tráfego entre o domínio e seu volume do Amazon EFS passa pela VPC que você especificou quando se integrou ao Studio ou chamou a API CreateDomain. O diagrama a seguir mostra a configuração padrão.

O diagrama da VPC do SageMaker Studio mostrando o uso direto do acesso à Internet.

Comunicação da VPC only com a internet

Para evitar que o SageMaker forneça acesso à internet aos seus cadernos do Studio, desative o acesso à internet especificando o tipo de acesso à rede VPC only. Especifique esse tipo de acesso à rede ao se integrar ao Studio ou chamar a API CreateDomain. Como resultado, não será possível executar um caderno do Studio, a menos que:

  • sua VPC tenha um endpoint de interface para a API do SageMaker e o runtime ou um gateway NAT com acesso à internet;

  • seus grupos de segurança permitam conexões de saída.

O diagrama a seguir mostra uma configuração para usar o modo somente VPC.

Diagrama de VPC do SageMaker Studio mostrando o uso do modo somente VPC.

Requisitos para usar o modo VPC only

Quando você escolher VpcOnly, siga estas etapas:

  1. Você deve usar somente sub-redes privadas. Você não pode usar sub-redes públicas no modo VpcOnly.

  2. Certifique-se de que suas sub-redes tenham o número exigido de endereços IP necessários. O número esperado de endereços IP necessários por usuário pode variar de acordo com o caso de uso. Recomendamos entre 2 e 4 endereços IP por usuário. A capacidade total do endereço IP de um domínio do Studio é a soma dos endereços IP disponíveis para cada sub-rede fornecida quando o domínio é criado. Certifique-se de que o uso estimado de endereço IP não exceda a capacidade compatível com o número de sub-redes que você fornece. Além disso, o uso de sub-redes distribuídas em várias zonas de disponibilidade pode ajudar na disponibilidade de endereço IP. Para obter mais informações, consulte Dimensionamento da VPC e da sub-rede para IPv4.

    nota

    Você pode configurar somente sub-redes com uma VPC de locação padrão em que sua instância é executada em hardware compartilhado. Para obter mais informações sobre o atributo de locação para VPCs, consulte Instâncias dedicadas.

  3. Atenção

    Ao usar o modo VpcOnly, você possui parcialmente a configuração de rede do domínio. Recomendamos a melhor prática de segurança de aplicar permissões de privilégio mínimo ao acesso de entrada e saída que as regras do grupo de segurança fornecem. Configurações de regras de entrada excessivamente permissivas podem permitir que usuários com acesso à VPC interajam com as aplicações de outros perfis de usuário sem autenticação.

    Configure um ou mais grupos de segurança com regras de entrada e saída que permitam o seguinte tráfego:

    Crie um grupo de segurança distinto para cada perfil de usuário e adicione acesso de entrada desse mesmo grupo de segurança. Não recomendamos reutilizar um grupo de segurança no nível de domínio para perfis de usuário. Se o grupo de segurança no nível de domínio permitir acesso de entrada para ele mesmo, todas as aplicações no domínio terão acesso a todas as outras aplicações no domínio.

  4. Se você quiser permitir o acesso à Internet, deverá usar um gateway NAT com acesso à Internet, por exemplo, por meio de um gateway da Internet.

  5. Se você remover o acesso à internet, crie endpoints da VPC de interface (AWS PrivateLink) para permitir que o Studio acesse os seguintes serviços com os nomes de serviço correspondentes: Você também deve associar os grupos de segurança da sua VPC a esses endpoints.

    • API do SageMaker: com.amazonaws.region.sagemaker.api

    • Runtime do SageMaker:. com.amazonaws.region.sagemaker.runtime Isso é necessário para executar cadernos Studio e para treinar e hospedar modelos.

    • Amazon S3: com.amazonaws.region.s3.

    • Para usar o SageMaker Projects: com.amazonaws.region.servicecatalog.

    • Quaisquer outros serviços da AWS de que você precise.

    Se você usa o SageMaker Python SDK para executar trabalhos de treinamento remoto, você também deve criar os seguintes endpoints da Amazon VPC:

    • AWS Security Token Service: com.amazonaws.region.sts

    • Amazon CloudWatch: com.amazonaws.region.logs. Isso é necessário para permitir que o SageMaker Python SDK obtenha o status do trabalho de treinamento remoto do Amazon CloudWatch.

nota

Para um cliente que trabalha no modo VPC, os firewalls da empresa podem causar problemas de conexão com o SageMaker Studio ou entre o JupyterServer e o KernelGateway. Faça as seguintes verificações se você encontrar um desses problemas ao usar o SageMaker Studio por trás de um firewall:

  • Verifique se o URL do Studio está na lista de permissões da sua rede.

  • Verifique se as conexões do websocket não estão bloqueadas. O Jupyter usa um websocket dentro do sistema. Se a aplicação KernelGateway estiver InService, o JupyterServer pode não ser capaz de se conectar ao KernelGateway. Você também deve ver esse problema ao abrir o Terminal do Sistema.