Crie uma instância de SageMaker notebook da Amazon - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Crie uma instância de SageMaker notebook da Amazon

Importante

Políticas personalizadas do IAM que permitem que o Amazon SageMaker SageMaker Studio ou o Amazon Studio Classic criem SageMaker recursos da Amazon também devem conceder permissões para adicionar tags a esses recursos. A permissão para adicionar tags aos recursos é necessária porque o Studio e o Studio Classic marcam automaticamente todos os recursos que eles criam. Se uma política do IAM permitir que o Studio e o Studio Classic criem recursos, mas não permitisse a marcação, erros AccessDenied "" podem ocorrer ao tentar criar recursos. Para ter mais informações, consulte Forneça permissões para recursos de marcação SageMaker.

AWS Políticas gerenciadas para a Amazon SageMakerque dão permissões para criar SageMaker recursos já incluem permissões para adicionar tags ao criar esses recursos.

Uma instância de SageMaker notebook da Amazon é uma instância de computação de ML executando o aplicativo Jupyter Notebook. SageMaker gerencia a criação da instância e dos recursos relacionados. Use notebooks Jupyter em sua instância de notebook para:

  • preparar e processar dados

  • escrever código para treinar modelos

  • implantar modelos SageMaker na hospedagem

  • teste ou valide seus modelos

Para criar uma instância de notebook, use o SageMaker console ou o CreateNotebookInstanceAPI.

O tipo de instância de caderno que você escolher depende de como você a usa. Certifique-se de que sua instância do notebook não esteja vinculada à memória, CPU ou E/S. Para carregar um conjunto de dados na memória da instância do notebook para exploração ou pré-processamento, escolha um tipo de instância com memória RAM suficiente para seu conjunto de dados. Isso requer uma instância com pelo menos 16 GB de memória (.xlarge ou maior). Se você planeja usar o caderno para pré-processamento intensivo de computação, recomendamos optar por uma instância otimizada para computação, como c4 ou c5.

Uma prática recomendada ao usar um SageMaker notebook é usar a instância do notebook para orquestrar outros AWS serviços. Por exemplo, você pode usar a instância do notebook para gerenciar o processamento de grandes conjuntos de dados. Para fazer isso, faça chamadas para o AWS Glue for ETL (extrair, transformar e carregar) ou para o Amazon EMR para mapeamento e redução de dados usando o Hadoop. Você pode usar AWS serviços como formas temporárias de computação ou armazenamento para seus dados.

Você pode armazenar e recuperar seus dados de treinamento e teste usando um bucket do Amazon Simple Storage Service. Em seguida, você pode usar SageMaker para treinar e criar seu modelo. Como resultado, o tipo de instância do seu notebook não teria influência na velocidade do treinamento e teste do seu modelo.

Depois de receber a solicitação, SageMaker faça o seguinte:

  • Cria uma interface de rede — se você escolher a configuração opcional de VPC SageMaker , cria a interface de rede em sua VPC. Ele usa o ID da sub-rede que você fornece na solicitação para determinar em qual zona de disponibilidade criar a sub-rede. SageMaker associa o grupo de segurança que você fornece na solicitação à sub-rede. Para ter mais informações, consulte Conectar uma instância de caderno em uma VPC aos recursos externos.

  • Lança uma instância de computação de ML — SageMaker inicia uma instância de computação de ML em uma SageMaker VPC. SageMaker executa as tarefas de configuração que permitem gerenciar sua instância do notebook. Se você especificou sua VPC, SageMaker habilita o tráfego entre sua VPC e a instância do notebook.

  • Instala pacotes e bibliotecas do Anaconda para plataformas comuns de aprendizado profundo — SageMaker instala todos os pacotes do Anaconda incluídos no instalador. Para obter mais informações, consulte a lista de pacotes do Anaconda. SageMaker também instala as bibliotecas de aprendizado profundo Apache MXNet TensorFlow e Apache MXNet.

  • Anexa um volume de armazenamento de ML — SageMaker anexa um volume de armazenamento de ML à instância de computação de ML. Você pode usar o volume como uma área de trabalho para limpar o conjunto de dados de treinamento ou armazenar temporariamente a validação, o teste ou outros dados. Escolha qualquer tamanho entre 5 GB e 16384 GB, em incrementos de 1 GB, para o volume. O padrão é 5 GB. Os volumes de armazenamento de ML são criptografados, portanto, não é SageMaker possível determinar a quantidade de espaço livre disponível no volume. Por isso, você pode aumentar o tamanho do volume ao atualizar uma instância do caderno, mas não pode diminuir o tamanho do volume. Se você deseja diminuir o tamanho do volume de armazenamento do ML em uso, crie uma nova instância do caderno com o tamanho desejado.

    Somente os arquivos e dados salvos na pasta /home/ec2-user/SageMaker persistem entre sessões de instância de caderno. Os arquivos e dados salvos fora desse diretório são sobrescritos quando a instância de caderno é interrompida e reiniciada. Cada diretório /tmp da instância de caderno fornece um mínimo de 10 GB de armazenamento em um armazenamento de instância. Um armazenamento de instância é um armazenamento temporário em nível de bloco que não é persistente. Quando a instância é interrompida ou reiniciada, SageMaker exclui o conteúdo do diretório. Esse armazenamento temporário faz parte do volume raiz da instância de caderno.

    Se o tipo de instância usado pela instância do notebook tiver suporte a NVMe, os clientes poderão usar os volumes de armazenamento de instâncias NVMe disponíveis para esse tipo de instância. Para instâncias com volumes de armazenamento NVMe, todos os volumes de armazenamento de instâncias são automaticamente anexados à instância na inicialização. Para obter mais informações sobre os tipos de instância e seus volumes de armazenamento NVMe associados, consulte os detalhes do tipo de instância do Amazon Elastic Compute Cloud.

    Para disponibilizar o volume de armazenamento NVMe conectado para sua instância de notebook, conclua as etapas em Disponibilizar volumes de armazenamento de instâncias em sua instância. Conclua as etapas com acesso root ou usando um script de configuração do ciclo de vida.

    nota

    Os volumes de armazenamento de instâncias NVMe não são armazenamento persistente. Esse armazenamento dura pouco com a instância e deve ser reconfigurado sempre que uma instância com esse armazenamento for iniciada.

  • Copia exemplos de notebooks Jupyter — Esses exemplos de código em Python mostram exercícios de treinamento e hospedagem de modelos usando diferentes algoritmos e conjuntos de dados de treinamento.

Para criar uma instância de SageMaker notebook:
  1. Abra o SageMaker console em https://console.aws.amazon.com/sagemaker/.

  2. Escolha Notebook instances (Instâncias de caderno) e Create notebook instance (Criar instância de bloco de anotações).

  3. Na página Create notebook instance (Criar instância de bloco de anotações), forneça as seguintes informações:

    1. Em Notebook instance name (Nome da instância de bloco de anotações), digite um nome para a sua instância de caderno.

    2. Para o tipo de instância do bloco de anotações (caderno), escolha um tamanho de instância adequado ao seu caso de uso. Para obter uma lista dos tipos e cotas de instâncias compatíveis, consulte Amazon SageMaker Service Quotas.

    3. Para o Elastic Inference, escolha um tipo de acelerador de inferência para associar à instância do notebook se você planeja realizar inferências a partir da instância do notebook. Se você não planeja realizar inferências a partir da instância do notebook, escolha nenhuma. Para obter informações sobre a inferência elástica, consulte Use o Amazon SageMaker Elastic Inference (EI) .

    4. Em Identificador de Plataforma, escolha um tipo de plataforma para criar a instância do caderno. Esse tipo de plataforma determina o sistema operacional e a JupyterLab versão com a qual sua instância do notebook é criada. Para obter informações sobre o tipo de identificador de plataforma, consulte Instâncias de caderno do Amazon Linux 2. Para obter mais informações sobre as versões do JupyterLab, consulte JupyterLab controle de versão.

    5. (Opcional) A Additional configuration (Configuração adicional) permite que os usuários avançados criem um script shell que pode ser executado quando você cria ou inicia a instância. Esse script, chamado de script de configuração do ciclo de vida, pode ser usado para definir o ambiente do caderno ou para executar outras funções. Para obter mais informações, consulte Personalize uma instância do SageMaker notebook usando um script LCC.

    6. (Opcional) A Additional configuration (Configuração adicional) também permite especificar o tamanho, em GB, do volume de armazenamento ML anexado à instância de caderno. Você pode escolher um tamanho entre 5 GB e 16.384 GB, em incrementos de 1 GB. É possível usar o volume para limpar o conjunto de dados de treinamento ou para armazenar temporariamente a validação ou outros dados.

    7. (Opcional) Para Versão mínima do IMDS, selecione uma versão na lista suspensa. Se esse valor for definido como v1, as duas versões poderão ser usadas com a instância do caderno. Se v2 for selecionada, somente o IMDSv2 poderá ser usado com a instância do caderno. Para obter informações sobre o IMDSv2, consulte Usar o IMDSv2.

      nota

      A partir de 31 de outubro de 2022, a versão mínima padrão do IMDS para instâncias de SageMaker notebook muda de IMDSv1 para IMDSv2.

      A partir de 1º de fevereiro de 2023, o IMDSv1 não estará mais disponível para a criação de novas instâncias de caderno. Após essa data, você pode criar instâncias de caderno com uma versão mínima do IMDS de 2.

    8. Para a função do IAM, escolha uma função do IAM existente em sua conta com as permissões necessárias para acessar SageMaker os recursos ou crie uma nova função. Se você escolher Criar uma nova função, SageMaker cria uma função do IAM chamadaAmazonSageMaker-ExecutionRole-YYYYMMDDTHHmmSS. A política AWS gerenciada AmazonSageMakerFullAccess é anexada à função. A função fornece permissões que permitem que a instância do notebook chame SageMaker o Amazon S3.

    9. Em Acesso raiz, para dar acesso root a todos os usuários da instância do notebook, escolha Habilitar. Para remover o acesso root dos usuários, escolha Desativar. Se você conceder acesso root, todos os usuários da instância do notebook terão privilégios de administrador e poderão acessar e editar todos os arquivos contidos nela.

    10. (Opcional) A Encryption key (Chave de criptografia) permite criptografar dados no volume de armazenamento ML anexado à instância de caderno usando uma chave do AWS Key Management Service (AWS KMS). Para armazenar informações confidenciais no volume de armazenamento de ML, considere criptografar as informações.

    11. (Opcional) A Network (Rede) permite que você coloque sua instância de caderno dentro de uma Virtual Private Cloud (VPC). Uma VPC fornece segurança adicional e limita o acesso a recursos na VPC de fontes externas à VPC. Para obter informações sobre VPCs, consulte o Guia do usuário da Amazon VPC.

      Para adicionar sua instância de caderno a uma VPC:

      1. Escolha o VPC e um. SubnetId

      2. Em Security Group, escolha o security group padrão da sua VPC.

      3. Se você precisar que sua instância de caderno tenha acesso à Internet, habilite o acesso direto à Internet. Em Direct internet access (Acesso direito à internet), escolha Enable (Habilitar). O acesso à Internet pode tornar sua instância de caderno menos segura. Para ter mais informações, consulte Conectar uma instância de caderno em uma VPC aos recursos externos.

    12. (Opcional) Para associar repositórios Git à instâncias de caderno, escolha um repositório padrão e até três repositórios adicionais. Para ter mais informações, consulte Associe repositórios Git a instâncias do Notebook SageMaker .

    13. Escolha Create notebook instance (Criar instância de bloco de anotações).

      Em alguns minutos, a Amazon SageMaker lança uma instância de computação de ML — nesse caso, uma instância de notebook — e anexa um volume de armazenamento de ML a ela. A instância de caderno conta com a pré-configuração de um servidor de cadernos Jupyter e de um conjunto de bibliotecas da Anaconda. Para obter mais informações, consulte a API CreateNotebookInstance.

  4. Quando o status da instância de caderno é InService, no console, a instância de caderno está pronta para ser usada. Escolha Open Jupyter (Abrir o Jupyter) ao lado do nome do caderno para abrir o painel clássico do Jupyter.

    nota

    Para aumentar a segurança da sua instância de SageMaker notebook da Amazon, todos os notebook.region.sagemaker.aws domínios regionais são registrados na Lista Pública de Sufixos (PSL) da Internet. Para maior segurança, recomendamos que você use cookies com um __Host- prefixo para definir cookies confidenciais para os domínios das instâncias do seu SageMaker notebook. Isso ajuda a defender seu domínio contra tentativas de falsificação de solicitação entre sites (CSRF). Para obter mais informações, consulte a página Set-Cookie no site de documentação para desenvolvedores da mozilla.org.

    Você pode escolher Abrir JupyterLab para abrir o JupyterLab painel. O painel fornece acesso à instância do seu notebook e aos SageMaker cadernos de amostra que contêm orientações completas do código. Essas orientações mostram como usar para realizar tarefas comuns de SageMaker aprendizado de máquina. Para ter mais informações, consulte Blocos de anotações de exemplo. Para ter mais informações, consulte Controle o acesso root a uma instância do SageMaker notebook.

    Para obter mais informações sobre cadernos Jupyter, consulte O caderno Jupyter.