Usando a interface do usuário SageMaker HyperPod do console

Modo de foco

Usando a interface do usuário SageMaker HyperPod do console - SageMaker IA da Amazon

Crie seu primeiro SageMaker HyperPod cluster com o Slurm Exclua o cluster e limpe os recursos.

Crie seu primeiro SageMaker HyperPod cluster usando a interface SageMaker HyperPod do console.

Crie seu primeiro SageMaker HyperPod cluster com o Slurm

O tutorial a seguir demonstra como criar um novo SageMaker HyperPod cluster e configurá-lo com o Slurm por meio da interface do console de SageMaker IA. Após o tutorial, você criará um HyperPod cluster com três nós do Slurm, my-controller-groupmy-login-group, e. worker-group-1

Abra o console Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/.
Escolha HyperPod Clusters no painel de navegação esquerdo e, em seguida, Gerenciamento de Clusters.
Na página SageMaker HyperPod Clusters, escolha Create Cluster (Criar cluster).
Na Etapa 1: configurações do cluster, especifique um nome para o novo cluster. Ignore a seção Tags.
Na Etapa 2: grupos de instâncias, adicione grupos de instâncias. Cada grupo de instâncias pode ser configurado de forma diferente e você pode criar um cluster heterogêneo que consiste em vários grupos de instâncias com vários tipos de instância. Para que os scripts de configuração do ciclo de vida sejam executados no grupo de instâncias durante a criação do cluster, você pode começar usando os exemplos de scripts de ciclo de vida fornecidos no repositório do Awsome Distributed Training. GitHub
1. Em Nome do grupo de instâncias, especifique um nome para o grupo de instâncias. Para este tutorial, crie três grupos de instâncias chamados my-controller-group, my-login-group, e worker-group-1.
2. Em Selecionar tipo de instância, escolha a instância para o grupo de instâncias. Para este tutorial, selecione ml.c5.xlarge para my-controller-group, ml.m5.4xlarge para my-login-group, e ml.trn1.32xlarge para worker-group-1.
  
  Escolha o tipo de instância com cotas suficientes em sua conta ou solicite cotas adicionais seguindo em SageMaker HyperPod cotas.
3. Em Quantidade, especifique um número inteiro que não exceda a cota de instância para uso do cluster. Para este tutorial, insira 1 para todos os três grupos.
4. Para arquivos de script do caminho do S3 para o ciclo de vida, insira o caminho do Amazon S3 no qual seus scripts de ciclo de vida estão armazenados. Se você não tiver scripts de ciclo de vida, siga as subetapas a seguir para usar os scripts básicos de ciclo de vida fornecidos pela equipe de serviço. SageMaker HyperPod
  1. Clone o repositório Awsome Distributed Training GitHub.
```
git clone https://github.com/aws-samples/awsome-distributed-training/
```
  2. Em 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config, você encontra um conjunto de scripts básicos de ciclo de vida. Para saber mais sobre os scripts do ciclo de vida, consulte também Personalize SageMaker HyperPod clusters usando scripts de ciclo de vida.
  3. Escreva um arquivo de configuração do Slurm e salve-o como provisioning_params.json. No arquivo, especifique os parâmetros básicos de configuração do Slurm para atribuir adequadamente os nós do Slurm aos grupos de instâncias do SageMaker HyperPod cluster. Por exemplo, o provisioning_params.json deve ser semelhante ao seguinte, com base no grupo de instâncias de HyperPod cluster configurado por meio das etapas anteriores 5a, 5b e 5c.
```
{
    "version": "1.0.0",
    "workload_manager": "slurm",
    "controller_group": "my-controller-group",
    "login_group": "my-login-group",
    "worker_groups": [
        {
            "instance_group_name": "worker-group-1",
            "partition_name": "partition-1"
        }
    ]
}
```
  4. Faça upload do script no seu bucket do Amazon S3. Crie um bucket S3 com um caminho no seguinte formato: s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src. Você pode criar este bucket do Amazon S3 usando o console.
    
    nota
    Você deve prefixar sagemaker- ao caminho do bucket do S3, porque o Função do IAM para SageMaker HyperPod com AmazonSageMakerClusterInstanceRolePolicy só permite que as entidades principais acessem os buckets do S3 com esse prefixo específico.
5. Em Caminho do diretório para seu script de ciclo de vida ao ser criado, insira o nome do arquivo do script de ciclo de vida em Caminho do S3 para arquivos de script de ciclo de vida.
6. Para o perfil do IAM, escolha o perfil do IAM que você criou usando a AmazonSageMakerClusterInstanceRolePolicy da seção Função do IAM para SageMaker HyperPod.
7. Em Configuração avançada, você pode definir as seguintes configurações opcionais:
  1. (Opcional) Para Threads por núcleo, especifique 1 para desativar o multithreading e 2 para habilitar o multithreading. Para descobrir qual tipo de instância é compatível multithreading, consulte a tabela de referência de núcleos de CPU e threads por núcleo de CPU por tipo de instância no Guia do usuário do Amazon Elastic Compute Cloud.
  2. (Opcional) Para Configurações adicionais de armazenamento de instâncias, especifique um número inteiro entre 1 e 16384 para definir o tamanho de um volume adicional do Elastic Block Store (EBS) em gigabytes (GB). O volume do EBS é anexado a cada instância do grupo de instâncias. O caminho de montagem padrão para o volume adicional do EBS é/opt/sagemaker. Depois que o cluster for criado com sucesso, você poderá entrar por SSH nas instâncias do cluster (nós) e verificar se o volume do EBS está montado corretamente executando o comando df -h. A anexação de um volume adicional do EBS fornece armazenamento estável, fora da instância e com persistência independente, conforme descrito na seção de volumes do Amazon EBS no Guia do usuário do Amazon Elastic Block Store.
Na Etapa 3: Configuração avançada, defina as configurações de rede dentro, dentro e fora do cluster. Selecione sua própria VPC se você já tiver uma que dê acesso de SageMaker IA à sua VPC. Se você não tiver uma, mas quiser criar uma VPC, siga as instruções em Criar uma VPC no Guia do usuário da Amazon Virtual Private Cloud. Você pode deixar como nenhuma VPC para usar a VPC AI padrão SageMaker .
Na Etapa 4: revisar e criar, revise a configuração que você definiu da etapa 1 a 3 e conclua o envio da solicitação de criação do cluster.
O novo cluster deve aparecer em Clusters no painel principal do SageMaker HyperPod console. Você pode conferir o status exibido na coluna Status.
Depois que o status do cluster mudar para InService, você poderá começar a fazer login nos nós do cluster. Para acessar os nós do cluster e começar a executar workloads de ML, consulte Trabalhos em SageMaker HyperPod clusters.

Exclua o cluster e limpe os recursos.

Depois de testar com êxito a criação de um SageMaker HyperPod cluster, ele continua sendo executado no InService estado até que você exclua o cluster. Recomendamos que você exclua todos os clusters criados usando instâncias de SageMaker IA sob demanda quando não estiverem em uso para evitar cobranças de serviço contínuas com base nos preços sob demanda. Neste tutorial, você criou um cluster que consiste em dois grupos de instâncias. Um deles usa uma instância C5, portanto, exclua o cluster seguindo as instruções em Excluir um SageMaker HyperPod cluster.

No entanto, se você tiver criado um cluster com capacidade computacional reservada, o status dos clusters não afetará o faturamento do serviço.

Para limpar os scripts de ciclo de vida do bucket do S3 usados neste tutorial, acesse o bucket do S3 usado durante a criação do cluster e remova completamente os arquivos.

Se você testou a execução de qualquer carga de trabalho no cluster, verifique se você carregou algum dado ou se seu trabalho salvou algum artefato em diferentes buckets do S3 ou serviços do sistema de arquivos, como Amazon FSx for Lustre e Amazon Elastic File System. Para evitar cobranças, exclua todos os artefatos e dados do armazenamento ou do sistema de arquivos.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Conceitos básicos do SageMaker HyperPod

Usando os AWS CLI comandos para HyperPod

Nesta página

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

Usando a interface do usuário SageMaker HyperPod do console

Crie seu primeiro SageMaker HyperPod cluster com o Slurm

nota

Exclua o cluster e limpe os recursos.

Nesta página

Related resources

Esta página foi útil?

Related resources

Próximo tópico:

Tópico anterior:

Precisa de ajuda?