As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usando a interface do usuário SageMaker HyperPod do console
Crie seu primeiro SageMaker HyperPod cluster usando a interface SageMaker HyperPod do console.
Crie seu primeiro SageMaker HyperPod cluster com o Slurm
O tutorial a seguir demonstra como criar um novo SageMaker HyperPod cluster e configurá-lo com o Slurm por meio da interface do usuário do console de SageMaker IA. Após o tutorial, você criará um HyperPod cluster com três nós do Slurm, my-controller-group
my-login-group
, e. worker-group-1
Abra o console do Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/
. -
Escolha HyperPod Clusters no painel de navegação esquerdo.
-
Na página SageMaker HyperPod Clusters, escolha Create Cluster (Criar cluster).
-
Na Etapa 1: configurações do cluster, especifique um nome para o novo cluster. Ignore a seção Tags.
-
Na Etapa 2: grupos de instâncias, adicione grupos de instâncias. Cada grupo de instâncias pode ser configurado de forma diferente e você pode criar um cluster heterogêneo que consiste em vários grupos de instâncias com vários tipos de instância. Para que os scripts de configuração do ciclo de vida sejam executados no grupo de instâncias durante a criação do cluster, você pode começar usando os exemplos de scripts de ciclo de vida fornecidos no repositório do Awsome
Distributed Training. GitHub -
Em Nome do grupo de instâncias, especifique um nome para o grupo de instâncias. Para este tutorial, crie três grupos de instâncias chamados
my-controller-group
,my-login-group
, eworker-group-1
. -
Em Selecionar tipo de instância, escolha a instância para o grupo de instâncias. Para este tutorial, selecione
ml.c5.xlarge
paramy-controller-group
,ml.m5.4xlarge
paramy-login-group
, eml.trn1.32xlarge
paraworker-group-1
.Escolha o tipo de instância com cotas suficientes em sua conta ou solicite cotas adicionais seguindo em SageMaker HyperPod cotas.
-
Em Quantidade, especifique um número inteiro que não exceda a cota de instância para uso do cluster. Para este tutorial, insira 1 para todos os três grupos.
-
Para arquivos de script do caminho do S3 para o ciclo de vida, insira o caminho do Amazon S3 no qual seus scripts de ciclo de vida estão armazenados. Se você não tiver scripts de ciclo de vida, siga as subetapas a seguir para usar os scripts básicos de ciclo de vida fornecidos pela equipe de serviço. SageMaker HyperPod
-
Clone o repositório Awsome Distributed Training GitHub
. git clone https://github.com/aws-samples/awsome-distributed-training/
-
Em
1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config
, você encontra um conjunto de scripts básicos de ciclo de vida. Para saber mais sobre os scripts do ciclo de vida, consulte também Personalize SageMaker HyperPod clusters usando scripts de ciclo de vida. -
Escreva um arquivo de configuração do Slurm e salve-o como
provisioning_params.json
. No arquivo, especifique os parâmetros básicos de configuração do Slurm para atribuir adequadamente os nós do Slurm aos grupos de instâncias do SageMaker HyperPod cluster. Por exemplo, oprovisioning_params.json
deve ser semelhante ao seguinte, com base no grupo de instâncias de HyperPod cluster configurado por meio das etapas anteriores 5a, 5b e 5c.{ "version": "1.0.0", "workload_manager": "
slurm
", "controller_group": "my-controller-group
", "login_group": "my-login-group
", "worker_groups": [ { "instance_group_name": "worker-group-1
", "partition_name": "partition-1
" } ] } -
Faça upload do script no seu bucket do Amazon S3. Crie um bucket S3 com um caminho no seguinte formato:
s3://sagemaker-
. Você pode criar este bucket do Amazon S3 usando o console.<unique-s3-bucket-name>
/<lifecycle-script-directory>
/srcnota
Você deve prefixar
sagemaker-
ao caminho do bucket do S3, porque o Função do IAM para SageMaker HyperPod comAmazonSageMakerClusterInstanceRolePolicy
só permite que as entidades principais acessem os buckets do S3 com esse prefixo específico.
-
-
Em Caminho do diretório para seu script de ciclo de vida ao ser criado, insira o nome do arquivo do script de ciclo de vida em Caminho do S3 para arquivos de script de ciclo de vida.
-
Para o perfil do IAM, escolha o perfil do IAM que você criou usando a
AmazonSageMakerClusterInstanceRolePolicy
da seção Função do IAM para SageMaker HyperPod. -
Em Configuração avançada, você pode definir as seguintes configurações opcionais:
-
(Opcional) Para Threads por núcleo, especifique
1
para desativar o multithreading e2
para habilitar o multithreading. Para descobrir qual tipo de instância é compatível multithreading, consulte a tabela de referência de núcleos de CPU e threads por núcleo de CPU por tipo de instância no Guia do usuário do Amazon Elastic Compute Cloud. -
(Opcional) Para Configurações adicionais de armazenamento de instâncias, especifique um número inteiro entre 1 e 16384 para definir o tamanho de um volume adicional do Elastic Block Store (EBS) em gigabytes (GB). O volume do EBS é anexado a cada instância do grupo de instâncias. O caminho de montagem padrão para o volume adicional do EBS é
/opt/sagemaker
. Depois que o cluster for criado com sucesso, você poderá entrar por SSH nas instâncias do cluster (nós) e verificar se o volume do EBS está montado corretamente executando o comandodf -h
. A anexação de um volume adicional do EBS fornece armazenamento estável, fora da instância e com persistência independente, conforme descrito na seção de volumes do Amazon EBS no Guia do usuário do Amazon Elastic Block Store.
-
-
-
Na Etapa 3: Configuração avançada, defina as configurações de rede dentro, dentro e fora do cluster. Selecione sua própria VPC se você já tiver uma que dê acesso de SageMaker IA à sua VPC. Se você não tiver uma, mas quiser criar uma VPC, siga as instruções em Criar uma VPC no Guia do usuário da Amazon Virtual Private Cloud. Você pode deixar como nenhuma VPC para usar a VPC de IA padrão SageMaker .
-
Na Etapa 4: revisar e criar, revise a configuração que você definiu da etapa 1 a 3 e conclua o envio da solicitação de criação do cluster.
-
O novo cluster deve aparecer em Clusters no painel principal do SageMaker HyperPod console. Você pode conferir o status exibido na coluna Status.
-
Depois que o status do cluster mudar para
InService
, você poderá começar a fazer login nos nós do cluster. Para acessar os nós do cluster e começar a executar workloads de ML, consulte Trabalhos em SageMaker HyperPod clusters.
Exclua o cluster e limpe os recursos.
Depois de testar com êxito a criação de um SageMaker HyperPod cluster, ele continua sendo executado no InService
estado até que você exclua o cluster. Recomendamos que você exclua todos os clusters criados usando instâncias de SageMaker IA sob demanda quando não estiverem em uso para evitar cobranças de serviço contínuas com base nos preços sob demanda. Neste tutorial, você criou um cluster que consiste em dois grupos de instâncias. Um deles usa uma instância C5, portanto, exclua o cluster seguindo as instruções em Excluir um SageMaker HyperPod cluster.
No entanto, se você tiver criado um cluster com capacidade computacional reservada, o status dos clusters não afetará o faturamento do serviço.
Para limpar os scripts de ciclo de vida do bucket do S3 usados neste tutorial, acesse o bucket do S3 usado durante a criação do cluster e remova completamente os arquivos.
Se você testou a execução de qualquer carga de trabalho no cluster, verifique se você carregou algum dado ou se seu trabalho salvou algum artefato em diferentes buckets do S3 ou serviços do sistema de arquivos, como Amazon FSx for Lustre e Amazon Elastic File System. Para evitar cobranças, exclua todos os artefatos e dados do armazenamento ou do sistema de arquivos.