As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usando a interface do usuário SageMaker HyperPod do console
Crie seu primeiro SageMaker HyperPod cluster usando a interface SageMaker HyperPod do console.
Crie seu primeiro SageMaker HyperPod cluster com o Slurm
O tutorial a seguir demonstra como criar um novo SageMaker HyperPod cluster e configurá-lo com o Slurm por meio da interface do usuário do SageMaker console. Seguindo o tutorial, você criará um HyperPod cluster com três nós do Slurm, my-controller-group
my-login-group
, e. worker-group-1
Abra o SageMaker console da Amazon em https://console.aws.amazon.com/sagemaker/
. -
Escolha HyperPod Clusters no painel de navegação esquerdo.
-
Na página SageMaker HyperPod Clusters, escolha Criar cluster.
-
Na Etapa 1: Configurações do cluster, especifique um nome para o novo cluster. Ignore a seção Tags.
-
Na Etapa 2: grupos de instâncias, adicione grupos de instâncias. Cada grupo de instâncias pode ser configurado de forma diferente, e você pode criar um cluster heterogêneo que consiste em vários grupos de instâncias com vários tipos de instância. Para que os scripts de configuração do ciclo de vida sejam executados no grupo de instâncias durante a criação do cluster, você pode começar usando os exemplos de scripts de ciclo de vida fornecidos no repositório do Awsome
Distributed Training. GitHub -
Em Nome do grupo de instâncias, especifique um nome para o grupo de instâncias. Para este tutorial, crie três grupos de instâncias chamados
my-controller-group
my-login-group
,worker-group-1
e. -
Em Selecionar tipo de instância, escolha a instância para o grupo de instâncias. Para este tutorial, selecione
ml.c5.xlarge
paramy-controller-group
my-login-group
,ml.m5.4xlarge
para eml.trn1.32xlarge
paraworker-group-1
.Certifique-se de escolher o tipo de instância com cotas suficientes em sua conta ou solicite cotas adicionais seguindo em. SageMaker HyperPod cotas
-
Em Quantidade, especifique um número inteiro que não exceda a cota de instância para uso do cluster. Para este tutorial, insira 1 para todos os três grupos.
-
Para arquivos de script do caminho do S3 para o ciclo de vida, insira o caminho do Amazon S3 no qual seus scripts de ciclo de vida estão armazenados. Se você não tiver scripts de ciclo de vida, siga as subetapas a seguir para usar os scripts básicos de ciclo de vida fornecidos pela equipe de serviço. SageMaker HyperPod
-
Clone o repositório Awsome Distributed Training GitHub
. git clone https://github.com/aws-samples/awsome-distributed-training/
-
Abaixo
1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config
, você pode encontrar um conjunto de scripts básicos de ciclo de vida. Para saber mais sobre os scripts de ciclo de vida, consulte também. Personalize SageMaker HyperPod clusters usando scripts de ciclo de vida -
Escreva um arquivo de configuração do Slurm e salve-o como.
provisioning_params.json
No arquivo, especifique os parâmetros básicos de configuração do Slurm para atribuir adequadamente os nós do Slurm aos grupos de instâncias do SageMaker HyperPod cluster. Por exemplo, oprovisioning_params.json
deve ser semelhante ao seguinte, com base no grupo de instâncias de HyperPod cluster configurado por meio das etapas anteriores 5a, 5b e 5c.{ "version": "1.0.0", "workload_manager": "
slurm
", "controller_group": "my-controller-group
", "login_group": "my-login-group
", "worker_groups": [ { "instance_group_name": "worker-group-1
", "partition_name": "partition-1
" } ] } -
Faça o upload dos scripts para o seu bucket do Amazon S3. Crie um bucket S3 com um caminho no seguinte formato:
s3://sagemaker-
. Você pode criar esse bucket usando o console do Amazon S3.<unique-s3-bucket-name>
/<lifecycle-script-directory>
/srcnota
Você deve
sagemaker-
prefixar o caminho do bucket do S3, porque o IAMpapel para SageMaker HyperPod withAmazonSageMakerClusterInstanceRolePolicy
só permite que os principais acessem os buckets do S3 com esse prefixo específico.
-
-
Em Caminho do diretório para seu script de ciclo de vida ao ser criado, insira o nome do arquivo do script de ciclo de vida em Caminho do S3 para arquivos de script de ciclo de vida.
-
Para IAMfunção, escolha a IAM função que você criou usando a
AmazonSageMakerClusterInstanceRolePolicy
da seçãoIAMpapel para SageMaker HyperPod. -
Em Configuração avançada, você pode definir as seguintes configurações opcionais.
-
(Opcional) Para Threads per core, especifique
1
para desativar o multiencadeamento e2
para habilitar o multiencadeamento. Para descobrir qual tipo de instância oferece suporte a vários segmentos, consulte a tabela de referência de CPUnúcleos e segmentos por CPU núcleo por tipo de instância no Guia do usuário do Amazon Elastic Compute Cloud. -
(Opcional) Para configurações adicionais de armazenamento de instâncias, especifique um número inteiro entre 1 e 16384 para definir o tamanho de um volume adicional do Elastic Block Store (EBS) em gigabytes (GB). O EBS volume é anexado a cada instância do grupo de instâncias. O caminho de montagem padrão para o EBS volume adicional é
/opt/sagemaker
. Depois que o cluster for criado com sucesso, você poderá SSH acessar as instâncias do cluster (nós) e verificar se o EBS volume está montado corretamente executando odf -h
comando. A anexação de um EBS volume adicional fornece armazenamento estável, fora da instância e com persistência independente, conforme descrito na seção de EBSvolumes da Amazon no Guia do usuário do Amazon Elastic Block Store.
-
-
-
Na Etapa 3: Configuração avançada, defina as configurações de rede dentro, dentro e fora do cluster. Selecione o seu próprio VPC se você já tiver um que dê SageMaker acesso ao seuVPC. Se você não tiver um, mas quiser criar um novoVPC, siga as instruções em Criar um VPC no Guia do usuário da Amazon Virtual Private Cloud. Você pode deixar como não VPC para usar o padrão SageMaker VPC.
-
Na Etapa 4: revisar e criar, revise a configuração que você definiu da etapa 1 a 3 e conclua o envio da solicitação de criação do cluster.
-
O novo cluster deve aparecer em Clusters no painel principal do SageMaker HyperPod console. Você pode verificar o status exibido na coluna Status.
-
Depois que o status do cluster mudar para
InService
, você poderá começar a fazer login nos nós do cluster. Para acessar os nós do cluster e começar a executar cargas de trabalho de ML, consulteTrabalhos em SageMaker HyperPod clusters.
Exclua o cluster e limpe os recursos
Depois de testar com êxito a criação de um SageMaker HyperPod cluster, ele continua sendo executado no InService
estado até que você exclua o cluster. Recomendamos que você exclua todos os clusters criados usando SageMaker instâncias sob demanda quando não estiverem em uso para evitar cobranças de serviço contínuas com base nos preços sob demanda. Neste tutorial, você criou um cluster que consiste em dois grupos de instâncias. Um deles usa uma instância C5, portanto, certifique-se de excluir o cluster seguindo as instruções emExcluir um SageMaker HyperPod cluster.
No entanto, se você tiver criado um cluster com capacidade computacional reservada, o status dos clusters não afetará o faturamento do serviço.
Para limpar os scripts de ciclo de vida do bucket do S3 usados neste tutorial, acesse o bucket do S3 usado durante a criação do cluster e remova completamente os arquivos.
Se você testou a execução de qualquer carga de trabalho no cluster, verifique se você carregou algum dado ou se seu trabalho salvou algum artefato em diferentes buckets do S3 ou serviços do sistema de arquivos, como Amazon FSx for Lustre e Amazon Elastic File System. Para evitar cobranças, exclua todos os artefatos e dados do armazenamento ou do sistema de arquivos.