SageMaker HyperPod PERGUNTAS FREQUENTES

Use as perguntas frequentes a seguir para solucionar problemas de uso SageMaker HyperPod.

P: Por que não consigo encontrar grupos de log do meu SageMaker HyperPod cluster na Amazon CloudWatch?

Por padrão, os registros do agente e os registros de inicialização da instância são enviados para a conta da HyperPod plataforma. CloudWatch No caso de scripts de ciclo de vida do usuário, os registros de configuração do ciclo de vida são enviados para a sua conta. CloudWatch

Se você usar os exemplos de scripts de ciclo de vida fornecidos pela equipe de HyperPod serviço, você pode esperar encontrar os registros de configuração do ciclo de vida gravados e não encontrará esse problema. /var/log/provision/provisioning.log

No entanto, se você usa caminhos personalizados para coletar registros do provisionamento do ciclo de vida e não consegue encontrar os grupos de registros que aparecem na sua conta CloudWatch, isso pode ser devido a incompatibilidades entre os caminhos dos arquivos de log especificados nos scripts do ciclo de vida e o que o CloudWatch agente em execução nas instâncias do cluster procura. HyperPod Nesse caso, isso significa que você precisa configurar adequadamente seus scripts de ciclo de vida para enviar registros ao CloudWatch agente e também definir a configuração do CloudWatch agente adequadamente. Para resolver o problema, escolha uma das opções a seguir.

Opção 1: atualize seus scripts de ciclo de vida para gravar registros. /var/log/provision/provisioning.log
Opção 2: atualize o CloudWatch agente para procurar seus caminhos personalizados para registrar o provisionamento do ciclo de vida.
1. Cada instância de HyperPod cluster contém um arquivo de configuração do CloudWatch agente no formato JSON em/opt/aws/amazon-cloudwatch-agent/sagemaker_cwagent_config.json. No arquivo de configuração, encontre o nome do campologs.logs_collected.files.collect_list.file_path. Com a configuração padrão de HyperPod, o par de valores-chave deve estar "file_path": "/var/log/provision/provisioning.log" conforme documentado em. Registro SageMaker HyperPod em nível de instância O trecho de código a seguir mostra a aparência do arquivo JSON com a HyperPod configuração padrão.
```
"logs": {
    "logs_collected": {
        "files": {
            "collect_list": [
                {
                    "file_path": "/var/log/provision/provisioning.log",
                    "log_group_name": "/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]",
                    "log_stream_name": "LifecycleConfig/[InstanceGroupName]/{instance_id}",
                    "retention_in_days": -1
                }
            ]
        }
    },
    "force_flush_interval": 3
}
```
2. Substitua o valor do nome do "file_path" campo pelo caminho personalizado que você usa em seus scripts de ciclo de vida. Por exemplo, se você configurou seus scripts de ciclo de vida para gravar/var/log/custom-provision/custom-provisioning.log, atualize o valor para corresponder a ele da seguinte maneira.
```
"file_path": "/var/log/custom-provision/custom-provisioning.log"
```
3. Reinicie o CloudWatch agente com o arquivo de configuração para concluir a aplicação do caminho personalizado. Por exemplo, o CloudWatch comando a seguir mostra como reiniciar o CloudWatch agente com o arquivo de configuração do CloudWatch agente da etapa 1. Para obter mais informações, consulte também Solução de problemas do CloudWatch agente.
```
sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl \
    -a fetch-config -m ec2 -s -c \
    file:/opt/aws/amazon-cloudwatch-agent/sagemaker_cwagent_config.json
```

P: Quais configurações específicas são HyperPod gerenciadas nos arquivos de configuração do Slurm, como e? slurm.conf gres.conf

Quando você cria um cluster do Slurm no HyperPod, o HyperPod agente configura os gres.confarquivos slurm.confe em /opt/slurm/etc/ para gerenciar o cluster do Slurm com base na solicitação de criação do cluster e nos scripts HyperPod do ciclo de vida. A lista a seguir mostra quais parâmetros específicos o HyperPod agente manipula e substitui.

Importante

É altamente recomendável que você NÃO altere esses parâmetros gerenciados pelo HyperPod.

Em slurm.conf, HyperPod configura os seguintes parâmetros básicos: ClusterName SlurmctldHostPartitionName,, NodeName e.

Além disso, para habilitar a Retoma automático funcionalidade, é HyperPod necessário definir SchedulerParameters os parâmetros TaskPlugin e da seguinte forma. O HyperPod agente configura esses dois parâmetros com os valores necessários por padrão.
```
TaskPlugin=task/none
SchedulerParameters=permit_job_expansion
```
Em gres.conf, HyperPod gerencia NodeName os nós da GPU.

P: Como faço para executar o Docker nos nós do Slurm? HyperPod

Para ajudá-lo a executar o Docker nos nós do Slurm em execução HyperPod, a equipe de HyperPod serviço fornece scripts de configuração que você pode incluir como parte da configuração do ciclo de vida para a criação do cluster. Para saber mais, consulte Comece com scripts básicos de ciclo de vida fornecidos por HyperPod e Execute contêineres do Docker em um nó de computação do Slurm em HyperPod.

P: Como faço para usar o armazenamento NVMe local de instâncias P para lançar contêineres Docker ou Enroot com o Slurm?

Como o volume raiz padrão do seu nó principal geralmente é limitado pelo volume de 100 GB do EBS, você precisa configurar o Docker e o Enroot para usar o armazenamento de instâncias NVMe local. Para saber como configurar a loja NVMe e usá-la para lançar contêineres Docker, consulte. Execute contêineres do Docker em um nó de computação do Slurm em HyperPod

P: Como configurar grupos de segurança do EFA?

Se você quiser criar um HyperPod cluster com instâncias habilitadas para EFA, certifique-se de configurar um grupo de segurança para permitir todo o tráfego de entrada e saída do próprio grupo de segurança. Para saber mais, consulte Etapa 1: Preparar um grupo de segurança habilitado para EFA no Guia do usuário do Amazon EC2.

P: Como faço para monitorar meus nós de HyperPod cluster? Há alguma CloudWatch métrica exportada HyperPod?

Para obter visibilidade sobre a utilização de recursos do seu HyperPod cluster, recomendamos que você integre o cluster com o Amazon Managed Grafana e o HyperPod Amazon Managed Service for Prometheus. Com vários painéis de código aberto do Grafana e pacotes de exportação, você pode exportar e visualizar métricas relacionadas aos recursos do cluster. HyperPod Para saber mais sobre a configuração SageMaker HyperPod com o Amazon Managed Grafana e o Amazon Managed Service para Prometheus, consulte. SageMaker HyperPod monitoramento de recursos de cluster Observe que SageMaker HyperPod atualmente não suporta a exportação de métricas do sistema para a Amazon CloudWatch.

P: Posso adicionar um armazenamento adicional aos nós do HyperPod cluster? As instâncias do cluster têm um armazenamento limitado de instâncias locais.

Se o armazenamento padrão da instância for insuficiente para sua carga de trabalho, você poderá configurar armazenamento adicional por instância. A partir do lançamento em 20 de junho de 2024, você pode adicionar um volume adicional do Amazon Elastic Block Store (EBS) a cada instância em seu cluster. SageMaker HyperPod Observe que esse recurso não pode ser aplicado a grupos de instâncias existentes de SageMaker HyperPod clusters criados antes de 20 de junho de 2024. Você pode utilizar esse recurso corrigindo SageMaker HyperPod clusters existentes criados antes de 20 de junho de 2024 e adicionando novos grupos de instâncias a eles. Esse recurso é totalmente efetivo para qualquer SageMaker HyperPod cluster criado após 20 de junho de 2024.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Gerenciamento de clusters

Orquestrando HyperPod clusters com a Amazon EKS