Notas SageMaker HyperPod de lançamento da Amazon - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Notas SageMaker HyperPod de lançamento da Amazon

Consulte as seguintes notas de lançamento para acompanhar as atualizações mais recentes da Amazon SageMaker HyperPod.

SageMaker HyperPod notas de lançamento: 10 de setembro de 2024

SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com a Amazon EKS.

Novos atributos

SageMaker HyperPod DLAMIpara EKS suporte da Amazon

A seguir está uma lista resumida dos pacotes pré-instalados ou pré-configurados no suporte SageMaker HyperPod DLAMIs da Amazon. EKS Cada um DLAMIs é construído no Amazon Linux 2 (AL2) e oferece suporte a uma versão específica do Kubernetes.

AMIsIsso inclui o seguinte:

Deep Learning EKS AMI 1.28
  • EKSComponentes da Amazon

    • Versão do Kubernetes: 1.28.11

    • Versão do contêiner: 1.7.20

    • Versão Runc: 1.1.11

    • AWS IAMAutenticador: 0.6.21

  • SSMAgente Amazon: 3.3.380

  • Kernel Linux: 5.10.223

  • OSSControlador Nvidia: 535.183.01

  • NVIDIACUDA: 12,2

  • EFAInstalador: 1.32.0

  • GDRCopy: 2,4

  • Kit de ferramentas de contêiner Nvidia: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.29
  • EKSComponentes da Amazon

    • Versão do Kubernetes: 1.29.6

    • Versão do contêiner: 1.7.20

    • Versão Runc: 1.1.11

    • AWS IAMAutenticador: 0.6.21

  • SSMAgente Amazon: 3.3.380

  • Kernel Linux: 5.10.223

  • OSSControlador Nvidia: 535.183.01

  • NVIDIACUDA: 12,2

  • EFAInstalador: 1.32.0

  • GDRCopy: 2,4

  • Kit de ferramentas de contêiner Nvidia: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.30
  • EKSComponentes da Amazon

    • Versão do Kubernetes: 1.30.2

    • Versão do contêiner: 1.7.20

    • Versão Runc: 1.1.11

    • AWS IAMAutenticador: 0.6.21

  • SSMAgente Amazon: 3.3.380

  • Kernel Linux: 5.10.223

  • OSSControlador Nvidia: 535.183.01

  • NVIDIACUDA: 12,2

  • EFAInstalador: 1.32.0

  • GDRCopy: 2,4

  • Kit de ferramentas de contêiner Nvidia: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

SageMaker HyperPod notas de lançamento: 20 de agosto de 2024

SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.

Novos atributos

  • Aprimorou a funcionalidade de SageMaker HyperPod retomada automática, ampliando a capacidade de resiliência dos nós Slurm conectados com Generic (). RESources GRES

    Quando Generic Resources (GRES) são anexados a um nó do Slurm, o Slurm normalmente não permite alterações na alocação do nó, como a substituição de nós, e, portanto, não permite a retomada de um trabalho com falha. A menos que seja explicitamente proibida, a funcionalidade de HyperPod retomada automática coloca automaticamente em fila novamente qualquer trabalho com defeito associado aos nós habilitados. GRES Esse processo envolve interromper o trabalho, colocá-lo de volta na fila de trabalhos e, em seguida, reiniciar o trabalho desde o início.

Outras mudanças

  • Pré-embalado slurmrestdno. SageMaker HyperPod AMI

  • Os valores padrão foram ResumeTimeout alterados UnkillableStepTimeout de 60 segundos para 300 segundos para melhorar slurm.conf a capacidade de resposta do sistema e o gerenciamento do trabalho.

  • Fizemos pequenas melhorias nas verificações de integridade do NVIDIA Data Center GPU Manager (DCGM) e da Interface de Gerenciamento do NVIDIA Sistema (nvidia-smi).

Correções de erros

  • O plug-in de HyperPod retomada automática pode usar nós ociosos para retomar um trabalho.

Etapas de atualização

  • Execute o comando a seguir para chamar o UpdateClusterSoftwareAPIpara atualizar seus HyperPod clusters existentes com os mais recentes HyperPod DLAMI. Para obter mais instruções, consulteAtualizar o software da SageMaker HyperPod plataforma de um cluster.

    Importante

    Faça backup do seu trabalho antes de executar issoAPI. O processo de correção substitui o volume raiz pelo atualizadoAMI, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.

SageMaker HyperPod notas de lançamento: 20 de junho de 2024

SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.

Novos atributos

  • Foi adicionada uma nova capacidade de anexar armazenamento adicional às instâncias SageMaker HyperPod do cluster. Com esse recurso, você pode configurar o armazenamento suplementar no nível de configuração do grupo de instâncias durante os processos de criação ou atualização do cluster, seja por meio do SageMaker HyperPod console ou do CreateClustere. UpdateClusterAPIs O EBS volume adicional é anexado a cada instância dentro de um SageMaker HyperPod cluster e montado em/opt/sagemaker. Para saber mais sobre como implementá-lo em seu SageMaker HyperPod cluster, consulte a documentação atualizada nas páginas a seguir.

    Observe que você precisa atualizar o software do HyperPod cluster para usar esse recurso. Depois de corrigir o software de HyperPod cluster, você pode utilizar esse recurso para SageMaker HyperPod clusters existentes criados antes de 20 de junho de 2024 adicionando novos grupos de instâncias. Esse recurso é totalmente efetivo para qualquer SageMaker HyperPod cluster criado após 20 de junho de 2024.

Etapas de atualização

  • Execute o comando a seguir para chamar o UpdateClusterSoftwareAPIpara atualizar seus HyperPod clusters existentes com os mais recentes HyperPod DLAMI. Para obter mais instruções, consulteAtualizar o software da SageMaker HyperPod plataforma de um cluster.

    Importante

    Faça backup do seu trabalho antes de executar issoAPI. O processo de correção substitui o volume raiz pelo atualizadoAMI, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.

SageMaker HyperPod notas de lançamento: 24 de abril de 2024

SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.

Correções de erros

  • Corrigido um bug com o ThreadsPerCore parâmetro no ClusterInstanceGroupSpecificationAPI. Com a correção, pegue CreateClustere aplique UpdateClusterAPIsadequadamente a entrada do usuárioThreadsPerCore. Essa correção é efetiva em HyperPod clusters criados após 24 de abril de 2024. Se você teve problemas com esse bug e deseja que essa correção seja aplicada ao seu cluster, você precisa criar um novo cluster. Certifique-se de fazer backup e restaurar seu trabalho ao migrar para um novo cluster, seguindo as instruções emUse o script de backup fornecido pelo SageMaker HyperPod.

SageMaker HyperPod notas de lançamento: 27 de março de 2024

SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.

HyperPod patch de software

A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Veja os detalhes a seguir sobre as últimas HyperPod DLAMI.

  • Nesta versão do HyperPod DLAMI, o Slurm foi criado com REST service (slurmestd) com JSONYAML, e JWT suporte.

  • Slurm atualizado para v23.11.3

Etapas de atualização

  • Execute o comando a seguir para chamar o UpdateClusterSoftwareAPIpara atualizar seus HyperPod clusters existentes com os mais recentes HyperPod DLAMI. Para obter mais instruções, consulteAtualizar o software da SageMaker HyperPod plataforma de um cluster.

    Importante

    Faça backup do seu trabalho antes de executar issoAPI. O processo de correção substitui o volume raiz pelo atualizadoAMI, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.

Melhorias

  • Aumento do tempo limite do serviço de retomada automática para 60 minutos.

  • Processo aprimorado de substituição de instâncias para não reiniciar o controlador Slurm.

  • Mensagens de erro aprimoradas da execução de scripts de ciclo de vida, como erros de download e erros de verificação de integridade da instância na inicialização da instância.

Correções de erros

  • Corrigido um bug com o serviço chrony que causava um problema com a sincronização de horário.

  • Corrigido um bug com a análise. slurm.conf

  • Corrigido um problema com a NVIDIAgo-dcgmbiblioteca.

SageMaker HyperPod notas de lançamento: 14 de março de 2024

SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.

HyperPod patch de software

A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Veja os detalhes a seguir sobre as últimas HyperPod DLAMI.

  • Slurm atualizado para v23.11.1

  • Adicionado O penPMIx v4.2.6 para habilitar o Slurm com. PMIx

  • Construído sobre o AWS Deep Learning Base GPU AMI (Ubuntu 20.04) lançado em 2023-10-26

  • Uma lista completa de pacotes pré-instalados HyperPod DLAMI neste, além da base AMI

    • Slurm: v23.11.1

    • O penPMIx : v4.2.6

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática

Etapas de atualização

  • Execute o comando a seguir para chamar o UpdateClusterSoftwareAPIpara atualizar seus HyperPod clusters existentes com os mais recentes HyperPod DLAMI. Para obter mais instruções, consulteAtualizar o software da SageMaker HyperPod plataforma de um cluster.

    Importante

    Faça backup do seu trabalho antes de executar issoAPI. O processo de correção substitui o volume raiz pelo atualizadoAMI, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.

Melhorias

SageMaker HyperPod notas de lançamento: 15 de fevereiro de 2024

SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.

Novos atributos

  • Foi adicionada uma nova UpdateClusterSoftware API correção SageMaker HyperPod de segurança. Quando os patches de segurança estiverem disponíveis, recomendamos que você atualize os SageMaker HyperPod clusters existentes em sua conta executandoaws sagemaker update-cluster-software --cluster-name your-cluster-name. Para acompanhar futuros patches de segurança, continue acompanhando esta página de notas de SageMaker HyperPod lançamento da Amazon. Para saber como UpdateClusterSoftware API funciona, consulteAtualizar o software da SageMaker HyperPod plataforma de um cluster.

SageMaker HyperPod notas de lançamento: 29 de novembro de 2023

SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.

Novos atributos

  • Lançou a Amazon SageMaker HyperPod em AWS re: Invent 2023.

HyperPod patch de software

A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Veja os detalhes a seguir sobre as últimas HyperPod DLAMI.

  • Construído sobre o AWS Deep Learning Base GPU AMI (Ubuntu 20.04) lançado em 2023-10-18

  • Uma lista completa de pacotes pré-instalados HyperPod DLAMI neste, além da base AMI

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática