As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Notas SageMaker HyperPod de lançamento da Amazon
As notas de lançamento a seguir acompanham as atualizações mais recentes da Amazon SageMaker HyperPod. Essas notas de lançamento descrevem novos recursos, correções e melhorias feitas desde a versão anterior.
SageMaker HyperPod notas de lançamento: 10 de setembro de 2024
SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com a Amazon EKS.
Novos atributos
-
Adicionado EKS suporte da Amazon em SageMaker HyperPod. Para saber mais, consulte Orquestrando SageMaker HyperPod clusters com a Amazon EKS.
SageMaker HyperPod DLAMIpara EKS suporte da Amazon
A seguir está uma lista resumida dos pacotes pré-instalados ou pré-configurados no suporte SageMaker HyperPod DLAMIs da Amazon. EKS Cada um DLAMIs é construído no Amazon Linux 2 (AL2) e oferece suporte a uma versão específica do Kubernetes.
AMIsIsso inclui o seguinte:
SageMaker HyperPod DLAMIpara suporte ao Slurm
A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Veja os detalhes a seguir sobre as últimas novidades HyperPod DLAMI do Slurm.
nota
Para encontrar instruções sobre como atualizar os HyperPod clusters existentes com os mais recentes HyperPod DLAMI, consulteAtualizar o software da SageMaker HyperPod plataforma de um cluster.
-
Instalou o NVIDIA driver v550.90.07
-
Instalou o EFA driver v2.10
-
Instalou a versão mais recente do AWS Neuron SDK
-
aws-neuronx-collectives: v2.21.46.0
-
aws-neuronx-dkms: v2.17.17.0
-
aws-neuronx-oci-hook: v2.4.4.0
-
aws-neuronx-runtime-lib: v2.21.41.0
-
aws-neuronx-tools: v2.18.3.0
-
SageMaker HyperPod notas de lançamento: 20 de agosto de 2024
SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.
Novos atributos
-
Aprimorou a funcionalidade de SageMaker HyperPod retomada automática, ampliando a capacidade de resiliência dos nós Slurm conectados com Generic (). RESources GRES
Quando Generic Resources (GRES)
são anexados a um nó do Slurm, o Slurm normalmente não permite alterações na alocação do nó, como a substituição de nós, e, portanto, não permite a retomada de um trabalho com falha. A menos que seja explicitamente proibida, a funcionalidade de HyperPod retomada automática coloca automaticamente em fila novamente qualquer trabalho com defeito associado aos nós habilitados. GRES Esse processo envolve interromper o trabalho, colocá-lo de volta na fila de trabalhos e, em seguida, reiniciar o trabalho desde o início.
Outras mudanças
-
Pré-embalado
slurmrestd
no. SageMaker HyperPod AMI -
Os valores padrão foram
ResumeTimeout
alteradosUnkillableStepTimeout
de 60 segundos para 300 segundos para melhorarslurm.conf
a capacidade de resposta do sistema e o gerenciamento do trabalho. -
Fizemos pequenas melhorias nas verificações de integridade do NVIDIA Data Center GPU Manager (DCGM) e da Interface de Gerenciamento do NVIDIA Sistema (nvidia-smi).
Correções de erros
-
O plug-in de HyperPod retomada automática pode usar nós ociosos para retomar um trabalho.
Etapas de atualização
-
Execute o comando a seguir para chamar o UpdateClusterSoftwareAPIpara atualizar seus HyperPod clusters existentes com os mais recentes HyperPod DLAMI. Para obter mais instruções, consulteAtualizar o software da SageMaker HyperPod plataforma de um cluster.
Importante
Faça backup do seu trabalho antes de executar issoAPI. O processo de correção substitui o volume raiz pelo atualizadoAMI, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
nota
Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.
SageMaker HyperPod notas de lançamento: 20 de junho de 2024
SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.
Novos atributos
-
Foi adicionada uma nova capacidade de anexar armazenamento adicional às instâncias SageMaker HyperPod do cluster. Com esse recurso, você pode configurar o armazenamento suplementar no nível de configuração do grupo de instâncias durante os processos de criação ou atualização do cluster, por meio do SageMaker HyperPod console ou do
CreateCluster
e.UpdateCluster
APIs O EBS volume adicional é anexado a cada instância dentro de um SageMaker HyperPod cluster e montado em/opt/sagemaker
. Para saber mais sobre como implementá-lo em seu SageMaker HyperPod cluster, consulte a documentação atualizada nas páginas a seguir.Observe que você precisa atualizar o software do HyperPod cluster para usar esse recurso. Depois de corrigir o software de HyperPod cluster, você pode utilizar esse recurso para SageMaker HyperPod clusters existentes criados antes de 20 de junho de 2024 adicionando novos grupos de instâncias. Esse recurso é totalmente efetivo para qualquer SageMaker HyperPod cluster criado após 20 de junho de 2024.
Etapas de atualização
-
Execute o comando a seguir para chamar o UpdateClusterSoftwareAPIpara atualizar seus HyperPod clusters existentes com os mais recentes HyperPod DLAMI. Para obter mais instruções, consulteAtualizar o software da SageMaker HyperPod plataforma de um cluster.
Importante
Faça backup do seu trabalho antes de executar issoAPI. O processo de correção substitui o volume raiz pelo atualizadoAMI, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
nota
Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.
SageMaker HyperPod notas de lançamento: 24 de abril de 2024
SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.
Correções de erros
-
Corrigido um bug com o
ThreadsPerCore
parâmetro noClusterInstanceGroupSpecification
API. Com a correção, pegueCreateCluster
e apliqueUpdateCluster
APIsadequadamente a entrada do usuárioThreadsPerCore
. Essa correção é efetiva em HyperPod clusters criados após 24 de abril de 2024. Se você teve problemas com esse bug e deseja que essa correção seja aplicada ao seu cluster, você precisa criar um novo cluster. Certifique-se de fazer backup e restaurar seu trabalho ao migrar para um novo cluster, seguindo as instruções emUse o script de backup fornecido pelo SageMaker HyperPod.
SageMaker HyperPod notas de lançamento: 27 de março de 2024
SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.
HyperPod patch de software
A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Veja os detalhes a seguir sobre as últimas HyperPod DLAMI.
-
Nesta versão do HyperPod DLAMI, o Slurm foi criado com REST service (
slurmestd
) com JSONYAML, e JWT suporte. -
Slurm
atualizado para v23.11.3
Etapas de atualização
-
Execute o comando a seguir para chamar o UpdateClusterSoftwareAPIpara atualizar seus HyperPod clusters existentes com os mais recentes HyperPod DLAMI. Para obter mais instruções, consulteAtualizar o software da SageMaker HyperPod plataforma de um cluster.
Importante
Faça backup do seu trabalho antes de executar issoAPI. O processo de correção substitui o volume raiz pelo atualizadoAMI, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
nota
Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.
Melhorias
-
Aumento do tempo limite do serviço de retomada automática para 60 minutos.
-
Processo aprimorado de substituição de instâncias para não reiniciar o controlador Slurm.
-
Mensagens de erro aprimoradas da execução de scripts de ciclo de vida, como erros de download e erros de verificação de integridade da instância na inicialização da instância.
Correções de erros
-
Corrigido um bug com o serviço chrony que causava um problema com a sincronização de horário.
-
Corrigido um bug com a análise.
slurm.conf
-
Corrigido um problema com a NVIDIA
go-dcgm
biblioteca.
SageMaker HyperPod notas de lançamento: 14 de março de 2024
SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.
HyperPod DLAMIpara patch de software Slurm
A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Veja os detalhes a seguir sobre as últimas HyperPod DLAMI.
-
Slurm
atualizado para v23.11.1 -
Adicionado O penPMIx
v4.2.6 para habilitar o Slurm com. PMIx -
Construído com base na Base de Aprendizado AWS Profundo GPU AMI (Ubuntu 20.04)
lançada em 26/10/2023 -
Uma lista completa de pacotes pré-instalados HyperPod DLAMI neste, além da base AMI
-
O penPMIx
: v4.2.6 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática
Etapas de atualização
-
Execute o comando a seguir para chamar o UpdateClusterSoftwareAPIpara atualizar seus HyperPod clusters existentes com os mais recentes HyperPod DLAMI. Para obter mais instruções, consulteAtualizar o software da SageMaker HyperPod plataforma de um cluster.
Importante
Faça backup do seu trabalho antes de executar issoAPI. O processo de correção substitui o volume raiz pelo atualizadoAMI, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
nota
Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.
Melhorias
-
HyperPod agora suporta adequadamente a passagem de nomes de partição fornecidos
provisioning_params.json
e cria partições apropriadamente com base nas entradas fornecidas. Para obter mais informações sobre aprovisioning_params.json
, consulte SageMaker HyperPod formulários e Personalize SageMaker HyperPod clusters usando scripts de ciclo de vida.
SageMaker HyperPod notas de lançamento: 15 de fevereiro de 2024
SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.
Novos atributos
-
Foi adicionada uma nova
UpdateClusterSoftware
API correção SageMaker HyperPod de segurança. Quando os patches de segurança estiverem disponíveis, recomendamos que você atualize os SageMaker HyperPod clusters existentes em sua conta executandoaws sagemaker update-cluster-software --cluster-name
. Para acompanhar futuros patches de segurança, continue acompanhando esta página de notas de SageMaker HyperPod lançamento da Amazon. Para saber comoyour-cluster-name
UpdateClusterSoftware
API funciona, consulteAtualizar o software da SageMaker HyperPod plataforma de um cluster.
SageMaker HyperPod notas de lançamento: 29 de novembro de 2023
SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.
Novos atributos
-
Lançou a Amazon SageMaker HyperPod no AWS re:Invent 2023.
HyperPod patch de software
A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Veja os detalhes a seguir sobre as últimas HyperPod DLAMI.
-
Construído com base na Base de Aprendizado AWS Profundo GPU AMI (Ubuntu 20.04)
lançada em 18/10/2023 -
Uma lista completa de pacotes pré-instalados HyperPod DLAMI neste, além da base AMI
-
Munge: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática