Referências do SageMaker HyperPod
Encontre mais informações e referências sobre o uso do SageMaker HyperPod nos tópicos a seguir.
Tópicos
Preços do SageMaker HyperPod
Os tópicos a seguir fornecem informações sobre os preços do SageMaker HyperPod. Para mais detalhes sobre o preço por hora do uso das instâncias do SageMaker HyperPod, consulte também os preços do Amazon SageMaker
Solicitações de capacidade
Você pode alocar capacidade computacional sob demanda ou reservada com o SageMaker para uso no SageMaker HyperPod. A criação de clusters sob demanda aloca a capacidade disponível do pool de capacidade sob demanda do SageMaker. Como alternativa, você pode solicitar capacidade reservada para garantir o acesso enviando um ticket para aumentar a cota. As solicitações de capacidade de entrada são priorizadas pelo SageMaker e você recebe um tempo estimado para alocação de capacidade.
Faturamento de serviço
Ao provisionar uma capacidade computacional no SageMaker HyperPod, você é cobrado pela duração da alocação de capacidade. A cobrança do SageMaker HyperPod aparece em suas faturas de aniversário com um item de linha para o tipo de alocação de capacidade (sob demanda, reservada), o tipo de instância e o tempo gasto no uso da instância.
Para enviar um ticket para um aumento de cota, consulteCotas do SageMaker HyperPod.
APIs do SageMaker HyperPod
A lista a seguir é um conjunto completo de APIs do SageMaker HyperPod para enviar solicitações de ação no formato JSON ao SageMaker por meio da AWS CLI ou do AWS SDK for Python (Boto3).
Formulários do SageMaker HyperPod
Para configurar a ferramenta de gerenciamento de workload do Slurm no HyperPod, crie um arquivo de configuração do Slurm exigido pelo HyperPod usando o formulário fornecido.
Formulário de configuração para provisionamento de nós Slurm no HyperPod
O código a seguir é o formulário de configuração do Slurm que você deve preparar para configurar adequadamente os nós do Slurm em seu cluster HyperPod. Preencha esse formulário e carregá-lo como parte de um conjunto de scripts de ciclo de vida durante a criação do cluster. Para saber como esse formulário deve ser preparado em todos os processos de criação do cluster HyperPod, consulte Personalize clusters do SageMaker HyperPod usando scripts de ciclo de vida.
// Save as provisioning_params.json. { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "
string
", "login_group": "string
", "worker_groups": [ { "instance_group_name": "string
", "partition_name": "string
" } ], "fsx_dns_name": "string
", "fsx_mountname": "string
" }
-
version
: obrigatório. Essa é a versão do formulário de parâmetros de provisionamento do HyperPod. Guarde para1.0.0
. -
workload_manager
: obrigatório. Isso permite especificar qual gerenciador de workload deve ser configurado no cluster HyperPod. Guarde paraslurm
. -
controller_group
: obrigatório. Isso permite especificar o nome do grupo de instâncias do cluster HyperPod que você deseja atribuir ao nó (principal) do controlador Slurm. -
login_group
: optional. Isso permite especificar o nome do grupo de instâncias do cluster HyperPod que você deseja atribuir ao nó de login do Slurm. -
worker_groups
: obrigatório. Isso permite configurar nós de processamento (computação) do Slurm no cluster HyperPod.-
instance_group_name
: obrigatório. Isso permite especificar o nome do grupo de instâncias do HyperPod que você deseja atribuir ao nó de processamento (computação) do Slurm. -
partition_name
: obrigatório. Isso permite especificar o nome da partição para o nó.
-
-
fsx_dns_name
: optional. Se você quiser configurar seus nós Slurm no cluster HyperPod para se comunicar com o Amazon FSx, especifique o nome DNS do FSx. -
fsx_mountname
: optional. Se você quiser configurar seus nós do Slurm no cluster HyperPod para se comunicar com o Amazon FSx, especifique o nome da montagem do FSx.
DLAMI do SageMaker HyperPod
O SageMaker HyperPod executa uma DLAMI com base em:
-
AMI de deep learning da AWS de GPU base (Ubuntu 20.04)
para orquestração com o Slurm. -
AMI baseada no Amazon Linux 2 para orquestração com o Amazon EKS.
O SageMaker HyperPod DLAMI vem com pacotes adicionais para oferecer compatibilidade com ferramentas de código aberto, como Slurm, Kubernetes, dependências e pacotes de software de cluster SageMaker HyperPod, para oferecer compatibilidade com atributos de resiliência, como verificação de integridade e retomada automática do cluster. Para acompanhar as atualizações do software HyperPod que a equipe de serviço do HyperPod distribui por meio do DLAMIs, consulte Notas da versão do Amazon SageMaker HyperPod.
Referência de permissões da API do SageMaker HyperPod
Importante
Políticas personalizadas do IAM que permitem que o Amazon SageMaker Studio ou o Amazon SageMaker Studio Classic criem recursos do Amazon SageMaker também devem conceder permissões para adicionar tags a esses recursos. A permissão para adicionar tags aos recursos é necessária porque o Studio e o Studio Classic marcam automaticamente todos os recursos que eles criam. Se uma política do IAM permitir que o Studio e o Studio Classic criem recursos, mas não permitir o uso de tags, erros de “AccessDenied” podem ocorrer ao tentar criar recursos. Para obter mais informações, consulte Fornecer permissões para adicionar tags aos recursos do SageMaker.
Políticas gerenciadas pela AWS para o Amazon SageMaker que dão permissões para criar recursos do SageMaker já incluem permissões para adicionar tags ao criar esses recursos.
Ao configurar o controle de acesso para permitir a execução de operações da API do SageMaker HyperPod e criar uma política de permissões que pode ser anexada aos usuários do IAM para administradores de nuvem, use a tabela a seguir como referência.
Operações de API do Amazon SageMaker | Permissões obrigatórias (ações de API): | Recursos |
CreateCluster | sagemaker:CreateCluster |
arn:aws:sagemaker: |
DeleteCluster | sagemaker:DeleteCluster |
arn:aws:sagemaker: |
DescribeCluster | sagemaker:DescribeCluster |
arn:aws:sagemaker: |
DescribeClusterNode | sagemaker:DescribeClusterNode |
arn:aws:sagemaker: |
ListClusterNodes | sagemaker:ListClusterNodes |
arn:aws:sagemaker: |
ListClusters | sagemaker:ListClusters |
arn:aws:sagemaker: |
UpdateCluster | sagemaker:UpdateCluster |
arn:aws:sagemaker: |
UpdateClusterSoftware | sagemaker:UpdateClusterSoftware |
arn:aws:sagemaker: |
Para ver a lista completa de permissões e tipos de recurso das APIs do SageMaker, consulte Ações, recursos e chaves de condição do Amazon Sagemaker na Referência de autorização de serviço da AWS.
Comandos do SageMaker HyperPod na AWS CLI
A seguir estão os comandos da AWS CLI para o SageMaker HyperPod executar as principais operações de API do HyperPod.
Módulos SageMaker HyperPod Python em AWS SDK for Python (Boto3)
A seguir estão os métodos do cliente do AWS SDK for Python (Boto3) para que o SageMaker execute as principais operações de do API HyperPod.