Práticas recomendadas

As seções a seguir fornecem as melhores práticas de uso AWS ParallelCluster, incluindo alertas de desempenho e orçamento da rede.

Práticas recomendadas: seleção do tipo de instância do nó principal

Mesmo que o nó principal não execute uma tarefa, suas funções e seu tamanho são cruciais para o desempenho geral do cluster. Ao escolher o tipo de instância a ser usado em seu nó principal, considere as seguintes características:

Tamanho do cluster: O nó principal orquestra a lógica de escalabilidade do cluster e é responsável por anexar novos nós ao programador. Para aumentar e reduzir verticalmente a escala de um cluster que tem um grande número de nós, forneça um pouco mais de capacidade computacional ao nó principal.

Sistemas de arquivos compartilhados: ao usar sistemas de arquivos compartilhados, escolha um tipo de instância com largura de banda da rede e largura de banda do Amazon EBS suficientes para lidar com seus fluxos de trabalho. Certifique-se de que o nó principal seja capaz de expor diretórios de servidor NFS suficientes para o cluster e lidar com os artefatos que precisam ser compartilhados entre os nós de computação e o nó principal.

Práticas recomendadas: desempenho da rede

O desempenho da rede é fundamental para aplicações de computação de alta performance (HPC). Sem um desempenho de rede confiável, esses aplicativos não funcionam conforme o esperado. Para otimizar o desempenho da rede, considere as práticas recomendadas a seguir.

Grupo de posicionamento: Se você estiver usando Slurm, considere configurar cada Slurm fila para usar um grupo de posicionamento de clusters. Um grupo de posicionamento de cluster é um agrupamento lógico de instâncias dentro de uma única zona de disponibilidade. Para obter mais informações, consulte grupos de posicionamento no Guia EC2 do usuário da Amazon. Você pode especificar um PlacementGroup na seção Networking da fila, cada recurso de computação é atribuído ao grupo de posicionamento da fila. Ao especificar um PlacementGroup na seção Networking do recurso de computação, esse recurso de computação específico é atribuído ao grupo de posicionamento. A especificação do grupo de posicionamento de recursos de computação substitui a especificação da fila para o recurso de computação. Para obter mais informações, consulte SlurmQueues / Networking / PlacementGroup e SlurmQueues / ComputeResources / Networking / PlacementGroup.
```
Networking:
  PlacementGroup:
    Enabled: true
    Id: your-placement-group-name
```
Como alternativa, AWS ParallelCluster crie um grupo de colocação para você.
```
Networking:
  PlacementGroup:
    Enabled: true
```
A partir da AWS ParallelCluster versão 3.3.0, a criação e o gerenciamento do grupo de posicionamento são modificados. Quando você especifica o grupo de posicionamento a ser ativado, sem name ou Id, na fila, cada recurso de computação recebe seu próprio grupo de posicionamento gerenciado, em vez de um grupo gerenciado para toda a fila. Isso ajuda a reduzir erros de capacidade insuficiente. Se você precisar ter um grupo de posicionamento para toda a fila, poderá usar um grupo de posicionamento nomeado.

SlurmQueues / Networking / PlacementGroup / Name foi adicionado como alternativa preferencial para SlurmQueues / Networking / PlacementGroup / Id.

Para obter mais informações, consulte Networking.
Rede aprimorada: considere escolher um tipo de instância que ofereça suporte à rede avançada. Essa recomendação se aplica a todas as instâncias da geração atual. Para obter mais informações, consulte redes aprimoradas no Linux no Guia EC2 do usuário da Amazon.
Elastic Fabric Adapter: para oferecer suporte a altos níveis de comunicação escalável entre instâncias, considere escolher interfaces de rede EFA para sua rede. O hardware de desvio de sistema operacional (SO) personalizado do EFA aprimora as comunicações entre instâncias com a elasticidade e flexibilidade sob demanda da Nuvem AWS. Você pode configurar cada Slurm fila ComputeResourcepara usar Efa. Para obter mais informações sobre como usar o EFA com AWS ParallelCluster, consulteElastic Fabric Adapter.
```
ComputeResources:
  - Name: your-compute-resource-name
    Efa:
      Enabled: true
```
Para obter mais informações sobre o EFA, consulte o Elastic Fabric Adapter no Guia EC2 do usuário da Amazon para instâncias Linux.
Largura de banda da instância: a largura de banda é dimensionada com o tamanho da instância. Para obter informações sobre os diferentes tipos de instância, consulte Instâncias otimizadas para Amazon EBS e tipos de volume do Amazon EBS no Guia do usuário da Amazon EC2 .

Práticas recomendadas: alertas de orçamento

Para gerenciar os custos dos recursos em AWS ParallelCluster, recomendamos que você use AWS Budgets ações para criar um orçamento. Você também pode criar alertas de limite de orçamento definido para AWS recursos selecionados. Para obter mais informações, consulte Como configurar uma ação de orçamento no Manual do usuário do AWS Budgets . Da mesma forma, você também pode usar CloudWatch a Amazon para criar um alarme de cobrança. Para mais informações, consulte Criar um alarme de faturamento para monitorar suas cobranças estimadas da AWS.

Práticas recomendadas: mover um cluster para uma nova versão AWS ParallelCluster secundária ou de patch

Atualmente, cada versão AWS ParallelCluster secundária é independente junto com sua pcluster CLI. Para mover um cluster para uma nova versão secundária ou de patch, você deve recriar o cluster usando a CLI da nova versão.

Para otimizar o processo de mover um cluster para uma nova versão secundária ou de patch, recomendamos fazer o seguinte:

Salve dados pessoais em volumes externos criados fora do cluster, como Amazon EFS e FSx for Lustre. Ao fazer isso, você pode mover facilmente os dados de um cluster para outro no futuro.
Crie sistemas de armazenamento compartilhado usando os seguintes tipos. Você pode criar esses sistemas usando o AWS CLI ou AWS Management Console.
- SharedStorage / EbsSettings / VolumeId
- SharedStorage / EfsSettings / FileSystemId
- SharedStorage / FsxLustreSettings / FileSystemId
Defina um sistema de arquivos ou volume em uma configuração de cluster como sistema de arquivos ou volume existente. Dessa forma, eles serão preservados quando você excluir o cluster e podem ser anexados a um novo cluster.

Recomendamos que você use o Amazon EFS ou sistemas FSx de arquivos Lustre. Esses dois sistemas podem ser anexados a vários clusters ao mesmo tempo. Além disso, você pode anexar qualquer um desses sistemas a um novo cluster antes de excluir o cluster existente.
Use ações de bootstrap personalizadas para personalizar suas instâncias em vez de usar uma AMI personalizada. Se, em vez disso, você usar uma AMI personalizada, precisará excluir e recriar essa AMI para cada nova versão lançada.
Recomendamos aplicar as recomendações anteriores na seguinte sequência:
1. Atualize a configuração do cluster existente para usar as definições existentes do sistema de arquivos.
2. Verifique a versão do pcluster e atualize-a, se necessário.
3. Crie e teste o novo cluster. Ao testar o novo cluster, verifique o seguinte:
  - Verifique se os dados estão disponíveis no cluster novo.
  - Verifique se a aplicação funciona no cluster novo.
4. Depois que seu novo cluster estiver totalmente testado e operacional e você não precisar mais do cluster existente, exclua-o.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Exemplo AWS Managed Microsoft AD de configurações de cluster LDAP (S)

Passando de AWS ParallelCluster 2.x para 3.x