As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Práticas recomendadas
As seções a seguir fornecem as práticas recomendadas para usar o AWS ParallelCluster, incluindo alertas de desempenho e orçamento da rede.
Práticas recomendadas: seleção do tipo de instância do nó principal
Mesmo que o nó principal não execute uma tarefa, suas funções e seu tamanho são cruciais para o desempenho geral do cluster. Ao escolher o tipo de instância a ser usado em seu nó principal, considere as seguintes características:
Tamanho do cluster: O nó principal orquestra a lógica de escalabilidade do cluster e é responsável por anexar novos nós ao programador. Para aumentar e reduzir verticalmente a escala de um cluster que tem um grande número de nós, forneça um pouco mais de capacidade computacional ao nó principal.
Sistemas de arquivos compartilhados: ao usar sistemas de arquivos compartilhados, escolha um tipo de instância com largura de banda da rede e largura de banda do Amazon EBS suficientes para lidar com seus fluxos de trabalho. Certifique-se de que o nó principal seja capaz de expor diretórios de servidor NFS suficientes para o cluster e lidar com os artefatos que precisam ser compartilhados entre os nós de computação e o nó principal.
Práticas recomendadas: desempenho da rede
O desempenho da rede é fundamental para aplicações de computação de alta performance (HPC). Sem um desempenho de rede confiável, esses aplicativos não funcionam conforme o esperado. Para otimizar o desempenho da rede, considere as práticas recomendadas a seguir.
-
Grupo de posicionamento: se você estiver usando o Slurm, considere configurar cada fila do Slurm para usar um grupo de posicionamento de cluster. Um grupo de posicionamento de cluster é um agrupamento lógico de instâncias dentro de uma única zona de disponibilidade. Para ter mais informações, consulte Grupos de posicionamento no Guia do usuário do Amazon EC2. Você pode especificar um PlacementGroup na seção Networking da fila, cada recurso de computação é atribuído ao grupo de posicionamento da fila. Ao especificar um PlacementGroup na seção Networking do recurso de computação, esse recurso de computação específico é atribuído ao grupo de posicionamento. A especificação do grupo de posicionamento de recursos de computação substitui a especificação da fila para o recurso de computação. Para obter mais informações, consulte SlurmQueues / Networking / PlacementGroup e SlurmQueues / ComputeResources / Networking / PlacementGroup.
Networking: PlacementGroup: Enabled: true Id:
your-placement-group-name
Como alternativa, use AWS ParallelCluster para criar um grupo de posicionamento para você.
Networking: PlacementGroup: Enabled: true
A partir do AWS ParallelCluster versão 3.3.0, a criação e o gerenciamento do grupo de posicionamento foram modificados. Quando você especifica o grupo de posicionamento a ser ativado, sem
name
ouId
, na fila, cada recurso de computação recebe seu próprio grupo de posicionamento gerenciado, em vez de um grupo gerenciado para toda a fila. Isso ajuda a reduzir erros de capacidade insuficiente. Se você precisar ter um grupo de posicionamento para toda a fila, poderá usar um grupo de posicionamento nomeado.SlurmQueues / Networking / PlacementGroup / Name foi adicionado como alternativa preferencial para SlurmQueues / Networking / PlacementGroup / Id.
Para ter mais informações, consulte Networking.
-
Rede aprimorada: considere escolher um tipo de instância que ofereça suporte à rede avançada. Essa recomendação se aplica a todas as instâncias da geração atual. Para ter mais informações, consulte Enhanced networking on Linux no Guia do usuário do Amazon EC2.
-
Elastic Fabric Adapter: para oferecer suporte a altos níveis de comunicação escalável entre instâncias, considere escolher interfaces de rede EFA para sua rede. O hardware de desvio de sistema operacional (SO) personalizado do EFA aprimora as comunicações entre instâncias com a elasticidade e flexibilidade sob demanda da Nuvem AWS. Você pode configurar cada ComputeResource da fila do Slurm para usar Efa. Para obter mais informações sobre como usar EFA com o AWS ParallelCluster, consulte Elastic Fabric Adapter.
ComputeResources: - Name:
your-compute-resource-name
Efa: Enabled: truePara obter mais informações sobre o EFA, consulte Elastic Fabric Adapter no Guia do usuário do Amazon EC2 para instâncias Linux.
-
Largura de banda da instância: a largura de banda é dimensionada com o tamanho da instância. Para ter informações sobre os diferentes tipos de instância, consulte Tipos de instância otimizados para o Amazon EBS e Amazon EBS volume types no Guia do usuário do Amazon EC2.
Práticas recomendadas: alertas de orçamento
Para gerenciar os custos dos recursos no AWS ParallelCluster, recomendamos que você use ações AWS Budgets para criar um orçamento. Você também pode criar alertas de limite de orçamento definidos para recursos selecionados da AWS. Para obter mais informações, consulte Como configurar uma ação de orçamento no Manual do usuário do AWS Budgets. Da mesma forma, você também pode usar o Amazon CloudWatch para criar um alarme de cobrança. Para mais informações, consulte Criar um alarme de faturamento para monitorar suas cobranças estimadas da AWS.
Práticas recomendadas: mover um cluster para uma nova versão de patch ou secundária do AWS ParallelCluster
Atualmente, cada versão secundária do AWS ParallelCluster é independente e acompanha sua própria CLI pcluster
. Para mover um cluster para uma nova versão secundária ou de patch, você deve recriar o cluster usando a CLI da nova versão.
Para otimizar o processo de mover um cluster para uma nova versão secundária ou de patch, recomendamos fazer o seguinte:
-
Salve dados pessoais em volumes externos criados fora do cluster, como o Amazon EFS e o FSx para Lustre. Ao fazer isso, você pode mover facilmente os dados de um cluster para outro no futuro.
-
Crie sistemas de armazenamento compartilhado usando os seguintes tipos. Você pode criar esses sistemas usando o AWS CLI ou o AWS Management Console.
Defina um sistema de arquivos ou volume em uma configuração de cluster como sistema de arquivos ou volume existente. Dessa forma, eles serão preservados quando você excluir o cluster e podem ser anexados a um novo cluster.
Recomendamos que você use o Amazon EFS ou sistemas de arquivos FSx para Lustre. Esses dois sistemas podem ser anexados a vários clusters ao mesmo tempo. Além disso, você pode anexar qualquer um desses sistemas a um novo cluster antes de excluir o cluster existente.
-
Use ações de bootstrap personalizadas para personalizar suas instâncias em vez de usar uma AMI personalizada. Se, em vez disso, você usar uma AMI personalizada, precisará excluir e recriar essa AMI para cada nova versão lançada.
-
Recomendamos aplicar as recomendações anteriores na seguinte sequência:
-
Atualize a configuração do cluster existente para usar as definições existentes do sistema de arquivos.
-
Verifique a versão do
pcluster
e atualize-a, se necessário. -
Crie e teste o novo cluster. Ao testar o novo cluster, verifique o seguinte:
-
Verifique se os dados estão disponíveis no cluster novo.
-
Verifique se a aplicação funciona no cluster novo.
-
-
Depois que seu novo cluster estiver totalmente testado e operacional e você não precisar mais do cluster existente, exclua-o.
-