Práticas recomendadas - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Práticas recomendadas

Práticas recomendadas: seleção do tipo de instância do nó principal

Mesmo que o nó principal não execute uma tarefa, suas funções e seu tamanho são cruciais para o desempenho geral do cluster.

Ao escolher o tipo de instância a ser usado para seu nó principal, você deve avaliar os seguintes itens:

  • Tamanho do cluster: o nó principal orquestra a lógica de escalabilidade do cluster e é responsável por anexar novos nós ao programador. Se você precisar aumentar e reduzir verticalmente a escala do cluster de uma quantidade considerável de nós, deverá dar ao nó principal alguma capacidade computacional extra.

  • Sistemas de arquivos compartilhados: ao usar sistemas de arquivos compartilhados para compartilhar artefatos entre os nós de computação e o nó principal, leve em consideração que o mestre é o nó que expõe o servidor. NFS Por esse motivo, você deseja escolher um tipo de instância com largura de banda de rede suficiente e largura de banda dedicada suficiente da Amazon EBS para lidar com seus fluxos de trabalho.

Práticas recomendadas: desempenho da rede

Há três dicas que abrangem toda a gama de possibilidades para melhorar a comunicação de rede.

  • Grupo de posicionamento: um grupo de posicionamento de cluster é um agrupamento lógico de instâncias dentro de uma única zona de disponibilidade. Para obter mais informações sobre grupos de posicionamento, consulte grupos de posicionamento no Guia EC2 do usuário da Amazon. Você pode configurar o cluster para usar seu próprio grupo de posicionamento com placement_group = your-placement-group-name ou deixar AWS ParallelCluster crie um grupo de colocação com a "compute" estratégia complacement_group = DYNAMIC. Para obter mais informações, consulte placement_group para o modo de fila múltipla e placement_group para o modo de fila única.

  • Rede aprimorada: considere escolher um tipo de instância que ofereça suporte à rede avançada. Para obter mais informações, consulte redes aprimoradas no Linux no Guia EC2 do usuário da Amazon.

  • Adaptador Elastic Fabric: para oferecer suporte a altos níveis de comunicação escalável entre instâncias, considere escolher interfaces de EFA rede para sua rede. O hardware personalizado EFA de bypass do sistema operacional (SO) aprimora as comunicações entre instâncias com a elasticidade e a flexibilidade sob demanda do AWS nuvem. Para configurar um único Slurm fila de cluster a ser usadaEFA, definidaenable_efa = true. Para obter mais informações sobre como usar EFA com AWS ParallelCluster, veja Elastic Fabric Adapter enable_efae. Para obter mais informações sobre issoEFA, consulte Elastic Fabric Adapter no Guia EC2 do usuário da Amazon para instâncias Linux.

  • Largura de banda da instância: a largura de banda aumenta de acordo com o tamanho da instância. Considere escolher o tipo de instância que melhor atenda às suas necessidades. Consulte Instâncias EBSotimizadas da Amazon e tipos de EBS volume da Amazon no Guia do usuário da Amazon EC2.

Práticas recomendadas: alertas de orçamento

Para gerenciar AWS ParallelCluster custos de recursos, recomendamos que você use AWS Budgets ações para criar um orçamento e alertas de limite de orçamento definido para os selecionados AWS recursos. Para obter mais informações, consulte Configurando uma ação orçamentária no AWS Budgets Guia do usuário. Você também pode usar CloudWatch a Amazon para criar um alarme de cobrança. Para obter mais informações, consulte Criação de um alarme de cobrança para monitorar sua estimativa AWS cobranças.

Melhores práticas: migrar um cluster para um novo AWS ParallelCluster versão secundária ou patch

Atualmente cada AWS ParallelCluster a versão secundária é independente junto com sua pclusterCLI. Para mover um cluster para uma nova versão secundária ou de patch, você deve recriar o cluster usando a nova versão. CLI

Para otimizar o processo de mover um cluster para uma nova versão secundária ou para salvar seus dados de armazenamento compartilhado por outros motivos, recomendamos que você use as práticas recomendadas a seguir.

  • Salve dados pessoais em volumes externos, como Amazon EFS e FSx para Lustre. Ao fazer isso, você pode mover facilmente os dados de um cluster para outro.

  • Crie sistemas de armazenamento compartilhado dos tipos listados abaixo usando o AWS CLI ou AWS Management Console:

    Adicione-os à nova configuração do cluster como sistemas de arquivos existentes. Dessa forma, eles serão preservados quando você excluir o cluster e podem ser anexados a um novo cluster. Os sistemas de armazenamento compartilhado geralmente incorrem em cobranças, estejam eles conectados ou desconectados de um cluster.

    Recomendamos que você use os sistemas de arquivos Amazon ou Amazon FSx for Lustre porque eles podem ser anexados a vários clusters ao mesmo tempo e você pode anexá-los ao novo cluster antes de excluir o cluster antigo. EFS Para obter mais informações, consulte Montagem de sistemas de EFS arquivos da Amazon no Guia EFS do usuário da Amazon e Acesso aos sistemas FSx de arquivos Lustre no Guia do usuário do Amazon FSx for Lustre Lustre.

  • Use ações de bootstrap personalizadas para personalizar suas instâncias em vez de AMI personalizá-las. Isso otimiza o processo de criação porque AMI não é necessário criar um novo personalizado para cada nova versão.

  • Sequência recomendada.

    1. Atualize a configuração do cluster para usar as definições existentes do sistema de arquivos.

    2. Verifique a versão do pcluster e atualize-a, se necessário.

    3. Crie e teste o novo cluster.

      • Verifique se os dados estão disponíveis no cluster novo.

      • Verifique se a aplicação funciona no cluster novo.

    4. Se seu novo cluster estiver totalmente testado e operacional e você tiver certeza de que não usará o cluster antigo, exclua-o.