Consistent view - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Consistent view

Atenção

Em 1º de junho de 2023, a visualização EMRFS consistente alcançará o fim do suporte padrão para futuros EMR lançamentos da Amazon. EMRFSa visão consistente continuará funcionando para as versões existentes.

Com o lançamento da read-after-write consistência forte do Amazon S3 em 1º de dezembro de 2020, você não precisa mais usar a visualização EMRFS consistente (EMRFSCV) com seus clusters da AmazonEMR. EMRFS O CV é um recurso opcional que permite que os EMR clusters da Amazon verifiquem a lista e a read-after-write consistência dos objetos do Amazon S3. Quando você cria um cluster e o EMRFS CV é ativado, a Amazon EMR cria um banco de dados do Amazon DynamoDB para armazenar metadados de objetos que são usados para rastrear a lista read-after-write e a consistência dos objetos do S3. Agora você pode desativar o EMRFS CV e excluir o banco de dados do DynamoDB que ele usa para não acumular custos adicionais. Os procedimentos a seguir explicam como verificar o atributo CV, desativá-lo e excluir o banco de dados do DynamoDB usado pelo atributo.

Para verificar se você está usando o recurso EMRFS CV
  1. Navegue até a guia Configuração. Se seu cluster tiver a configuração a seguir, ele usará EMRFS CV.

    Classification=emrfs-site,Property=fs.s3.consistent,Value=true
  2. Como alternativa, use o AWS CLI para descrever seu cluster com describe-clusterAPIo. Se a saída contiverfs.s3.consistent: true, seu cluster usará EMRFS CV.

Para desativar o EMRFS CV em seus EMR clusters da Amazon

Para desativar o recurso de EMRFS currículo, use uma das três opções a seguir. É necessário testar essas opções em seu ambiente de teste antes de aplicá-las aos ambientes de produção.

  1. Para interromper seu cluster existente e iniciar um novo cluster sem opções de EMRFS CV.
    1. Antes de interromper o cluster, faça backup dos dados e notifique os usuários.

    2. Para interromper o cluster, siga as instruções apresentadas em Terminate a cluster.

    3. Se você usa o EMR console da Amazon para criar um novo cluster, navegue até Opções avançadas. Na seção Editar configurações do software, desmarque a opção de ativar o EMRFS CV. Se a caixa de seleção para exibição EMRFS consistente estiver disponível, mantenha-a desmarcada.

    4. Se você costuma AWS CLI criar um novo cluster com o create-clusterAPI, não use a --emrfs opção, que ativa o EMRFS CV.

    5. Se você usar um SDK ou AWS CloudFormation para criar um novo cluster, não use nenhuma das configurações listadas em Configurar visualização consistente.

  2. Para clonar um cluster e remover EMRFS o CV
    1. No EMR console da Amazon, escolha o cluster que usa o EMRFS CV.

    2. Na parte superior da página Detalhes do cluster, escolha Clonar.

    3. Escolha Anterior e navegue até a Etapa 1: software e etapas.

    4. Em Editar configurações do software, remova o EMRFS CV. Em Editar configuração, exclua as seguintes configurações na classificação emrfs-site. Se você estiver carregando JSON de um bucket do S3, deverá modificar seu objeto do S3.

      [ {"classification": "emrfs-site", "properties": { "fs.s3.consistent.retryPeriodSeconds":"10", "fs.s3.consistent":"true", "fs.s3.consistent.retryCount":"5", "fs.s3.consistent.metadata.tableName":"EmrFSMetadata" } } ]
  3. Para remover o EMRFS CV de um cluster que usa grupos de instâncias
    1. Use o comando a seguir para verificar se um único EMR cluster usa a tabela do DynamoDB EMRFS associada ao CV ou se vários clusters compartilham a tabela. O nome da tabela é especificado em fs.s3.consistent.metadata.tableName, conforme descrito em Configure consistent view. O nome da tabela padrão usado pelo EMRFS CV éEmrFSMetadata.

      aws emr describe-cluster --cluster-id j-XXXXX | grep fs.s3.consistent.metadata.tableName
    2. Se seu cluster não compartilhar seu banco de dados do DynamoDB com outro cluster, use o comando a seguir para reconfigurar o cluster e desativar o CV. EMRFS Para obter mais informações, consulte Reconfigure an instance group in a running cluster.

      aws emr modify-instance-groups --cli-input-json file://disable-emrfs-1.json

      Esse comando abrirá o arquivo que você deseja modificar. Modifique o arquivo com as configurações a seguir.

      { "ClusterId": "j-xxxx", "InstanceGroups": [ { "InstanceGroupId": "ig-xxxx", "Configurations": [ { "Classification": "emrfs-site", "Properties": { "fs.s3.consistent": "false" }, "Configurations": [] } ] } ] }
    3. Se seu cluster compartilhar a tabela do DynamoDB com outro cluster, EMRFS desative o CV em todos os clusters no momento em que nenhum cluster modifique nenhum objeto no local compartilhado do S3.

Para excluir recursos do Amazon DynamoDB associados ao CV EMRFS

Depois de remover o EMRFS CV dos seus EMR clusters da Amazon, exclua os recursos do DynamoDB associados ao CV. EMRFS Até fazer isso, você continuará incorrendo nas cobranças do DynamoDB associadas ao CV. EMRFS

  1. Verifique as CloudWatch métricas da sua tabela do DynamoDB e confirme se a tabela não é usada por nenhum cluster.

  2. Exclua a tabela do DynamoDB.

    aws dynamodb delete-table --table-name <your-table-name>
Para excluir SQS recursos da Amazon associados ao EMRFS CV
  1. Se você configurou seu cluster para enviar notificações de inconsistência para a AmazonSQS, você pode excluir todas as SQS filas.

  2. Encontre o nome da SQS fila da Amazon especificado emfs.s3.consistent.notification.SQS.queueName, conforme descrito em Configurar visualização consistente. O formato padrão do nome da fila é EMRFS-Inconsistency-<j-cluster ID>.

    aws sqs list-queues | grep ‘EMRFS-Inconsistency’ aws sqs delete-queue –queue-url <your-queue-url>
Para parar de usar o EMRFS CLI
  • O EMRFSCLIgerencia os metadados que o EMRFS CV gera. À medida que o suporte padrão para o EMRFS CV chegar ao fim em futuros lançamentos da AmazonEMR, o suporte para o também EMRFS CLI chegará ao fim.