Versões 6.8.0 do Amazon EMR no EKS - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Versões 6.8.0 do Amazon EMR no EKS

As versões 6.8.0 do Amazon EMR apresentadas a seguir estão disponíveis para o Amazon EMR no EKS. Selecione uma versão específica do emr-6.8.0-XXXX para visualizar mais detalhes, como a etiqueta de imagem do contêiner relacionada.

Notas da versão 6.8.0 do Amazon EMR

  • Aplicativos suportados ‐ AWS SDK for Java 1.12.170, Spark 3.3.0-amzn-0, Hudi 0.11.1-amzn-0, Iceberg 0.14.0-amzn-0.

  • Componentes com suporte: aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg e spark-kubernetes.

  • Classificações de configuração com suporte:

    Classificações Descrições

    core-site

    Altera os valores no arquivo core-site.xml do Hadoop.

    emrfs-site

    Alterar as configurações do EMRFS.

    spark-metrics

    Alterar os valores no arquivo metrics.properties do Spark.

    spark-defaults

    Alterar os valores no arquivo spark-defaults.conf do Spark.

    spark-env

    Alterar os valores no ambiente do Spark.

    spark-hive-site

    Altera os valores no arquivo hive-site.xml do Spark.

    spark-log4j

    Alterar os valores no arquivo log4j.properties do Spark.

    As classificações de configuração permitem que você personalize aplicações. Elas geralmente correspondem a um arquivo XML de configuração da aplicação, como spark-hive-site.xml. Para obter mais informações, consulte Configure Applications.

Recursos notáveis

  • Spark3.3.0: a versão 6.8 Amazon EMR no EKS inclui o Spark 3.3.0, que oferece suporte ao uso de rótulos seletores de nós separados para pods de executores e de drivers do Spark. Esses novos rótulos permitem que você defina os tipos de nós para os pods de driver e executor separadamente na StartJobRun API, sem usar modelos de pod.

    • Propriedade do seletor do nó do driver: spark.kubernetes.driver.node.selector.[labelKey]

    • Propriedade do seletor do nó do executor: spark.kubernetes.executor.node.selector.[labelKey]

  • Mensagem aprimorada de falha de trabalho: esta versão apresenta as configurações spark.stage.extraDetailsOnFetchFailures.enabled e spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude para rastrear falhas de tarefas devido ao código do usuário. Esses detalhes serão usados para aprimorar a mensagem de falha exibida no log do driver quando um estágio é interrompido devido a uma falha na busca aleatória.

    Nome da propriedade Valor padrão Significado Desde a versão

    spark.stage.extraDetailsOnFetchFailures.enabled

    false

    Se definida como true, esta propriedade será usada para aprimorar a mensagem de falha do trabalho exibida no log do driver quando um estágio é interrompido devido a uma falha de busca aleatória. Por padrão, as últimas cinco falhas de tarefas causadas pelo código do usuário são rastreadas e a mensagem de erro de falha é anexada aos logs do driver.

    Para aumentar o número de falhas de tarefas com exceções de usuário a serem rastreadas, consulte a configuração spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude.

    emr-6.8

    spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude

    5

    Número de falhas de tarefas a serem rastreadas por estágio e por tentativa. Esta propriedade é usada para aprimorar a mensagem de falha do trabalho com exceções de usuário exibidas no log do driver quando um estágio é interrompido devido a uma falha de busca aleatória.

    Essa propriedade funciona somente se Config spark.stage. extraDetailsOnFetchFailures.enabled está definido como verdadeiro.

    emr-6.8

Para obter mais informações, consulte a documentação de configuração do Apache Spark.

Problema conhecido

  • A versão 6.8.0 do Amazon EMR no EKS preenche incorretamente o hash de compilação nos metadados dos arquivos em Parquet gerados usando o Apache Spark. Esse problema pode fazer com que as ferramentas que analisam a string de versão de metadados dos arquivos em Parquet gerados pela versão 6.8.0 do Amazon EMR no EKS apresentem falhas. Os clientes que analisam a string de versão dos metadados do Parquet e dependem do hash de compilação devem realizar a alteração para uma versão diferente do Amazon EMR e reescrever o arquivo.

Problema resolvido

  • Funcionalidade de interrupção do kernel para kernels do PySpark: as workloads interativas em andamento que são acionadas pela execução de células em um caderno podem ser interrompidas usando a funcionalidade Interrupt Kernel. Uma correção foi introduzida para que esta funcionalidade funcione para kernels do PySpark. Isso também está disponível em código aberto em Changes para lidar com interrupções no PySpark Kubernetes Kernel #1115.