Versões 6.8.0 do Amazon EMR no EKS

As versões 6.8.0 do Amazon EMR apresentadas a seguir estão disponíveis para o Amazon EMR no EKS. Selecione uma versão específica do emr-6.8.0-XXXX para visualizar mais detalhes, como a etiqueta de imagem do contêiner relacionada.

Notas da versão 6.8.0 do Amazon EMR

Aplicativos suportados ‐ AWS SDK for Java 1.12.170, Spark 3.3.0-amzn-0, Hudi 0.11.1-amzn-0, Iceberg 0.14.0-amzn-0.
Componentes com suporte: aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg e spark-kubernetes.

Classificações de configuração com suporte:

Classificações	Descrições
`core-site`	Altera os valores no arquivo core-site.xml do Hadoop.
`emrfs-site`	Alterar as configurações do EMRFS.
`spark-metrics`	Alterar os valores no arquivo metrics.properties do Spark.
`spark-defaults`	Alterar os valores no arquivo spark-defaults.conf do Spark.
`spark-env`	Alterar os valores no ambiente do Spark.
`spark-hive-site`	Altera os valores no arquivo hive-site.xml do Spark.
`spark-log4j`	Alterar os valores no arquivo log4j.properties do Spark.

As classificações de configuração permitem que você personalize aplicações. Elas geralmente correspondem a um arquivo XML de configuração da aplicação, como spark-hive-site.xml. Para obter mais informações, consulte Configure Applications.

Recursos notáveis

Spark3.3.0: a versão 6.8 Amazon EMR no EKS inclui o Spark 3.3.0, que oferece suporte ao uso de rótulos seletores de nós separados para pods de executores e de drivers do Spark. Esses novos rótulos permitem que você defina os tipos de nós para os pods de driver e executor separadamente na StartJobRun API, sem usar modelos de pod.
- Propriedade do seletor do nó do driver: spark.kubernetes.driver.node.selector.[labelKey]
- Propriedade do seletor do nó do executor: spark.kubernetes.executor.node.selector.[labelKey]

Mensagem aprimorada de falha de trabalho: esta versão apresenta as configurações spark.stage.extraDetailsOnFetchFailures.enabled e spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude para rastrear falhas de tarefas devido ao código do usuário. Esses detalhes serão usados para aprimorar a mensagem de falha exibida no log do driver quando um estágio é interrompido devido a uma falha na busca aleatória.

Nome da propriedade Valor padrão Significado Desde a versão

Nome da propriedade	Valor padrão	Significado	Desde a versão
`spark.stage.extraDetailsOnFetchFailures.enabled`	false	Se definida como `true`, esta propriedade será usada para aprimorar a mensagem de falha do trabalho exibida no log do driver quando um estágio é interrompido devido a uma falha de busca aleatória. Por padrão, as últimas cinco falhas de tarefas causadas pelo código do usuário são rastreadas e a mensagem de erro de falha é anexada aos logs do driver. Para aumentar o número de falhas de tarefas com exceções de usuário a serem rastreadas, consulte a configuração `spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude`.	emr-6.8
`spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude`	5	Número de falhas de tarefas a serem rastreadas por estágio e por tentativa. Esta propriedade é usada para aprimorar a mensagem de falha do trabalho com exceções de usuário exibidas no log do driver quando um estágio é interrompido devido a uma falha de busca aleatória. Essa propriedade funciona somente se Config spark.stage. extraDetailsOnFetchFailures.enabled está definido como verdadeiro.	emr-6.8

spark.stage.extraDetailsOnFetchFailures.enabled

false

Se definida como true, esta propriedade será usada para aprimorar a mensagem de falha do trabalho exibida no log do driver quando um estágio é interrompido devido a uma falha de busca aleatória. Por padrão, as últimas cinco falhas de tarefas causadas pelo código do usuário são rastreadas e a mensagem de erro de falha é anexada aos logs do driver.

Para aumentar o número de falhas de tarefas com exceções de usuário a serem rastreadas, consulte a configuração spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude.

emr-6.8

spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude

Número de falhas de tarefas a serem rastreadas por estágio e por tentativa. Esta propriedade é usada para aprimorar a mensagem de falha do trabalho com exceções de usuário exibidas no log do driver quando um estágio é interrompido devido a uma falha de busca aleatória.

Essa propriedade funciona somente se Config spark.stage. extraDetailsOnFetchFailures.enabled está definido como verdadeiro.

emr-6.8

Para obter mais informações, consulte a documentação de configuração do Apache Spark.

Problema conhecido

A versão 6.8.0 do Amazon EMR no EKS preenche incorretamente o hash de compilação nos metadados dos arquivos em Parquet gerados usando o Apache Spark. Esse problema pode fazer com que as ferramentas que analisam a string de versão de metadados dos arquivos em Parquet gerados pela versão 6.8.0 do Amazon EMR no EKS apresentem falhas. Os clientes que analisam a string de versão dos metadados do Parquet e dependem do hash de compilação devem realizar a alteração para uma versão diferente do Amazon EMR e reescrever o arquivo.

Problema resolvido

Funcionalidade de interrupção do kernel para kernels do PySpark: as workloads interativas em andamento que são acionadas pela execução de células em um caderno podem ser interrompidas usando a funcionalidade Interrupt Kernel. Uma correção foi introduzida para que esta funcionalidade funcione para kernels do PySpark. Isso também está disponível em código aberto em Changes para lidar com interrupções no PySpark Kubernetes Kernel #1115.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

emr-6.9.0-20221108

emr-6.8.0-latest