As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Versões 6.8.0 do Amazon EMR no EKS
As versões 6.8.0 do Amazon EMR apresentadas a seguir estão disponíveis para o Amazon EMR no EKS. Selecione uma versão específica do emr-6.8.0-XXXX para visualizar mais detalhes, como a etiqueta de imagem do contêiner relacionada.
Notas da versão 6.8.0 do Amazon EMR
-
Aplicativos suportados ‐ AWS SDK for Java 1.12.170, Spark 3.3.0-amzn-0, Hudi 0.11.1-amzn-0, Iceberg 0.14.0-amzn-0.
-
Componentes com suporte:
aws-sagemaker-spark-sdk
,emr-ddb
,emr-goodies
,emr-s3-select
,emrfs
,hadoop-client
,hudi
,hudi-spark
,iceberg
espark-kubernetes
. -
Classificações de configuração com suporte:
Classificações Descrições core-site
Altera os valores no arquivo core-site.xml do Hadoop.
emrfs-site
Alterar as configurações do EMRFS.
spark-metrics
Alterar os valores no arquivo metrics.properties do Spark.
spark-defaults
Alterar os valores no arquivo spark-defaults.conf do Spark.
spark-env
Alterar os valores no ambiente do Spark.
spark-hive-site
Altera os valores no arquivo hive-site.xml do Spark.
spark-log4j
Alterar os valores no arquivo log4j.properties do Spark.
As classificações de configuração permitem que você personalize aplicações. Elas geralmente correspondem a um arquivo XML de configuração da aplicação, como
spark-hive-site.xml
. Para obter mais informações, consulte Configure Applications.
Recursos notáveis
-
Spark3.3.0: a versão 6.8 Amazon EMR no EKS inclui o Spark 3.3.0, que oferece suporte ao uso de rótulos seletores de nós separados para pods de executores e de drivers do Spark. Esses novos rótulos permitem que você defina os tipos de nós para os pods de driver e executor separadamente na StartJobRun API, sem usar modelos de pod.
-
Propriedade do seletor do nó do driver: spark.kubernetes.driver.node.selector.[labelKey]
-
Propriedade do seletor do nó do executor: spark.kubernetes.executor.node.selector.[labelKey]
-
-
Mensagem aprimorada de falha de trabalho: esta versão apresenta as configurações
spark.stage.extraDetailsOnFetchFailures.enabled
espark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
para rastrear falhas de tarefas devido ao código do usuário. Esses detalhes serão usados para aprimorar a mensagem de falha exibida no log do driver quando um estágio é interrompido devido a uma falha na busca aleatória.Nome da propriedade Valor padrão Significado Desde a versão spark.stage.extraDetailsOnFetchFailures.enabled
false
Se definida como
true
, esta propriedade será usada para aprimorar a mensagem de falha do trabalho exibida no log do driver quando um estágio é interrompido devido a uma falha de busca aleatória. Por padrão, as últimas cinco falhas de tarefas causadas pelo código do usuário são rastreadas e a mensagem de erro de falha é anexada aos logs do driver.Para aumentar o número de falhas de tarefas com exceções de usuário a serem rastreadas, consulte a configuração
spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
.emr-6.8
spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
5
Número de falhas de tarefas a serem rastreadas por estágio e por tentativa. Esta propriedade é usada para aprimorar a mensagem de falha do trabalho com exceções de usuário exibidas no log do driver quando um estágio é interrompido devido a uma falha de busca aleatória.
Essa propriedade funciona somente se Config spark.stage. extraDetailsOnFetchFailures.enabled está definido como verdadeiro.
emr-6.8
Para obter mais informações, consulte a documentação de configuração do Apache Spark
Problema conhecido
-
A versão 6.8.0 do Amazon EMR no EKS preenche incorretamente o hash de compilação nos metadados dos arquivos em Parquet gerados usando o Apache Spark
. Esse problema pode fazer com que as ferramentas que analisam a string de versão de metadados dos arquivos em Parquet gerados pela versão 6.8.0 do Amazon EMR no EKS apresentem falhas. Os clientes que analisam a string de versão dos metadados do Parquet e dependem do hash de compilação devem realizar a alteração para uma versão diferente do Amazon EMR e reescrever o arquivo.
Problema resolvido
-
Funcionalidade de interrupção do kernel para kernels do PySpark: as workloads interativas em andamento que são acionadas pela execução de células em um caderno podem ser interrompidas usando a funcionalidade
Interrupt Kernel
. Uma correção foi introduzida para que esta funcionalidade funcione para kernels do PySpark. Isso também está disponível em código aberto em Changes para lidar com interrupções no PySpark KubernetesKernel #1115.