Versões 6.9.0 do Amazon EMR no EKS
As versões 6.9.0 do Amazon EMR apresentadas a seguir estão disponíveis para o Amazon EMR no EKS. Selecione uma versão específica do emr-6.9.0-XXXX para visualizar mais detalhes, como a etiqueta de imagem do contêiner relacionada.
-
emr-6.9.0-spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Notas da versão 6.9.0 do Amazon EMR
-
Aplicações com suporte: AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0 e Delta 2.1.0.
-
Componentes com suporte:
aws-sagemaker-spark-sdk
,emr-ddb
,emr-goodies
,emr-s3-select
,emrfs
,hadoop-client
,hudi
,hudi-spark
,iceberg
espark-kubernetes
. -
Classificações de configuração com suporte:
Para uso com as APIs StartJobRun e CreateManagedEndpoint:
Classificações Descrições core-site
Altera os valores no arquivo core-site.xml do Hadoop.
emrfs-site
Alterar as configurações do EMRFS.
spark-metrics
Alterar os valores no arquivo metrics.properties do Spark.
spark-defaults
Alterar os valores no arquivo spark-defaults.conf do Spark.
spark-env
Alterar os valores no ambiente do Spark.
spark-hive-site
Altera os valores no arquivo hive-site.xml do Spark.
spark-log4j
Alterar os valores no arquivo log4j.properties do Spark.
Para uso específico com as APIs CreateManagedEndpoint:
Classificações Descrições jeg-config
Altera os valores no arquivo
jupyter_enterprise_gateway_config.py
do Jupyter Enterprise Gateway.jupyter-kernel-overrides
Altera o valor da imagem do kernel no arquivo de um kernel do Jupyter especificado.
As classificações de configuração permitem que você personalize aplicações. Elas geralmente correspondem a um arquivo XML de configuração da aplicação, como
spark-hive-site.xml
. Para obter mais informações, consulte Configure Applications.
Recursos notáveis
-
Acelerador RAPIDS da Nvidia para Apache Spark: Amazon EMR no EKS para acelerar o Spark usando tipos de instância de unidade de processamento gráfico (GPU) do EC2. Para usar a imagem do Spark com o acelerador RAPIDS, especifique o rótulo de versão como emr-6.9.0-spark-rapids-latest. Acesse a página de documentação para saber mais.
-
Conector Spark-Redshift: a integração do Amazon Redshift para Apache Spark está inclusa nas versões 6.9.0 e posteriores do Amazon EMR. Anteriormente uma ferramenta de código aberto, a integração nativa é um conector do Spark que você pode usar para criar aplicações do Apache Spark que realizam a leitura e a gravação de dados no Amazon Redshift e no Amazon Redshift sem servidor. Para ter mais informações, consulte Uso da integração do Amazon Redshift para Apache Spark no Amazon EMR no EKS.
-
Delta Lake: o Delta Lake
é um formato de armazenamento de código aberto que possibilita o desenvolvimento de data lakes com consistência transacional, definição consistente de conjuntos de dados, alterações de evolução de esquema e suporte a mutações de dados. Acesse Uso do Delta Lake para saber mais. -
Modificação de parâmetros PySpark: os endpoints interativos passaram a oferecer suporte para a modificação de parâmetros Spark associados a sessões PySpark em cadernos Jupyter no EMR Studio. Acesse Modificação de parâmetros de sessões do PySpark para saber mais.
Problemas resolvidos
-
Ao usar o conector DynamoDB com o Spark nas versões 6.6.0, 6.7.0 e 6.8.0 do Amazon EMR, todas as leituras da tabela retornam um resultado vazio, mesmo que a divisão de entrada faça referência a dados que não estão vazios. A versão 6.9.0 do Amazon EMR corrige esse problema.
-
A versão 6.8.0 do Amazon EMR no EKS preenche incorretamente o hash de compilação nos metadados dos arquivos em Parquet gerados usando o Apache Spark
. Esse problema pode fazer com que as ferramentas que analisam a string de versão de metadados dos arquivos em Parquet gerados pela versão 6.8.0 do Amazon EMR no EKS apresentem falhas.
Problema conhecido
-
Se você usar a integração do Amazon Redshift para Apache Spark e tiver um time, timetz, timestamp ou timestamptz com precisão de microssegundos no formato Parquet, o conector arredondará os valores de tempo para o valor de milissegundo mais próximo. Como solução alternativa, use o parâmetro
unload_s3_format
do formato de descarregamento de texto.