Versões 6.9.0 do Amazon EMR no EKS - Amazon EMR

Versões 6.9.0 do Amazon EMR no EKS

As versões 6.9.0 do Amazon EMR apresentadas a seguir estão disponíveis para o Amazon EMR no EKS. Selecione uma versão específica do emr-6.9.0-XXXX para visualizar mais detalhes, como a etiqueta de imagem do contêiner relacionada.

  • emr-6.9.0-latest

  • emr-6.9.0-20230905

  • emr-6.9.0-20230624

  • emr-6.9.0-20221108

  • emr-6.9.0-spark-rapids-latest

  • emr-6.9.0-spark-rapids-20230624

  • emr-6.9.0-spark-rapids-20221108

  • notebook-spark/emr-6.9.0-latest

  • notebook-spark/emr-6.9.0-20230624

  • notebook-spark/emr-6.9.0-20221108

  • notebook-python/emr-6.9.0-latest

  • notebook-python/emr-6.9.0-20230624

  • notebook-python/emr-6.9.0-20221108

Notas da versão 6.9.0 do Amazon EMR

  • Aplicações com suporte: AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0 e Delta 2.1.0.

  • Componentes com suporte: aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg e spark-kubernetes.

  • Classificações de configuração com suporte:

    Para uso com as APIs StartJobRun e CreateManagedEndpoint:

    Classificações Descrições

    core-site

    Altera os valores no arquivo core-site.xml do Hadoop.

    emrfs-site

    Alterar as configurações do EMRFS.

    spark-metrics

    Alterar os valores no arquivo metrics.properties do Spark.

    spark-defaults

    Alterar os valores no arquivo spark-defaults.conf do Spark.

    spark-env

    Alterar os valores no ambiente do Spark.

    spark-hive-site

    Altera os valores no arquivo hive-site.xml do Spark.

    spark-log4j

    Alterar os valores no arquivo log4j.properties do Spark.

    Para uso específico com as APIs CreateManagedEndpoint:

    Classificações Descrições

    jeg-config

    Altera os valores no arquivo jupyter_enterprise_gateway_config.py do Jupyter Enterprise Gateway.

    jupyter-kernel-overrides

    Altera o valor da imagem do kernel no arquivo de um kernel do Jupyter especificado.

    As classificações de configuração permitem que você personalize aplicações. Elas geralmente correspondem a um arquivo XML de configuração da aplicação, como spark-hive-site.xml. Para obter mais informações, consulte Configure Applications.

Recursos notáveis

  • Acelerador RAPIDS da Nvidia para Apache Spark: Amazon EMR no EKS para acelerar o Spark usando tipos de instância de unidade de processamento gráfico (GPU) do EC2. Para usar a imagem do Spark com o acelerador RAPIDS, especifique o rótulo de versão como emr-6.9.0-spark-rapids-latest. Acesse a página de documentação para saber mais.

  • Conector Spark-Redshift: a integração do Amazon Redshift para Apache Spark está inclusa nas versões 6.9.0 e posteriores do Amazon EMR. Anteriormente uma ferramenta de código aberto, a integração nativa é um conector do Spark que você pode usar para criar aplicações do Apache Spark que realizam a leitura e a gravação de dados no Amazon Redshift e no Amazon Redshift sem servidor. Para ter mais informações, consulte Uso da integração do Amazon Redshift para Apache Spark no Amazon EMR no EKS.

  • Delta Lake: o Delta Lake é um formato de armazenamento de código aberto que possibilita o desenvolvimento de data lakes com consistência transacional, definição consistente de conjuntos de dados, alterações de evolução de esquema e suporte a mutações de dados. Acesse Uso do Delta Lake para saber mais.

  • Modificação de parâmetros PySpark: os endpoints interativos passaram a oferecer suporte para a modificação de parâmetros Spark associados a sessões PySpark em cadernos Jupyter no EMR Studio. Acesse Modificação de parâmetros de sessões do PySpark para saber mais.

Problemas resolvidos

  • Ao usar o conector DynamoDB com o Spark nas versões 6.6.0, 6.7.0 e 6.8.0 do Amazon EMR, todas as leituras da tabela retornam um resultado vazio, mesmo que a divisão de entrada faça referência a dados que não estão vazios. A versão 6.9.0 do Amazon EMR corrige esse problema.

  • A versão 6.8.0 do Amazon EMR no EKS preenche incorretamente o hash de compilação nos metadados dos arquivos em Parquet gerados usando o Apache Spark. Esse problema pode fazer com que as ferramentas que analisam a string de versão de metadados dos arquivos em Parquet gerados pela versão 6.8.0 do Amazon EMR no EKS apresentem falhas.

Problema conhecido

  • Se você usar a integração do Amazon Redshift para Apache Spark e tiver um time, timetz, timestamp ou timestamptz com precisão de microssegundos no formato Parquet, o conector arredondará os valores de tempo para o valor de milissegundo mais próximo. Como solução alternativa, use o parâmetro unload_s3_format do formato de descarregamento de texto.