Use a AWS Glue versão mais recente -

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Use a AWS Glue versão mais recente

Recomendamos usar a AWS Glue versão mais recente. Há várias otimizações e atualizações incorporadas em cada versão que podem melhorar automaticamente o desempenho do trabalho. Por exemplo, a AWS Glue versão 4.0 fornece os seguintes novos recursos:

  • O novo tempo de execução otimizado do Apache Spark 3.3.0 — AWS Glue 4.0 se baseia no tempo de execução do Apache Spark 3.3.0, trazendo melhorias de desempenho comparáveis às do Spark de código aberto. O tempo de execução do Spark 3.3.0 se baseia em muitas das inovações do Spark 2.x.

  • Conector aprimorado do Amazon Redshift — AWS Glue 4.0 e versões posteriores fornecem integração com o Amazon Redshift para o Apache Spark. A integração se baseia em um conector de código aberto existente e o aprimora em termos de desempenho e segurança. A integração ajuda os aplicativos a funcionarem até 10 vezes mais rápido. Para obter mais informações, consulte a postagem do blog sobre a integração do Amazon Redshift com o Apache Spark.

  • SIMDexecução baseada para leituras vetorizadas com JSON dados CSV e dados — a AWS Glue versão 3.0 e versões posteriores adicionam leitores otimizados que podem acelerar significativamente o desempenho geral do trabalho em comparação com os leitores baseados em linhas. Para obter mais informações sobre CSV dados, consulte Otimizar o desempenho de leitura com o leitor vetorizado SIMD CSV. Para obter mais informações sobre JSON dados, consulte Usando o SIMD JSON leitor vetorizado com o formato colunar Apache Arrow.

Cada AWS Glue versão incluirá atualizações desse tipo, entre muitas, incluindo conectores, atualizações de drivers e bibliotecas. Para obter mais informações, consulte AWS Glue Versões e Migração de AWS Glue trabalhos para a AWS Glue versão 4.0.