As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Use a AWS Glue versão mais recente
Recomendamos usar a AWS Glue versão mais recente. Há várias otimizações e atualizações incorporadas em cada versão que podem melhorar automaticamente o desempenho do trabalho. Por exemplo, a AWS Glue versão 4.0 fornece os seguintes novos recursos:
-
O novo tempo de execução otimizado do Apache Spark 3.3.0 — AWS Glue 4.0 se baseia no tempo de execução do Apache Spark 3.3.0, trazendo melhorias de desempenho comparáveis às do Spark de código aberto. O tempo de execução do Spark 3.3.0 se baseia em muitas das inovações do Spark 2.x.
-
Conector aprimorado do Amazon Redshift — AWS Glue 4.0 e versões posteriores fornecem integração com o Amazon Redshift para o Apache Spark. A integração se baseia em um conector de código aberto existente e o aprimora em termos de desempenho e segurança. A integração ajuda os aplicativos a funcionarem até 10 vezes mais rápido. Para obter mais informações, consulte a postagem do blog sobre a integração do Amazon Redshift com o Apache
Spark. -
SIMDexecução baseada para leituras vetorizadas com JSON dados CSV e dados — a AWS Glue versão 3.0 e versões posteriores adicionam leitores otimizados que podem acelerar significativamente o desempenho geral do trabalho em comparação com os leitores baseados em linhas. Para obter mais informações sobre CSV dados, consulte Otimizar o desempenho de leitura com o leitor vetorizado SIMD CSV. Para obter mais informações sobre JSON dados, consulte Usando o SIMD JSON leitor vetorizado com o formato colunar Apache Arrow.
Cada AWS Glue versão incluirá atualizações desse tipo, entre muitas, incluindo conectores, atualizações de drivers e bibliotecas. Para obter mais informações, consulte AWS Glue Versões e Migração de AWS Glue trabalhos para a AWS Glue versão 4.0.