Versões do AWS Glue - AWS União

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Versões do AWS Glue

Você pode configurar o parâmetro de versão do AWS Glue ao adicionar ou atualizar um trabalho. A versão AWS Glue determina as versões do Apache Spark e do Python compatíveis com o AWS Glue. A versão do Python indica a versão compatível com trabalhos do tipo Spark. A tabela a seguir lista as versões disponíveis do AWS Glue, as versões correspondentes do Spark e do Python e outras alterações na funcionalidade.

Versões do AWS Glue

Versão do AWS Glue Versões do ambiente de runtime compatíveis Versão compatível com Java Alterações na funcionalidade
AWS Glue 4.0 Versões do ambiente Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

O AWS Glue 4.0 é versão mais recente do AWS Glue. Há várias otimizações e atualizações incorporadas a essa versão do AWS Glue, como:

  • Muitas atualizações de funcionalidade do Spark 3.1 para o Spark 3.3:

    • Várias melhorias de funcionalidade quando emparelhado com o pandas. Para obter mais informações, consulte What's New in Spark 3.3 (O que há de novo no Spark 3.3).

    • Otimizações adicionais desenvolvidas no Amazon EMR.

    • Atualização para o EMR File System (EMRFS) 2.53.

  • Migração do Log4j 1.x para o Log4j 2

  • Várias atualizações do módulo do Python a partir do AWS Glue 3.0, como uma versão atualizada do Boto.

  • Atualização de vários conectores, incluindo o conector padrão do Amazon Redshift. Consulte Apêndice C: Atualizações de conectores.

  • Atualização de vários drivers JDBC. Consulte Apêndice B: upgrades do driver JDBC.

  • Atualizado com um novo conector do Amazon Redshift e driver JDBC.

  • Suporte nativo para estruturas de data lakes abertos com o Apache Hudi, o Delta Lake e o Apache Iceberg.

  • Suporte nativo para o Cloud Shuffle Storage Plugin baseado no Amazon S3 (um plug-in do Apache Spark) para usar o Amazon S3 para capacidade de armazenamento elástico e aleatório.

Limitações

As limitações com o AWS Glue 4.0 são as seguintes:

  • As transformações de machine learning e as informações de identificação pessoal (PII) do AWS Glue ainda não estão disponíveis no AWS Glue 4.0.

Para obter mais informações sobre como migrar para o AWS Glue versão 4.0, consulte Migrar trabalhos do AWS Glue for Spark para o AWS Glue versão 4.0.

Versões do ambiente Ray
  • Ray 2.4.0

    Python 3.9

N/D

Crie e execute aplicativos Python distribuídos com AWS Glue para Ray.

Limitações de trabalhos do Ray no AWS Glue 4.0

  • As sessões interativas do AWS Glue para Ray permanecem em pré-visualização para esta versão.

  • A integração do AWS Glue para Ray com a Amazon VPC não está disponível no momento. Os recursos em uma VPC no AWS não estarão acessíveis sem uma rota pública. Para obter mais informações sobre o uso do AWS Glue com a Amazon VPC, consulte Configurando VPC endpoints de interface (AWS PrivateLink) para AWS Glue ()AWS PrivateLink.

  • O AWS Glue for Ray está disponível em Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Ásia-Pacífico (Tóquio) e Europa (Irlanda).

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Além da atualização do mecanismo Spark para 3.0, há otimizações e atualizações incorporadas nessa versão do AWS Glue, como:

  • Compila a biblioteca de ETL do AWS Glue em relação ao Spark 3.0, que é uma versão importante do Spark.

  • Os trabalhos de transmissão são suportados no AWS Glue 3.0.

  • Inclui novas otimizações do runtime do Spark no AWS Glue para performance e confiabilidade:

    • Processamento colunar na memória mais rápido baseado no Apache Arrow para leitura de dados CSV.

    • Execução baseada em SIMD para leituras vetorizadas com dados CSV.

    • A atualização do Spark também inclui otimizações adicionais desenvolvidas no Amazon EMR.

    • O EMRFS foi atualizado de 2.38 para 2.46, permitindo novos recursos e correções de bugs para o acesso ao Amazon S3.

  • Atualizadas várias dependências que eram necessárias para a nova versão do Spark. Consulte Apêndice A: atualizações de dependência notáveis.

  • Drivers do JDBC atualizados para nossas origens de dados com suporte nativo. Consulte Apêndice B: upgrades do driver JDBC.

Limitações

Veja a seguir as limitações do AWS Glue 3.0:

  • As transformações de machine learning do AWS Glue ainda não estão disponíveis no AWS Glue 3.0.

  • Alguns conectores do Spark personalizados não funcionam com o AWS Glue 3.0 se dependerem do Spark 2.4 e não tiverem compatibilidade com o Spark 3.1.

Para obter mais informações sobre como migrar do AWS Glue versão 3.0, consulte Migrar trabalhos do AWS Glue for Spark para o AWS Glue versão 3.0.

AWS Glue 2.0 (descontinuado, fim do suporte)
  • Spark 2.4.3

  • Python 3.7

N/D

Além dos recursos fornecidos no AWS Glue versão 1.0, o AWS Glue versão 2.0 também oferece:

  • Uma infraestrutura atualizada para executar trabalhos de ETL do Apache Spark no AWS Glue com tempos de inicialização reduzidos.

  • O registro em log padrão agora é em tempo real, com streams separados para drivers e executores, além de saídas e erros.

  • Suporte para especificação de módulos do Python adicionais ou versões diferentes no nível do trabalho.

nota

O AWS Glue versão 2.0 difere do AWS Glue versão 1.0 para algumas dependências e versões graças a alterações de arquitetura subjacentes. Valide os trabalhos do AWS Glue antes de migrar entre as principais versões do AWS Glue.

Para obter mais informações sobre os recursos e limitações do AWS Glue versão 2.0, consulte Executar trabalhos de ETL do Spark com tempos de inicialização reduzidos.

AWS Glue 1.0 (descontinuado, fim do suporte)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/D

É possível manter marcadores de trabalho para os formatos Parquet e ORC em trabalhos de ETL do AWS Glue (usando o AWS Glue versão 1.0). Anteriormente, só era possível marcar formatos comuns de fonte do Amazon S3, como JSON, CSV, Apache Avro e XML em trabalhos de ETL do AWS Glue.

Ao definir opções de formato para entradas e saídas de ETL, é possível especificar o uso do formato do leitor/gravador Apache Avro 1.8 para oferecer suporte à leitura e gravação do tipo lógico Avro (usando o AWS Glue versão 1.0). Anteriormente, somente o formato da versão de leitor/gravador Avro 1.7 era compatível.

O tipo de conexão do DynamoDB é compatível com uma opção de gravador (usando o AWS Glue versão 1.0).

Limitações

As limitações com o AWS Glue 1.0 são as seguintes:

  • A partir de agora, as versões 0.9 e 1.0 do AWS Glue não estarão disponíveis na Ásia-Pacífico (Jacarta) (ap-southeast-3), Oriente Médio (EAU) (me-central-1) ou em outras regiões novas.

AWS Glue 0.9 (descontinuado, fim do suporte)
  • Spark 2.2.1

  • Python 2.7

N/D

Os trabalhos criados sem especificar uma versão do AWS Glue usam como padrão o AWS Glue 0.9.

Limitações

As limitações com o AWS Glue 0.9 são as seguintes:

  • A partir de agora, as versões 0.9 e 1.0 do AWS Glue não estarão disponíveis na Ásia-Pacífico (Jacarta) (ap-southeast-3), Oriente Médio (EAU) (me-central-1) ou em outras regiões novas.

nota

As seguintes versões do Glue são compatíveis com estas versões do PythonShell:

  • O PythonShell v3.6 é compatível com o Glue versão 1.0.

  • O PythonShell v3.9 é compatível com o Glue versão 3.0.

Além disso, os endpoints de desenvolvimento são compatíveis somente com as versões 1.0 e 0.9 do Glue.