Versões do AWS Glue - AWS Glue

Versões do AWS Glue

Você pode configurar o parâmetro de versão do AWS Glue ao adicionar ou atualizar um trabalho. A versão AWS Glue determina as versões do Apache Spark e do Python compatíveis com o AWS Glue. A versão do Python indica a versão compatível com trabalhos do tipo Spark. A tabela a seguir lista as versões disponíveis do AWS Glue, as versões correspondentes do Spark e do Python e outras alterações na funcionalidade.

Versões do AWS Glue

Versão do AWS Glue Versões do ambiente de runtime compatíveis Versão compatível com Java Alterações na funcionalidade
AWS Glue 5.0
  • Spark 3.5.2

  • Python 3.11

  • Scala 2.12.18

Java 17

Além das atualizações na estrutura, há otimizações e atualizações incorporadas nessa versão do AWS Glue, como:

  • Suporte ao Amazon SageMaker Unified Studio.

  • Suporte ao Amazon SageMaker Lakehouse

  • Formatos de tabela aberta (OTF) atualizados para Hudi 0.15.0, Iceberg 1.6.1 e Delta Lake 3.2.1

  • Controle de acesso refinado nativo do Spark usando o Lake Formation.

  • Suporte a Concessões de Acesso do Amazon S3

  • Suporte à instalação de bibliotecas Python adicionais usando o arquivo requirements.txt.

  • Suporte à linhagem de dados no Amazon DataZone.

Limitações

São limitações do AWS Glue 5.0:

  • Não há suporte a GlueContext e a quadros dinâmicos no controle de acesso refinado (FGAC) nativo do Spark usando Lake Formation.

Para obter mais informações sobre como migrar para o AWS Glue versão 5.0, consulte Migrar trabalhos do AWS Glue para Spark para o AWS Glue versão 5.0.

AWS Glue 4.0 Versões do ambiente Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

O AWS Glue 4.0 oferece várias otimizações e atualizações incorporadas a essa versão do AWS Glue, como:

  • Muitas atualizações de funcionalidade do Spark 3.1 para o Spark 3.3:

    • Várias melhorias de funcionalidade quando emparelhado com o pandas. Para obter mais informações, consulte What's New in Spark 3.3 (O que há de novo no Spark 3.3).

    • Otimizações adicionais desenvolvidas no Amazon EMR.

    • Atualização para o EMR File System (EMRFS) 2.53.

  • Migração do Log4j 1.x para o Log4j 2

  • Várias atualizações do módulo do Python a partir do AWS Glue 3.0, como uma versão atualizada do Boto.

  • Atualização de vários conectores, incluindo o conector padrão do Amazon Redshift. Consulte Apêndice C: Atualizações de conectores.

  • Atualização de vários drivers JDBC. Consulte Apêndice B: upgrades do driver JDBC.

  • Atualizado com um novo conector do Amazon Redshift e driver JDBC.

  • Suporte nativo para estruturas de data lakes abertos com o Apache Hudi, o Delta Lake e o Apache Iceberg.

  • Suporte nativo para o Cloud Shuffle Storage Plugin baseado no Amazon S3 (um plug-in do Apache Spark) para usar o Amazon S3 para capacidade de armazenamento elástico e aleatório.

Limitações

As limitações com o AWS Glue 4.0 são as seguintes:

  • As transformações de machine learning e as informações de identificação pessoal (PII) do AWS Glue ainda não estão disponíveis no AWS Glue 4.0.

Para obter mais informações sobre como migrar para o AWS Glue versão 4.0, consulte Migrar trabalhos do AWS Glue para Spark para o AWS Glue versão 4.0.

Versões do ambiente Ray
  • Ray 2.4.0

    Python 3.9

N/D

Crie e execute aplicativos Python distribuídos com AWS Glue para Ray.

Limitações de trabalhos do Ray no AWS Glue 4.0

  • As sessões interativas do AWS Glue para Ray permanecem em pré-visualização para esta versão.

  • A integração do AWS Glue para Ray com a Amazon VPC não está disponível no momento. Os recursos em uma VPC no AWS não estarão acessíveis sem uma rota pública. Para obter mais informações sobre o uso do AWS Glue com a Amazon VPC, consulte Configurar VPC endpoints de interface (AWS PrivateLink) para AWS Glue (AWS PrivateLink).

  • O AWS Glue for Ray está disponível em Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Ásia-Pacífico (Tóquio) e Europa (Irlanda).

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Além da atualização do mecanismo Spark para 3.0, há otimizações e atualizações incorporadas nessa versão do AWS Glue, como:

  • Compila a biblioteca de ETL do AWS Glue em relação ao Spark 3.0, que é uma versão importante do Spark.

  • Os trabalhos de transmissão são suportados no AWS Glue 3.0.

  • Inclui novas otimizações do runtime do Spark no AWS Glue para performance e confiabilidade:

    • Processamento colunar na memória mais rápido baseado no Apache Arrow para leitura de dados CSV.

    • Execução baseada em SIMD para leituras vetorizadas com dados CSV.

    • A atualização do Spark também inclui otimizações adicionais desenvolvidas no Amazon EMR.

    • O EMRFS foi atualizado de 2.38 para 2.46, permitindo novos recursos e correções de bugs para o acesso ao Amazon S3.

  • Atualizadas várias dependências que eram necessárias para a nova versão do Spark.

  • Drivers do JDBC atualizados para nossas origens de dados com suporte nativo.

Limitações

Veja a seguir as limitações do AWS Glue 3.0:

  • As transformações de machine learning do AWS Glue ainda não estão disponíveis no AWS Glue 3.0.

  • Alguns conectores do Spark personalizados não funcionam com o AWS Glue 3.0 se dependerem do Spark 2.4 e não tiverem compatibilidade com o Spark 3.1.

AWS Glue 2.0 (descontinuado, fim do suporte)
  • Spark 2.4.3

  • Python 3.7

N/D

Além dos recursos fornecidos no AWS Glue versão 1.0, o AWS Glue versão 2.0 também oferece:

  • Uma infraestrutura atualizada para executar trabalhos de ETL do Apache Spark no AWS Glue com tempos de inicialização reduzidos.

  • O registro em log padrão agora é em tempo real, com streams separados para drivers e executores, além de saídas e erros.

  • Suporte para especificação de módulos do Python adicionais ou versões diferentes no nível do trabalho.

nota

O AWS Glue versão 2.0 difere do AWS Glue versão 1.0 para algumas dependências e versões graças a alterações de arquitetura subjacentes. Valide os trabalhos do AWS Glue antes de migrar entre as principais versões do AWS Glue.

AWS Glue 1.0 (descontinuado, fim do suporte)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/D

É possível manter marcadores de trabalho para os formatos Parquet e ORC em trabalhos de ETL do AWS Glue (usando o AWS Glue versão 1.0). Anteriormente, só era possível marcar formatos comuns de fonte do Amazon S3, como JSON, CSV, Apache Avro e XML em trabalhos de ETL do AWS Glue.

Ao definir opções de formato para entradas e saídas de ETL, é possível especificar o uso do formato do leitor/gravador Apache Avro 1.8 para oferecer suporte à leitura e gravação do tipo lógico Avro (usando o AWS Glue versão 1.0). Anteriormente, somente o formato da versão de leitor/gravador Avro 1.7 era compatível.

O tipo de conexão do DynamoDB é compatível com uma opção de gravador (usando o AWS Glue versão 1.0).

Limitações

As limitações com o AWS Glue 1.0 são as seguintes:

  • A partir de agora, as versões 0.9 e 1.0 do AWS Glue não estarão disponíveis na Ásia-Pacífico (Jacarta) (ap-southeast-3), Oriente Médio (EAU) (me-central-1) ou em outras regiões novas.

AWS Glue 0.9 (descontinuado, fim do suporte)
  • Spark 2.2.1

  • Python 2.7

N/D

Os trabalhos criados sem especificar uma versão do AWS Glue usam como padrão o AWS Glue 0.9.

Limitações

As limitações com o AWS Glue 0.9 são as seguintes:

  • A partir de agora, as versões 0.9 e 1.0 do AWS Glue não estarão disponíveis na Ásia-Pacífico (Jacarta) (ap-southeast-3), Oriente Médio (EAU) (me-central-1) ou em outras regiões novas.

nota

As seguintes versões do Glue são compatíveis com estas versões do PythonShell:

  • O PythonShell v3.6 é compatível com o Glue versão 1.0.

  • O PythonShell v3.9 é compatível com o Glue versão 3.0.

Além disso, os endpoints de desenvolvimento são compatíveis somente com as versões 1.0 e 0.9 do Glue.