AWS Glue versões - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS Glue versões

Você pode configurar o AWS Glue parâmetro de versão quando você adiciona ou atualiza um trabalho. A ferramenta AWS Glue versão determina as versões do Apache Spark e do Python que AWS Glue suportes. A versão do Python indica a versão compatível com trabalhos do tipo Spark. A tabela a seguir lista os disponíveis AWS Glue versões, as versões correspondentes do Spark e do Python e outras mudanças na funcionalidade.

AWS Glue versões

AWS Glue versão Versões do ambiente de runtime compatíveis Versão compatível com Java Alterações na funcionalidade
AWS Glue 4,0 Versões do ambiente Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 é a versão mais recente do AWS Glue. Existem várias otimizações e atualizações incorporadas a isso. AWS Glue lançamento, como:

  • Muitas atualizações de funcionalidade do Spark 3.1 para o Spark 3.3:

    • Várias melhorias de funcionalidade quando emparelhado com o pandas. Para obter mais informações, consulte What's New in Spark 3.3 (O que há de novo no Spark 3.3).

    • Otimizações adicionais desenvolvidas na Amazon. EMR

    • Atualização para o sistema de EMR arquivos (EMRFS) 2.53.

  • Migração do Log4j 1.x para o Log4j 2

  • Várias atualizações do módulo Python do AWS Glue 3.0, como uma versão atualizada do Boto.

  • Atualização de vários conectores, incluindo o conector padrão do Amazon Redshift. Consulte Apêndice C: Atualizações de conectores.

  • Atualização de vários JDBC drivers. Consulte Apêndice B: upgrades do driver JDBC.

  • Atualizado com um novo conector e JDBC driver do Amazon Redshift.

  • Suporte nativo para estruturas de data lakes abertos com o Apache Hudi, o Delta Lake e o Apache Iceberg.

  • Suporte nativo para o Cloud Shuffle Storage Plugin baseado no Amazon S3 (um plug-in do Apache Spark) para usar o Amazon S3 para capacidade de armazenamento elástico e aleatório.

Limitações

A seguir estão as limitações com AWS Glue 4,0:

  • AWS Glue as transformações de aprendizado de máquina e informações de identificação pessoal (PII) ainda não estão disponíveis no AWS Glue 4.0.

Para obter mais informações sobre a migração para AWS Glue versão 4.0, consulteMigrar trabalhos do AWS Glue for Spark para o AWS Glue versão 4.0.

Versões do ambiente Ray
  • Ray 2.4.0

    Python 3.9

N/D

Crie e execute aplicativos Python distribuídos com AWS Glue for Ray.

Limitações de trabalhos do Ray no AWS Glue 4.0

  • AWS Glue as sessões interativas do Ray permanecem em pré-visualização desta versão.

  • AWS Glue A integração do for Ray com a Amazon não VPC está disponível no momento. Os recursos em um VPC in não AWS estarão acessíveis sem uma rota pública. Para obter mais informações sobre como usar AWS Glue com a AmazonVPC, consulteConfigurar VPC endpoints de interface (AWS PrivateLink) para AWS Glue (AWS PrivateLink).

  • AWS Glue for Ray está disponível no Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Ásia-Pacífico (Tóquio) e Europa (Irlanda).

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Além da atualização do motor Spark para 3.0, há otimizações e atualizações incorporadas a ele. AWS Glue lançamento, como:

  • Constrói o AWS Glue ETLBiblioteca contra o Spark 3.0, que é um grande lançamento do Spark.

  • Os trabalhos de streaming são compatíveis com AWS Glue 3.0.

  • Inclui novos AWS Glue Otimizações de tempo de execução do Spark para desempenho e confiabilidade:

    • Processamento colunar na memória mais rápido baseado no Apache Arrow para leitura de dados. CSV

    • SIMDexecução baseada para leituras vetorizadas com CSV dados.

    • A atualização do Spark também inclui otimizações adicionais desenvolvidas na Amazon. EMR

    • Atualizado EMRFS de 2.38 para 2.46, permitindo novos recursos e correções de bugs para acesso ao Amazon S3.

  • Atualizadas várias dependências que eram necessárias para a nova versão do Spark. Consulte Apêndice A: atualizações de dependência notáveis.

  • JDBCDrivers atualizados para nossas fontes de dados com suporte nativo. Consulte Apêndice B: upgrades do driver JDBC.

Limitações

A seguir estão as limitações com AWS Glue 3.0:

  • AWS Glue as transformações de aprendizado de máquina ainda não estão disponíveis em AWS Glue 3.0.

  • Alguns conectores Spark personalizados não funcionam com AWS Glue 3.0 se eles dependerem do Spark 2.4 e não tiverem compatibilidade com o Spark 3.1.

Para obter mais informações sobre a migração para AWS Glue versão 3.0, consulteMigrar trabalhos do AWS Glue for Spark para o AWS Glue versão 3.0.

AWS Glue 2.0 (obsoleto, fim do suporte)
  • Spark 2.4.3

  • Python 3.7

N/D

Além dos recursos fornecidos em AWS Glue versão 1.0, AWS Glue a versão 2.0 também fornece:

  • Uma infraestrutura atualizada para executar trabalhos do Apache Spark no ETL AWS Glue com tempos de inicialização reduzidos.

  • O registro em log padrão agora é em tempo real, com streams separados para drivers e executores, além de saídas e erros.

  • Suporte para especificação de módulos do Python adicionais ou versões diferentes no nível do trabalho.

nota

AWS Glue a versão 2.0 difere da AWS Glue versão 1.0 para algumas dependências e versões devido a alterações arquitetônicas subjacentes. Valide seu AWS Glue empregos antes de migrar para os principais AWS Glue lançamentos de versões.

Para obter mais informações sobre AWS Glue recursos e limitações da versão 2.0, consulteExecutar trabalhos de ETL do Spark com tempos de inicialização reduzidos.

AWS Glue 1.0 (obsoleto, fim do suporte)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/D

Você pode manter marcadores de trabalho para Parquet e ORC formatos em AWS Glue ETLempregos (usando AWS Glue versão 1.0). Anteriormente, você só podia marcar formatos de origem comuns do Amazon S3 JSON comoCSV,, Apache Avro e em XML AWS Glue ETLempregos.

Ao definir as opções de formato para ETL entradas e saídas, você pode especificar o uso do formato 1.8 de leitor/gravador Apache Avro para suportar a leitura e gravação do tipo lógico Avro (usando AWS Glue versão 1.0). Anteriormente, somente o formato da versão de leitor/gravador Avro 1.7 era compatível.

O tipo de conexão do DynamoDB oferece suporte a uma opção de gravador (usando AWS Glue versão 1.0).

Limitações

A seguir estão as limitações com AWS Glue 1,0:

  • AWS Glue as versões 0.9 e 1.0 não estão disponíveis na Ásia-Pacífico (Jacarta) (ap-southeast-3), Oriente Médio (UAE) (me-central-1) ou em outras novas regiões daqui para frente.

AWS Glue 0.9 (obsoleto, fim do suporte)
  • Spark 2.2.1

  • Python 2.7

N/D

Trabalhos que foram criados sem especificar um AWS Glue versão padrão para AWS Glue 0,9.

Limitações

A seguir estão as limitações com AWS Glue 0,9:

  • AWS Glue as versões 0.9 e 1.0 não estão disponíveis na Ásia-Pacífico (Jacarta) (ap-southeast-3), Oriente Médio (UAE) (me-central-1) ou em outras novas regiões daqui para frente.

nota

As seguintes versões do Glue oferecem suporte às seguintes versões do PythonShell:

  • PythonShell A versão v3.6 é compatível com a versão 1.0 do Glue.

  • PythonShell A v3.9 é compatível com a versão 3.0 do Glue.

Além disso, os endpoints de desenvolvimento são compatíveis somente com as versões 1.0 e 0.9 do Glue.