Um script contém o código que extrai os dados das fontes, os transforma e os carrega nos destinos. O AWS Glue executa um script quando inicia um trabalho.
Os scripts de ETL do AWS Glue podem ser codificados em Python ou Scala. Os scripts Python usam uma linguagem que é a uma extensão do dialeto PySpark Python para trabalhos de extração, transformação e carregamento (ETL). O script contém construtores estendidos para lidar com transformações de ETL. Quando você gera automaticamente a lógica do código fonte para um trabalho, o script é criado. Você pode editar este script ou fornecer seu próprio script para processar seu trabalho de ETL.
Para obter informações sobre como definir e editar scripts usando no AWS Glue, consulte Guia de programação do AWS Glue.
Bibliotecas ou arquivos adicionais
Se seu script precisar de bibliotecas ou arquivos adicionais, você poderá especificá-los da seguinte forma:
- Caminho da biblioteca Python
-
Caminhos do Amazon Simple Storage Service (Amazon S3) separados por vírgulas para bibliotecas Python exigidas pelo script.
nota
Somente bibliotecas Python puras podem ser usadas. Bibliotecas que contam com extensões C, como a biblioteca de análise de dados Python pandas, ainda não são compatíveis.
- Caminho de arquivos JAR dependentes
-
Caminhos do Amazon S3 separados por vírgulas para arquivos JAR exigidos pelo script.
nota
Atualmente, apenas bibliotecas Java ou Scala (2.11) podem ser usadas.
- Caminho de arquivos referenciados
-
Caminhos do Amazon S3 separados por vírgula para arquivos adicionais (por exemplo, arquivos de configuração) exigidos pelo script.