Visão geral do desenvolvimento de esquemas - AWS União

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Visão geral do desenvolvimento de esquemas

A primeira etapa em seu processo de desenvolvimento é identificar um caso de uso comum que se beneficiaria de um blueprint. Um caso de uso típico envolve um problema de ETL recorrente que você acredita que deve ser resolvido de forma geral. Em seguida, projete um blueprint que implante o caso de uso generalizado e defina os parâmetros de entrada do blueprint que juntos podem definir um caso de uso específico a partir do caso de uso generalizado.

Um blueprint consiste em um projeto que contém um arquivo de configuração de parâmetros do blueprint e um script que define o layout do fluxo de trabalho a ser gerado. O layout define os trabalhos e crawlers (ou entidades na terminologia do script de blueprint) a serem criados.

Você não especifica diretamente nenhum acionador no script de layout. Em vez disso, você escreve um código para especificar as dependências entre os trabalhos e os crawlers criados pelo script. O AWS Glue gera os acionadores com base em suas especificações de dependências. A saída do script de layout é um objeto de fluxo de trabalho que contém especificações para todas as entidades de fluxo de trabalho.

Você constrói seu objeto de fluxo de trabalho usando as seguintes bibliotecas de esquema do AWS Glue:

  • awsglue.blueprint.base_resource: uma biblioteca de recursos básicos usados pelas bibliotecas.

  • awsglue.blueprint.workflow: uma biblioteca para definir uma classe Workflow.

  • awsglue.blueprint.job: uma biblioteca para definir uma classe Job.

  • awsglue.blueprint.crawler: uma biblioteca para definir uma classe Crawler.

As únicas outras bibliotecas que são suportadas para geração de layout são aquelas que estão disponíveis para o shell do Python.

Antes de publicar seu blueprint, você pode usar métodos definidos nas bibliotecas de blueprint para testá-lo localmente.

Quando estiver tudo pronto para você disponibilizar o blueprint aos analistas de dados, você empacota o script, o arquivo de configuração de parâmetros e quaisquer arquivos complementares, como scripts e bibliotecas adicionais, em um único ativo implantável. Em seguida, carrega o ativo no Amazon S3 e pede a um administrador para registrá-lo no AWS Glue.

Para obter mais informações sobre amostras de projetos de blueprint, consulte Projeto de esquema de exemplo e Esquemas de exemplo.