Mantenha os dados em uma tabela de destino atualizados com o AWS Glue Athena - AWS Step Functions

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Mantenha os dados em uma tabela de destino atualizados com o AWS Glue Athena

Este projeto de amostra demonstra como consultar uma tabela de destino para obter dados atuais com o AWS Glue Catalog e, em seguida, atualizá-los com novos dados de outras fontes usando o Amazon Athena.

Neste projeto, a máquina de estado do Step Functions chama o AWS Glue Catalog para verificar se existe uma tabela de destino em um bucket do Amazon S3. Se nenhuma tabela for encontrada, uma nova tabela será criada. Em seguida, Step Functions executa uma consulta do Athena para adicionar linhas à tabela de destino de uma fonte de dados diferente: primeiro consultando a tabela de destino para obter a data mais recente, depois consultando a tabela de origem em busca de dados mais recentes e inserindo-os na tabela de destino.

Etapa 1: Criar a máquina de estado e provisionar os recursos

  1. Abra o console do Step Functions e clique em Criar máquina de estado.

  2. Digite Keep data up to date na caixa de pesquisa e escolha Manter os dados atualizados nos resultados da pesquisa que são retornados.

  3. Escolha Próximo para continuar.

  4. Step Functions lista o Serviços da AWS usado no projeto de amostra que você selecionou. Também mostra um gráfico de fluxo de trabalho para o projeto de amostra. Implante esse projeto no seu Conta da AWS ou use-o como ponto de partida para criar seus próprios projetos. Com base em como você deseja prosseguir, escolha Executar uma demonstração ou Criar com base nela.

    Este projeto de exemplo implementa os recursos a seguir.

    • Um bucket do Amazon S3

    • Queries do Amazon Athena

    • Uma chamada AWS Glue Data Catalog

    • Uma máquina de estado do AWS Step Functions

    • Funções do AWS Identity and Access Management (IAM) relacionadas

    A imagem a seguir mostra o gráfico do fluxo de trabalho do exemplo de projeto do Manter os dados atualizados:

    Gráfico do fluxo de trabalho do exemplo de projeto Manter os dados atualizados.
  5. Escolha Usar modelo para continuar com a seleção.

  6. Execute um destes procedimentos:

    • Se você selecionou Build on it, o Step Functions cria o protótipo do fluxo de trabalho, mas não implanta os recursos na definição do fluxo de trabalho, para que você possa continuar criando seu protótipo de fluxo de trabalho.

      No Workflow StudioModo de design, você pode inserir estados adicionais em seu protótipo de fluxo de trabalho. Ou você pode alternar para o Modo de código para usar o editor de código integrado para editar a definição Amazon States Language (ASL) da sua máquina de estado no console Step Functions.

      Importante

      Talvez seja necessário atualizar o espaço reservado Amazon Resource Name (ARN) para os recursos usados no projeto de amostra antes de poder executar seu fluxo de trabalho.

    • Se você selecionou Executar uma demonstração, o Step Functions cria um projeto somente para leitura que usa um AWS CloudFormation modelo para implantar os AWS recursos desse modelo no seu. Conta da AWS Você pode visualizar a definição da máquina de estado escolhendo o modo Código.

      Escolha Implantar e executar para implantar o projeto e criar os recursos.

      Observe que a implantação pode levar até 10 minutos para que os recursos e IAM as permissões sejam criados. Enquanto seus recursos estão sendo implantados, você pode abrir o link do AWS CloudFormation Stack ID para ver quais recursos estão sendo provisionados.

      Depois que todos os recursos tiverem sido criados, você deverá ver o projeto na página State Machines no console.

      Importante

      Taxas padrão podem ser aplicadas a cada serviço usado no CloudFormation modelo.

Etapa 2: Executar a máquina de estado

  1. Na página Máquinas de estado, escolha seu projeto de exemplo.

  2. Na página do projeto de exemplo, escolha Iniciar execução.

  3. Na caixa de diálogo Iniciar execução, faça o seguinte:

    1. (Opcional) Para identificar sua execução, você pode especificar um nome ou usar o nome de execução padrão gerado.

      nota

      Step Functions aceita nomes para máquinas de estado, execuções, atividades e rótulos que não contenham ASCII caracteres. Como nomes sem ASCII caracteres não funcionarão com a Amazon CloudWatch, recomendamos usar somente ASCII caracteres para que você possa acompanhar as métricas. CloudWatch

    2. (Opcional) Na caixa Entrada, insira os valores de entrada no JSON formato para executar seu fluxo de trabalho.

      Se você optar por Executar uma demonstração, não precisará fornecer nenhuma entrada de execução.

      nota

      Se o projeto de demonstração que você implementou contiver dados de entrada de execução pré-preenchidos, use essa entrada para executar a máquina de estado.

    3. Selecione Iniciar execução.

    4. O console do Step Functions direciona você para uma página em que o título é o ID da execução. Essa página é conhecida como página de Detalhes da execução. Nesta página, você pode revisar os resultados da execução à medida que a execução avança ou após a conclusão.

      Para revisar os resultados da execução, escolha estados individuais na Exibição em gráfico e, em seguida, escolha as guias individuais no painel Detalhes da etapa para visualizar os detalhes de cada estado, incluindo entrada, saída e definição, respectivamente. Para obter detalhes sobre as informações de execução que você pode visualizar na página Detalhes da execução, consulte Página de Detalhes da execução — Visão geral da interface.

Exemplo de código da máquina de estado

A máquina de estado neste projeto de amostra se integra ao Amazon S3 AWS Glue e ao Amazon Athena passando parâmetros diretamente para esses recursos.

Navegue por este exemplo de máquina de estado para ver como o Step Functions controla o Amazon S3 e o Amazon Athena conectando-se ao Amazon Resource Name ARN () no campo e Parameters passando para Resource o serviço. AWS Glue API

Para obter mais informações sobre como AWS Step Functions controlar outros AWS serviços, consulteIntegrando outros serviços com Step Functions.

{ "Comment": "An example demonstrates how to use Athena to query a target table to get current data, then update it with new data from other sources.", "StartAt": "Get Target Table", "States": { "Get Target Table": { "Type": "Task", "Parameters": { "DatabaseName": "<GLUE_DATABASE_NAME>", "Name": "target" }, "Catch": [ { "ErrorEquals": [ "Glue.EntityNotFoundException" ], "Next": "Create Target Table" } ], "Resource": "arn:aws:states:::aws-sdk:glue:getTable", "Next": "Update Target Table" }, "Create Target Table": { "Resource": "arn:aws:states:::athena:startQueryExecution.sync", "Parameters": { "QueryString": "<ATHENA_QUERYSTRING>", "WorkGroup": "<ATHENA_WORKGROUP>" }, "Type": "Task", "Next": "Update Target Table" }, "Update Target Table": { "Resource": "arn:aws:states:::athena:startQueryExecution.sync", "Parameters": { "QueryString": "<ATHENA_QUERYSTRING>", "WorkGroup": "<ATHENA_WORKGROUP>" }, "Type": "Task", "End": true } } }

IAMExemplo

Essa política example AWS Identity and Access Management (IAM) gerada pelo projeto de amostra inclui o menor privilégio necessário para executar a máquina de estado e os recursos relacionados. Recomendamos que você inclua somente as permissões necessárias em suas IAM políticas.

AthenaStartQueryExecution

"Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "athena:startQueryExecution", "athena:stopQueryExecution", "athena:getQueryExecution", "athena:getDataCatalog" ], "Resource": [ "arn:aws:athena:us-east-2:123456789012:workgroup/stepfunctions-athena-sample-project-workgroup-26ujlyawxg", "arn:aws:athena:us-east-2:123456789012:datacatalog/*" ] }, { "Effect": "Allow", "Action": [ "s3:GetBucketLocation", "s3:GetObject", "s3:ListBucket", "s3:ListBucketMultipartUploads", "s3:ListMultipartUploadParts", "s3:AbortMultipartUpload", "s3:CreateBucket", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::*" ] }, { "Effect": "Allow", "Action": [ "glue:CreateDatabase", "glue:GetDatabase", "glue:GetDatabases", "glue:UpdateDatabase", "glue:DeleteDatabase", "glue:CreateTable", "glue:UpdateTable", "glue:GetTable", "glue:GetTables", "glue:DeleteTable", "glue:BatchDeleteTable", "glue:BatchCreatePartition", "glue:CreatePartition", "glue:UpdatePartition", "glue:GetPartition", "glue:GetPartitions", "glue:BatchGetPartition", "glue:DeletePartition", "glue:BatchDeletePartition" ], "Resource": [ "arn:aws::glue:us-east-2:123456789012:catalog", "arn:aws::glue:us-east-2:123456789012:database/*", "arn:aws::glue:us-east-2:123456789012:table/*", "arn:aws::glue:us-east-2:123456789012:userDefinedFunction/*" ] }, { "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess" ], "Resource": [ "*" ] } ] }

Para obter informações sobre como configurar IAM ao usar Step Functions com outros AWS serviços, consulteComo o Step Functions gera IAM políticas para serviços integrados.