Maintenir les données d'une table cible à jour avec AWS Glue et Athena - AWS Step Functions

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Maintenir les données d'une table cible à jour avec AWS Glue et Athena

Cet exemple de projet montre comment interroger une table cible pour obtenir des données actuelles avec AWS Glue Catalog, puis comment la mettre à jour avec de nouvelles données provenant d'autres sources à l'aide d'Amazon Athena.

Dans ce projet, la machine d'état Step Functions appelle AWS Glue Catalog pour vérifier si une table cible existe dans un compartiment Amazon S3. Si aucune table n'est trouvée, une nouvelle table sera créée. Step FunctionsExécute ensuite une requête Athena pour ajouter des lignes à la table cible à partir d'une autre source de données : en interrogeant d'abord la table cible pour obtenir la date la plus récente, puis en interrogeant la table source pour obtenir des données plus récentes et en les insérant dans la table cible.

Étape 1 : créer la machine à états et provisionner les ressources

  1. Ouvrez la console Step Functions et choisissez Create state machine.

  2. Tapez Keep data up to date dans la zone de recherche, puis choisissez Garder les données à jour à partir des résultats de recherche renvoyés.

  3. Choisissez Next (Suivant) pour continuer.

  4. Step Functions répertorie les AWS services éléments utilisés dans l'exemple de projet que vous avez sélectionné. Il montre également un graphique de flux de travail pour l'exemple de projet. Déployez ce projet sur votre site Compte AWS ou utilisez-le comme point de départ pour créer vos propres projets. Selon la façon dont vous souhaitez procéder, choisissez Exécuter une démo ou Construire à partir de celle-ci.

    Cet exemple de projet déploie les ressources suivantes :

    • Un compartiment Amazon S3

    • Amazon Athenarequêtes

    • Un AWS Glue Data Catalog appel

    • Machine d'état AWS Step Functions

    • Rôles AWS Identity and Access Management (IAM) connexes

    L'image suivante montre le graphique du flux de travail pour l'exemple de projet Maintenir les données à jour :

    Graphique du flux de travail de l'exemple de projet « Maintenir les données à jour ».
  5. Choisissez Utiliser le modèle pour poursuivre votre sélection.

  6. Effectuez l’une des actions suivantes :

    • Si vous avez sélectionné Build on it, Step Functions crée le prototype de flux de travail, mais ne déploie pas les ressources contenues dans la définition du flux de travail. Vous pouvez donc continuer à développer votre prototype de flux de travail.

      Dans Workflow StudioMode de conception, vous pouvez ajouter des états à votre prototype de flux de travail. Vous pouvez également passer Mode code à l'éditeur de code intégré pour modifier la définition Amazon States Language (ASL) de votre machine à états depuis la console Step Functions.

      Important

      Vous devrez peut-être mettre à jour l'espace réservé Amazon Resource Name (ARN) pour les ressources utilisées dans l'exemple de projet avant de pouvoir exécuter votre flux de travail.

    • Si vous avez sélectionné Run a demo, Step Functions crée un projet en lecture seule qui utilise un AWS CloudFormation modèle pour déployer les AWS ressources de ce modèle sur votre. Compte AWS Vous pouvez consulter la définition de la machine à états en choisissant le mode Code.

      Choisissez Déployer et exécuter pour déployer le projet et créer les ressources.

      Notez que le déploiement peut prendre jusqu'à 10 minutes pour créer des ressources et IAM des autorisations. Pendant le déploiement de vos ressources, vous pouvez ouvrir le lien AWS CloudFormation Stack ID pour voir quelles ressources sont mises en service.

      Une fois que toutes les ressources ont été créées, vous devriez voir le projet sur la page State machines de la console.

      Important

      Des frais standard peuvent s'appliquer pour chaque service utilisé dans le CloudFormation modèle.

Étape 2 : Exécuter la machine d'état

  1. Sur la page State machines, choisissez votre exemple de projet.

  2. Sur la page d'exemple de projet, choisissez Démarrer l'exécution.

  3. Dans la boîte de dialogue Démarrer l'exécution, procédez comme suit :

    1. (Facultatif) Pour identifier votre exécution, vous pouvez spécifier un nom ou utiliser le nom d'exécution généré par défaut.

      Note

      Step Functions accepte les noms des machines d'état, des exécutions, des activités et des étiquettes contenant des caractères autres que des ASCII caractères. Étant donné que les noms ne contenant pas de ASCII caractères ne fonctionneront pas avec Amazon CloudWatch, nous vous recommandons de n'utiliser que ASCII des caractères afin de pouvoir suivre les statistiques. CloudWatch

    2. (Facultatif) Dans la zone de saisie, entrez les valeurs d'entrée au JSON format permettant d'exécuter votre flux de travail.

      Si vous avez choisi d'exécuter une démo, vous n'avez pas besoin de fournir d'entrée d'exécution.

      Note

      Si le projet de démonstration que vous avez déployé contient des données d'entrée d'exécution préremplies, utilisez ces entrées pour exécuter la machine à états.

    3. Choisissez Start execution (Démarrer l'exécution).

    4. La console Step Functions vous dirige vers une page intitulée avec votre ID d'exécution. Cette page est connue sous le nom de page Détails de l'exécution. Sur cette page, vous pouvez consulter les résultats de l'exécution au fur et à mesure que l'exécution progresse ou une fois celle-ci terminée.

      Pour consulter les résultats de l'exécution, choisissez des états individuels dans la vue graphique, puis choisissez les onglets individuels du Détails de l'étape volet pour afficher les détails de chaque état, y compris les entrées, les sorties et la définition respectivement. Pour plus de détails sur les informations d'exécution que vous pouvez consulter sur la page Détails de l'exécution, voirPage de détails d'exécution — Vue d'ensemble de l'interface.

Exemple de code de machine d'état

Dans cet exemple de projet, AWS Glue la machine à états s'intègre à Amazon S3 et Amazon Athena en transmettant des paramètres directement à ces ressources.

Parcourez cet exemple de machine à états pour découvrir comment Step Functions contrôle Amazon S3 et Amazon Athena en se connectant au nom de ressource Amazon (ARN) Resource sur le terrain et en passant Parameters au service. AWS Glue API

Pour plus d'informations sur la manière de AWS Step Functions contrôler d'autres AWS services, consultezIntégration d'autres services avec Step Functions.

{ "Comment": "An example demonstrates how to use Athena to query a target table to get current data, then update it with new data from other sources.", "StartAt": "Get Target Table", "States": { "Get Target Table": { "Type": "Task", "Parameters": { "DatabaseName": "<GLUE_DATABASE_NAME>", "Name": "target" }, "Catch": [ { "ErrorEquals": [ "Glue.EntityNotFoundException" ], "Next": "Create Target Table" } ], "Resource": "arn:aws:states:::aws-sdk:glue:getTable", "Next": "Update Target Table" }, "Create Target Table": { "Resource": "arn:aws:states:::athena:startQueryExecution.sync", "Parameters": { "QueryString": "<ATHENA_QUERYSTRING>", "WorkGroup": "<ATHENA_WORKGROUP>" }, "Type": "Task", "Next": "Update Target Table" }, "Update Target Table": { "Resource": "arn:aws:states:::athena:startQueryExecution.sync", "Parameters": { "QueryString": "<ATHENA_QUERYSTRING>", "WorkGroup": "<ATHENA_WORKGROUP>" }, "Type": "Task", "End": true } } }

IAMExemple

Cet exemple AWS Identity and Access Management (IAM) de politique généré par l'exemple de projet inclut le minimum de privilèges nécessaires pour exécuter la machine à états et les ressources associées. Nous vous recommandons de n'inclure que les autorisations nécessaires dans vos IAM politiques.

AthenaStartQueryExecution

"Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "athena:startQueryExecution", "athena:stopQueryExecution", "athena:getQueryExecution", "athena:getDataCatalog" ], "Resource": [ "arn:aws:athena:us-east-2:123456789012:workgroup/stepfunctions-athena-sample-project-workgroup-26ujlyawxg", "arn:aws:athena:us-east-2:123456789012:datacatalog/*" ] }, { "Effect": "Allow", "Action": [ "s3:GetBucketLocation", "s3:GetObject", "s3:ListBucket", "s3:ListBucketMultipartUploads", "s3:ListMultipartUploadParts", "s3:AbortMultipartUpload", "s3:CreateBucket", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::*" ] }, { "Effect": "Allow", "Action": [ "glue:CreateDatabase", "glue:GetDatabase", "glue:GetDatabases", "glue:UpdateDatabase", "glue:DeleteDatabase", "glue:CreateTable", "glue:UpdateTable", "glue:GetTable", "glue:GetTables", "glue:DeleteTable", "glue:BatchDeleteTable", "glue:BatchCreatePartition", "glue:CreatePartition", "glue:UpdatePartition", "glue:GetPartition", "glue:GetPartitions", "glue:BatchGetPartition", "glue:DeletePartition", "glue:BatchDeletePartition" ], "Resource": [ "arn:aws::glue:us-east-2:123456789012:catalog", "arn:aws::glue:us-east-2:123456789012:database/*", "arn:aws::glue:us-east-2:123456789012:table/*", "arn:aws::glue:us-east-2:123456789012:userDefinedFunction/*" ] }, { "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess" ], "Resource": [ "*" ] } ] }

Pour plus d'informations sur la configuration IAM lors de l'utilisation de Step Functions avec d'autres AWS services, consultezComment Step Functions génère IAM des politiques pour les services intégrés.