Utilisation de l'état de la carte en mode distribué pour orchestrer des charges de travail parallèles à grande échelle - AWS Step Functions

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de l'état de la carte en mode distribué pour orchestrer des charges de travail parallèles à grande échelle

Avec Step Functions, vous pouvez orchestrer des charges de travail parallèles à grande échelle pour effectuer des tâches telles que le traitement à la demande de données semi-structurées. Ces charges de travail parallèles vous permettent de traiter simultanément des sources de données à grande échelle stockées dans Amazon S3. Par exemple, vous pouvez traiter un seul fichier JSON ou CSV contenant de grandes quantités de données. Vous pouvez également traiter un grand nombre d'objets Amazon S3.

Pour configurer une charge de travail parallèle à grande échelle dans vos flux de travail, incluez un Map état en mode distribué. L'état de la carte traite les éléments d'un jeu de données simultanément. Un Map état défini sur Distribué est appelé état de carte distribuée. En mode distribué, l'Mapétat autorise un traitement simultané élevé. En mode distribué, l'MapÉtat traite les éléments de l'ensemble de données par itérations appelées exécutions de flux de travail secondaires. Vous pouvez spécifier le nombre d'exécutions de flux de travail enfants qui peuvent être exécutées en parallèle. Chaque exécution de flux de travail enfant possède son propre historique d'exécution distinct de celui du flux de travail parent. Si vous ne le spécifiez pas, Step Functions exécute 10 000 workflows enfants parallèles en parallèle.

L'illustration suivante explique comment configurer des charges de travail parallèles à grande échelle dans vos flux de travail.

Schéma illustrant le concept d'orchestration de charges de travail parallèles à grande échelle.

Termes clés

Mode distribué

Mode de traitement de l'état de la carte. Dans ce mode, chaque itération de l'Mapétat s'exécute comme une exécution de flux de travail secondaire qui permet une simultanéité élevée. Chaque exécution de flux de travail enfant possède son propre historique d'exécution, distinct de l'historique d'exécution du flux de travail parent. Ce mode prend en charge la lecture des entrées provenant de sources de données Amazon S3 à grande échelle.

État de la carte distribuée

État de la carte défini sur Mode de traitement distribué.

Flux de travail cartographique

Ensemble d'étapes exécutées par un Map État.

Flux de travail parent

Un flux de travail qui contient un ou plusieurs états de cartes distribuées.

Exécution d'un flux de travail

Une itération de l'état de la carte distribuée. L'exécution d'un flux de travail enfant possède son propre historique d'exécution, distinct de l'historique d'exécution du flux de travail parent.

Map Run

Lorsque vous exécutez un Map état en mode distribué, Step Functions crée une ressource Map Run. Une exécution de carte fait référence à un ensemble d'exécutions de flux de travail enfants lancées par un état de carte distribuée, ainsi qu'aux paramètres d'exécution qui contrôlent ces exécutions. Step Functions attribue un Amazon Resource Name (ARN) à votre Map Run. Vous pouvez examiner un Map Run dans la console Step Functions. Vous pouvez également invoquer l'action d'DescribeMapRunAPI. Un Map Run envoie également des métriques à. CloudWatch

Pour plus d’informations, consultez Examen de Map Run.

Exemple de définition de l'état d'une carte distribuée

Utilisez l'Mapétat en mode distribué lorsque vous devez orchestrer des charges de travail parallèles à grande échelle répondant à une combinaison des conditions suivantes :

  • La taille de votre jeu de données dépasse 256 Ko.

  • L'historique des événements d'exécution du flux de travail dépasse 25 000 entrées.

  • Vous avez besoin d'une simultanéité de plus de 40 itérations parallèles.

L'exemple de définition d'état de carte distribuée suivant spécifie l'ensemble de données sous la forme d'un fichier CSV stocké dans un compartiment Amazon S3. Elle spécifie également une fonction Lambda qui traite les données de chaque ligne du fichier CSV. Comme cet exemple utilise un fichier CSV, il indique également l'emplacement des en-têtes de colonne CSV. Pour voir la définition complète de la machine à états de cet exemple, consultez le didacticiel Copier des données CSV à grande échelle à l'aide d'une carte distribuée.

{ "Map": { "Type": "Map", "ItemReader": { "ReaderConfig": { "InputType": "CSV", "CSVHeaderLocation": "FIRST_ROW" }, "Resource": "arn:aws:states:::s3:getObject", "Parameters": { "Bucket": "Database", "Key": "csv-dataset/ratings.csv" } }, "ItemProcessor": { "ProcessorConfig": { "Mode": "DISTRIBUTED", "ExecutionType": "EXPRESS" }, "StartAt": "LambdaTask", "States": { "LambdaTask": { "Type": "Task", "Resource": "arn:aws:states:::lambda:invoke", "OutputPath": "$.Payload", "Parameters": { "Payload.$": "$", "FunctionName": "arn:aws:lambda:us-east-2:123456789012:function:processCSVData" }, "End": true } } }, "Label": "Map", "End": true, "ResultWriter": { "Resource": "arn:aws:states:::s3:putObject", "Parameters": { "Bucket": "myOutputBucket", "Prefix": "csvProcessJobs" } } } }

Autorisations pour exécuter une carte distribuée

Lorsque vous incluez un état de carte distribuée dans vos flux de travail, Step Functions a besoin des autorisations appropriées pour permettre au rôle de machine à états d'invoquer l'action d'StartExecutionAPI pour l'état de carte distribuée.

L'exemple de politique IAM suivant accorde le minimum de privilèges requis à votre rôle de machine d'état pour exécuter l'état de carte distribuée.

Note

Assurez-vous de stateMachineName remplacer par le nom de la machine à états dans laquelle vous utilisez l'état Distributed Map. Par exemple, arn:aws:states:us-east-2:123456789012:stateMachine:mystateMachine.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "states:StartExecution" ], "Resource": [ "arn:aws:states:region:accountID:stateMachine:stateMachineName" ] }, { "Effect": "Allow", "Action": [ "states:DescribeExecution", "states:StopExecution" ], "Resource": "arn:aws:states:region:accountID:execution:stateMachineName:*" } ] }

En outre, vous devez vous assurer que vous disposez du minimum de privilèges nécessaires pour accéder aux AWS ressources utilisées dans l'état de la carte distribuée, telles que les buckets Amazon S3. Pour plus d’informations, consultez Politiques IAM pour l'utilisation de l'état de la carte distribuée.

Champs d'état de la carte distribuée

Pour utiliser l'état de la carte distribuée dans vos flux de travail, spécifiez un ou plusieurs de ces champs. Vous spécifiez ces champs en plus des champs d'état courants.

Type (Obligatoire)

Définit le type d'état, tel queMap.

ItemProcessor (Obligatoire)

Contient les objets JSON suivants qui spécifient le mode et la définition de traitement de Map l'état.

  • ProcessorConfig— Objet JSON qui spécifie la configuration de l'Mapétat. Cet objet contient les sous-champs suivants :

    • Mode— Paramétré DISTRIBUTED pour utiliser l'Mapétat en mode distribué.

      Note

      Actuellement, si vous utilisez l'Mapétat dans les flux de travail Express, vous ne pouvez pas le Mode définir surDISTRIBUTED. Toutefois, si vous utilisez l'Mapétat dans les flux de travail standard, vous pouvez Mode définir le surDISTRIBUTED.

    • ExecutionType— Spécifie le type d'exécution du flux de travail cartographique : STANDARD ou EXPRESS. Vous devez fournir ce champ si vous l'avez spécifié DISTRIBUTED pour le Mode sous-champ. Pour plus d'informations sur les types de flux de travail, consultezFlux de travail standard ou express.

  • StartAt— Spécifie une chaîne qui indique le premier état d'un flux de travail. Cette chaîne distingue les majuscules et minuscules et doit correspondre au nom de l'un des objets d'état. Cet état s'exécute d'abord pour chaque élément de l'ensemble de données. Toute entrée d'exécution que vous fournissez à l'Mapétat passe d'abord à l'StartAtétat.

  • States— Objet JSON contenant un ensemble d'états séparés par des virgules. Dans cet objet, vous définissez leMap workflow.

ItemReader

Spécifie un ensemble de données et son emplacement. L'MapÉtat reçoit ses données d'entrée de l'ensemble de données spécifié.

En mode distribué, vous pouvez utiliser soit une charge utile JSON transmise depuis un état précédent, soit une source de données Amazon S3 à grande échelle comme ensemble de données. Pour plus d’informations, consultez ItemReader.

ItemsPath (facultatif)

Spécifie un chemin de référence en utilisant la JsonPathsyntaxe pour sélectionner le nœud JSON qui contient un tableau d'éléments dans l'entrée d'état.

En mode distribué, vous ne spécifiez ce champ que lorsque vous utilisez un tableau JSON d'une étape précédente comme entrée d'état. Pour plus d’informations, consultez ItemsPath.

ItemSelector (facultatif)

Remplace les valeurs des éléments individuels de l'ensemble de données avant qu'elles ne soient transmises à chaque itération Map d'état.

Dans ce champ, vous spécifiez une entrée JSON valide contenant une collection de paires clé-valeur. Ces paires peuvent être soit des valeurs statiques que vous définissez dans la définition de votre machine à états, soit des valeurs sélectionnées à partir de l'entrée d'état à l'aide d'un chemin, soit des valeurs accessibles depuis l'objet de contexte. Pour plus d’informations, consultez ItemSelector.

ItemBatcher (facultatif)

Spécifie de traiter les éléments de l'ensemble de données par lots. Chaque exécution du flux de travail enfant reçoit ensuite un lot de ces éléments en entrée. Pour plus d’informations, consultez ItemBatcher.

MaxConcurrency (facultatif)

Spécifie le nombre d'exécutions de flux de travail enfants qui peuvent être exécutées en parallèle. L'interpréteur n'autorise que le nombre spécifié d'exécutions parallèles de flux de travail enfants. Si vous ne spécifiez pas de valeur de simultanéité ou si vous la définissez sur zéro, Step Functions ne limite pas la simultanéité et exécute 10 000 exécutions parallèles de flux de travail enfants.

Note

Bien que vous puissiez spécifier une limite de simultanéité plus élevée pour les exécutions de flux de travail secondaires parallèles, nous vous recommandons de ne pas dépasser la capacité d'un AWS service en aval, tel que AWS Lambda.

MaxConcurrencyPath (facultatif)

Si vous souhaitez fournir une valeur de simultanéité maximale de manière dynamique à partir de l'entrée d'état à l'aide d'un chemin de référence, utilisezMaxConcurrencyPath. Une fois résolu, le chemin de référence doit sélectionner un champ dont la valeur est un entier non négatif.

Note

Un Map état ne peut pas inclure à la fois MaxConcurrency etMaxConcurrencyPath.

ToleratedFailurePercentage (facultatif)

Définit le pourcentage d'objets ayant échoué à tolérer lors d'une exécution cartographique. Le Map Run échoue automatiquement s'il dépasse ce pourcentage. Step Functions calcule le pourcentage d'éléments ayant échoué en divisant le nombre total d'éléments défaillants ou ayant dépassé le délai imparti par le nombre total d'éléments. Vous devez spécifier une valeur comprise entre zéro et 100. Pour plus d’informations, consultez Seuil de défaillance toléré pour l'état de la carte distribuée.

ToleratedFailurePercentagePath (facultatif)

Si vous souhaitez fournir une valeur de pourcentage de défaillance tolérée de manière dynamique à partir de l'entrée d'état en utilisant un chemin de référence, utilisezToleratedFailurePercentagePath. Une fois résolu, le chemin de référence doit sélectionner un champ dont la valeur est comprise entre zéro et 100.

ToleratedFailureCount (facultatif)

Définit le nombre d'objets ayant échoué à tolérer lors d'une exécution de carte. Le Map Run échoue automatiquement s'il dépasse ce nombre. Pour plus d’informations, consultez Seuil de défaillance toléré pour l'état de la carte distribuée.

ToleratedFailureCountPath (facultatif)

Si vous souhaitez fournir une valeur de nombre de défaillances tolérées de manière dynamique à partir de l'entrée d'état en utilisant un chemin de référence, utilisezToleratedFailureCountPath. Une fois résolu, le chemin de référence doit sélectionner un champ dont la valeur est un entier non négatif.

Label (facultatif)

Chaîne qui identifie un Map état de manière unique. Pour chaque Map Run, Step Functions ajoute l'étiquette à l'ARN Map Run. Voici un exemple d'ARN Map Run avec une étiquette personnalisée nommée demoLabel :

arn:aws:states:us-east-1:123456789012:mapRun:demoWorkflow/demoLabel:3c39a231-69bb-3d89-8607-9e124eddbb0b

Si vous ne spécifiez aucune étiquette, Step Functions génère automatiquement une étiquette unique.

Note

Les étiquettes ne peuvent pas dépasser 40 caractères, doivent être uniques au sein d'une définition de machine à états et ne peuvent contenir aucun des caractères suivants :

  • Personnages Whitespace

  • Caractères génériques () ? *

  • Caractères entre crochets (< > { } [ ])

  • Caractères spéciaux (: ; , \ | ^ ~ $ # % & ` ")

  • Caractères de contrôle (\\u0000- \\u001f ou \\u007f -\\u009f).

Step Functions vous permet de créer des noms pour les machines d'état, les exécutions, les activités et les étiquettes contenant des caractères non ASCII. Ces noms non ASCII ne fonctionnent pas avec Amazon. CloudWatch Pour être sûr de pouvoir suivre CloudWatch les métriques, choisissez un nom qui utilise uniquement des caractères ASCII.

ResultWriter (facultatif)

Spécifie l'emplacement Amazon S3 où Step Functions écrit tous les résultats d'exécution du flux de travail enfant.

Step Functions consolide toutes les données d'exécution du flux de travail enfant, telles que les entrées et sorties d'exécution, l'ARN et le statut d'exécution. Il exporte ensuite les exécutions avec le même statut vers leurs fichiers respectifs à l'emplacement Amazon S3 spécifié. Pour plus d’informations, consultez ResultWriter.

Si vous n'exportez pas les résultats de Map l'état, il renvoie un tableau de tous les résultats d'exécution du flux de travail enfant. Par exemple :

[1, 2, 3, 4, 5]
ResultPath (facultatif)

Spécifie l'endroit de l'entrée où placer la sortie des itérations. L'entrée est ensuite filtrée comme spécifié par le OutputPathchamp s'il est présent, avant d'être transmise comme sortie de l'état. Pour plus d'informations, consultez Traitement des entrées et des sorties.

ResultSelector (facultatif)

Transmettez une collection de paires clé-valeur, dont les valeurs sont statiques ou sélectionnées à partir du résultat. Pour plus d’informations, consultez ResultSelector.

Astuce

Si l'état Parallel ou Map que vous utilisez dans vos machines d'état renvoie un tableau de tableaux, vous pouvez les transformer en tableau plat avec le ResultSelector champ. Pour plus d’informations, consultez Aplatir un tableau de tableaux.

Retry (facultatif)

Tableau d'objets, appelés Retriers, qui définit une politique de nouvelle tentative. Une exécution utilise la politique de nouvelle tentative si l'état rencontre des erreurs d'exécution. Pour plus d’informations, consultez Exemples de machines à états utilisant Retry et Catch.

Note

Si vous définissez des récupérateurs pour l'état de la carte distribuée, la politique de nouvelles tentatives s'applique à toutes les exécutions de flux de travail enfants lancées par l'Mapétat. Par exemple, imaginez que votre Map État a lancé trois exécutions de flux de travail secondaires, dont une échoue. Lorsque l'échec se produit, l'exécution utilise le Retry champ, s'il est défini, pour l'Mapétat. La politique de nouvelle tentative s'applique à toutes les exécutions de flux de travail secondaires et pas seulement à celles qui ont échoué. Si une ou plusieurs exécutions de flux de travail enfants échouent, le Map Run échoue.

Lorsque vous réessayez un Map état, il crée un nouveau Map Run.

Catch (facultatif)

Tableau d'objets, nommés Receveurs, qui définissent un état de secours. Step Functions utilise les Catchers définis dans Catch si l'état rencontre des erreurs d'exécution. Lorsqu'une erreur se produit, l'exécution utilise d'abord les récupérateurs définis dansRetry. Si la politique de nouvelle tentative n'est pas définie ou est épuisée, l'exécution utilise ses Catchers, s'ils sont définis. Pour plus d'informations, consultez États de secours.

Étapes suivantes

Pour en savoir plus sur l'état des cartes distribuées, consultez les ressources suivantes :