Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation de l'état de la carte en mode distribué pour orchestrer des charges de travail parallèles à grande échelle
Avec Step Functions, vous pouvez orchestrer des charges de travail parallèles à grande échelle pour effectuer des tâches telles que le traitement à la demande de données semi-structurées. Ces charges de travail parallèles vous permettent de traiter simultanément des sources de données à grande échelle stockées dans Amazon S3. Par exemple, vous pouvez traiter un seul fichier JSON ou CSV contenant de grandes quantités de données. Vous pouvez également traiter un grand nombre d'objets Amazon S3.
Pour configurer une charge de travail parallèle à grande échelle dans vos flux de travail, incluez un Map
état en mode distribué. L'état de la carte traite les éléments d'un jeu de données simultanément. Un Map
état défini sur Distribué est appelé état de carte distribuée. En mode distribué, l'Map
état autorise un traitement simultané élevé. En mode distribué, l'Map
État traite les éléments de l'ensemble de données par itérations appelées exécutions de flux de travail secondaires. Vous pouvez spécifier le nombre d'exécutions de flux de travail enfants qui peuvent être exécutées en parallèle. Chaque exécution de flux de travail enfant possède son propre historique d'exécution distinct de celui du flux de travail parent. Si vous ne le spécifiez pas, Step Functions exécute 10 000 workflows enfants parallèles en parallèle.
L'illustration suivante explique comment configurer des charges de travail parallèles à grande échelle dans vos flux de travail.
![Schéma illustrant le concept d'orchestration de charges de travail parallèles à grande échelle.](images/autobahn-concept.png)
Dans cette rubrique
Termes clés
- Mode distribué
-
Mode de traitement de l'état de la carte. Dans ce mode, chaque itération de l'
Map
état s'exécute comme une exécution de flux de travail secondaire qui permet une simultanéité élevée. Chaque exécution de flux de travail enfant possède son propre historique d'exécution, distinct de l'historique d'exécution du flux de travail parent. Ce mode prend en charge la lecture des entrées provenant de sources de données Amazon S3 à grande échelle. - État de la carte distribuée
-
État de la carte défini sur Mode de traitement distribué.
- Flux de travail cartographique
Ensemble d'étapes exécutées par un
Map
État.- Flux de travail parent
-
Un flux de travail qui contient un ou plusieurs états de cartes distribuées.
- Exécution d'un flux de travail
-
Une itération de l'état de la carte distribuée. L'exécution d'un flux de travail enfant possède son propre historique d'exécution, distinct de l'historique d'exécution du flux de travail parent.
- Map Run
-
Lorsque vous exécutez un
Map
état en mode distribué, Step Functions crée une ressource Map Run. Une exécution de carte fait référence à un ensemble d'exécutions de flux de travail enfants lancées par un état de carte distribuée, ainsi qu'aux paramètres d'exécution qui contrôlent ces exécutions. Step Functions attribue un Amazon Resource Name (ARN) à votre Map Run. Vous pouvez examiner un Map Run dans la console Step Functions. Vous pouvez également invoquer l'action d'DescribeMapRun
API. Un Map Run envoie également des métriques à. CloudWatchPour plus d’informations, consultez Examen de Map Run.
Exemple de définition de l'état d'une carte distribuée
Utilisez l'Map
état en mode distribué lorsque vous devez orchestrer des charges de travail parallèles à grande échelle répondant à une combinaison des conditions suivantes :
La taille de votre jeu de données dépasse 256 Ko.
L'historique des événements d'exécution du flux de travail dépasse 25 000 entrées.
Vous avez besoin d'une simultanéité de plus de 40 itérations parallèles.
L'exemple de définition d'état de carte distribuée suivant spécifie l'ensemble de données sous la forme d'un fichier CSV stocké dans un compartiment Amazon S3. Elle spécifie également une fonction Lambda qui traite les données de chaque ligne du fichier CSV. Comme cet exemple utilise un fichier CSV, il indique également l'emplacement des en-têtes de colonne CSV. Pour voir la définition complète de la machine à états de cet exemple, consultez le didacticiel Copier des données CSV à grande échelle à l'aide d'une carte distribuée.
{
"Map": {
"Type": "Map",
"ItemReader": {
"ReaderConfig": {
"InputType": "CSV",
"CSVHeaderLocation": "FIRST_ROW"
},
"Resource": "arn:aws:states:::s3:getObject",
"Parameters": {
"Bucket": "Database
",
"Key": "csv-dataset/ratings.csv
"
}
},
"ItemProcessor": {
"ProcessorConfig": {
"Mode": "DISTRIBUTED",
"ExecutionType": "EXPRESS
"
},
"StartAt": "LambdaTask",
"States": {
"LambdaTask": {
"Type": "Task",
"Resource": "arn:aws:states:::lambda:invoke",
"OutputPath": "$.Payload",
"Parameters": {
"Payload.$": "$",
"FunctionName": "arn:aws:lambda:us-east-2:123456789012:function:processCSVData
"
},
"End": true
}
}
},
"Label": "Map",
"End": true,
"ResultWriter": {
"Resource": "arn:aws:states:::s3:putObject",
"Parameters": {
"Bucket": "myOutputBucket
",
"Prefix": "csvProcessJobs
"
}
}
}
}
Autorisations pour exécuter une carte distribuée
Lorsque vous incluez un état de carte distribuée dans vos flux de travail, Step Functions a besoin des autorisations appropriées pour permettre au rôle de machine à états d'invoquer l'action d'StartExecution
API pour l'état de carte distribuée.
L'exemple de politique IAM suivant accorde le minimum de privilèges requis à votre rôle de machine d'état pour exécuter l'état de carte distribuée.
Note
Assurez-vous de
remplacer par le nom de la machine à états dans laquelle vous utilisez l'état Distributed Map. Par exemple, stateMachineName
arn:aws:states:
.us-east-2
:123456789012
:stateMachine:mystateMachine
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "states:StartExecution" ], "Resource": [ "arn:aws:states:
region
:accountID
:stateMachine:stateMachineName
" ] }, { "Effect": "Allow", "Action": [ "states:DescribeExecution", "states:StopExecution" ], "Resource": "arn:aws:states:region
:accountID
:execution:stateMachineName
:*" } ] }
En outre, vous devez vous assurer que vous disposez du minimum de privilèges nécessaires pour accéder aux AWS ressources utilisées dans l'état de la carte distribuée, telles que les buckets Amazon S3. Pour plus d’informations, consultez Politiques IAM pour l'utilisation de l'état de la carte distribuée.
Champs d'état de la carte distribuée
Pour utiliser l'état de la carte distribuée dans vos flux de travail, spécifiez un ou plusieurs de ces champs. Vous spécifiez ces champs en plus des champs d'état courants.
Type
(Obligatoire)-
Définit le type d'état, tel que
Map
. ItemProcessor
(Obligatoire)-
Contient les objets JSON suivants qui spécifient le mode et la définition de traitement de
Map
l'état.-
ProcessorConfig
— Objet JSON qui spécifie la configuration de l'Map
état. Cet objet contient les sous-champs suivants :Mode
— ParamétréDISTRIBUTED
pour utiliser l'Map
état en mode distribué.Note
Actuellement, si vous utilisez l'
Map
état dans les flux de travail Express, vous ne pouvez pas leMode
définir surDISTRIBUTED
. Toutefois, si vous utilisez l'Map
état dans les flux de travail standard, vous pouvezMode
définir le surDISTRIBUTED
.ExecutionType
— Spécifie le type d'exécution du flux de travail cartographique : STANDARD ou EXPRESS. Vous devez fournir ce champ si vous l'avez spécifiéDISTRIBUTED
pour leMode
sous-champ. Pour plus d'informations sur les types de flux de travail, consultezFlux de travail standard ou express.
StartAt
— Spécifie une chaîne qui indique le premier état d'un flux de travail. Cette chaîne distingue les majuscules et minuscules et doit correspondre au nom de l'un des objets d'état. Cet état s'exécute d'abord pour chaque élément de l'ensemble de données. Toute entrée d'exécution que vous fournissez à l'Map
état passe d'abord à l'StartAt
état.States
— Objet JSON contenant un ensemble d'états séparés par des virgules. Dans cet objet, vous définissez leMap workflow.
-
ItemReader
-
Spécifie un ensemble de données et son emplacement. L'
Map
État reçoit ses données d'entrée de l'ensemble de données spécifié.En mode distribué, vous pouvez utiliser soit une charge utile JSON transmise depuis un état précédent, soit une source de données Amazon S3 à grande échelle comme ensemble de données. Pour plus d’informations, consultez ItemReader.
ItemsPath
(facultatif)-
Spécifie un chemin de référence en utilisant la JsonPath
syntaxe pour sélectionner le nœud JSON qui contient un tableau d'éléments dans l'entrée d'état. En mode distribué, vous ne spécifiez ce champ que lorsque vous utilisez un tableau JSON d'une étape précédente comme entrée d'état. Pour plus d’informations, consultez ItemsPath.
ItemSelector
(facultatif)-
Remplace les valeurs des éléments individuels de l'ensemble de données avant qu'elles ne soient transmises à chaque itération
Map
d'état.Dans ce champ, vous spécifiez une entrée JSON valide contenant une collection de paires clé-valeur. Ces paires peuvent être soit des valeurs statiques que vous définissez dans la définition de votre machine à états, soit des valeurs sélectionnées à partir de l'entrée d'état à l'aide d'un chemin, soit des valeurs accessibles depuis l'objet de contexte. Pour plus d’informations, consultez ItemSelector.
ItemBatcher
(facultatif)-
Spécifie de traiter les éléments de l'ensemble de données par lots. Chaque exécution du flux de travail enfant reçoit ensuite un lot de ces éléments en entrée. Pour plus d’informations, consultez ItemBatcher.
MaxConcurrency
(facultatif)-
Spécifie le nombre d'exécutions de flux de travail enfants qui peuvent être exécutées en parallèle. L'interpréteur n'autorise que le nombre spécifié d'exécutions parallèles de flux de travail enfants. Si vous ne spécifiez pas de valeur de simultanéité ou si vous la définissez sur zéro, Step Functions ne limite pas la simultanéité et exécute 10 000 exécutions parallèles de flux de travail enfants.
Note
Bien que vous puissiez spécifier une limite de simultanéité plus élevée pour les exécutions de flux de travail secondaires parallèles, nous vous recommandons de ne pas dépasser la capacité d'un AWS service en aval, tel que AWS Lambda.
MaxConcurrencyPath
(facultatif)-
Si vous souhaitez fournir une valeur de simultanéité maximale de manière dynamique à partir de l'entrée d'état à l'aide d'un chemin de référence, utilisez
MaxConcurrencyPath
. Une fois résolu, le chemin de référence doit sélectionner un champ dont la valeur est un entier non négatif.Note
Un
Map
état ne peut pas inclure à la foisMaxConcurrency
etMaxConcurrencyPath
. ToleratedFailurePercentage
(facultatif)-
Définit le pourcentage d'objets ayant échoué à tolérer lors d'une exécution cartographique. Le Map Run échoue automatiquement s'il dépasse ce pourcentage. Step Functions calcule le pourcentage d'éléments ayant échoué en divisant le nombre total d'éléments défaillants ou ayant dépassé le délai imparti par le nombre total d'éléments. Vous devez spécifier une valeur comprise entre zéro et 100. Pour plus d’informations, consultez Seuil de défaillance toléré pour l'état de la carte distribuée.
ToleratedFailurePercentagePath
(facultatif)-
Si vous souhaitez fournir une valeur de pourcentage de défaillance tolérée de manière dynamique à partir de l'entrée d'état en utilisant un chemin de référence, utilisez
ToleratedFailurePercentagePath
. Une fois résolu, le chemin de référence doit sélectionner un champ dont la valeur est comprise entre zéro et 100. ToleratedFailureCount
(facultatif)-
Définit le nombre d'objets ayant échoué à tolérer lors d'une exécution de carte. Le Map Run échoue automatiquement s'il dépasse ce nombre. Pour plus d’informations, consultez Seuil de défaillance toléré pour l'état de la carte distribuée.
ToleratedFailureCountPath
(facultatif)-
Si vous souhaitez fournir une valeur de nombre de défaillances tolérées de manière dynamique à partir de l'entrée d'état en utilisant un chemin de référence, utilisez
ToleratedFailureCountPath
. Une fois résolu, le chemin de référence doit sélectionner un champ dont la valeur est un entier non négatif. Label
(facultatif)-
Chaîne qui identifie un
Map
état de manière unique. Pour chaque Map Run, Step Functions ajoute l'étiquette à l'ARN Map Run. Voici un exemple d'ARN Map Run avec une étiquette personnalisée nomméedemoLabel
:arn:aws:states:us-east-1:123456789012:mapRun:demoWorkflow/demoLabel:3c39a231-69bb-3d89-8607-9e124eddbb0b
Si vous ne spécifiez aucune étiquette, Step Functions génère automatiquement une étiquette unique.
Note
Les étiquettes ne peuvent pas dépasser 40 caractères, doivent être uniques au sein d'une définition de machine à états et ne peuvent contenir aucun des caractères suivants :
-
Personnages Whitespace
-
Caractères génériques ()
? *
-
Caractères entre crochets (
< > { } [ ]
) -
Caractères spéciaux (
: ; , \ | ^ ~ $ # % & ` "
) -
Caractères de contrôle (
\\u0000
-\\u001f
ou\\u007f
-\\u009f
).
Step Functions vous permet de créer des noms pour les machines d'état, les exécutions, les activités et les étiquettes contenant des caractères non ASCII. Ces noms non ASCII ne fonctionnent pas avec Amazon. CloudWatch Pour être sûr de pouvoir suivre CloudWatch les métriques, choisissez un nom qui utilise uniquement des caractères ASCII.
-
ResultWriter
(facultatif)-
Spécifie l'emplacement Amazon S3 où Step Functions écrit tous les résultats d'exécution du flux de travail enfant.
Step Functions consolide toutes les données d'exécution du flux de travail enfant, telles que les entrées et sorties d'exécution, l'ARN et le statut d'exécution. Il exporte ensuite les exécutions avec le même statut vers leurs fichiers respectifs à l'emplacement Amazon S3 spécifié. Pour plus d’informations, consultez ResultWriter.
Si vous n'exportez pas les résultats de
Map
l'état, il renvoie un tableau de tous les résultats d'exécution du flux de travail enfant. Par exemple :[1, 2, 3, 4, 5]
ResultPath
(facultatif)-
Spécifie l'endroit de l'entrée où placer la sortie des itérations. L'entrée est ensuite filtrée comme spécifié par le OutputPathchamp s'il est présent, avant d'être transmise comme sortie de l'état. Pour plus d'informations, consultez Traitement des entrées et des sorties.
ResultSelector
(facultatif)-
Transmettez une collection de paires clé-valeur, dont les valeurs sont statiques ou sélectionnées à partir du résultat. Pour plus d’informations, consultez ResultSelector.
Astuce
Si l'état Parallel ou Map que vous utilisez dans vos machines d'état renvoie un tableau de tableaux, vous pouvez les transformer en tableau plat avec le ResultSelector champ. Pour plus d’informations, consultez Aplatir un tableau de tableaux.
Retry
(facultatif)-
Tableau d'objets, appelés Retriers, qui définit une politique de nouvelle tentative. Une exécution utilise la politique de nouvelle tentative si l'état rencontre des erreurs d'exécution. Pour plus d’informations, consultez Exemples de machines à états utilisant Retry et Catch.
Note
Si vous définissez des récupérateurs pour l'état de la carte distribuée, la politique de nouvelles tentatives s'applique à toutes les exécutions de flux de travail enfants lancées par l'
Map
état. Par exemple, imaginez que votreMap
État a lancé trois exécutions de flux de travail secondaires, dont une échoue. Lorsque l'échec se produit, l'exécution utilise leRetry
champ, s'il est défini, pour l'Map
état. La politique de nouvelle tentative s'applique à toutes les exécutions de flux de travail secondaires et pas seulement à celles qui ont échoué. Si une ou plusieurs exécutions de flux de travail enfants échouent, le Map Run échoue.Lorsque vous réessayez un
Map
état, il crée un nouveau Map Run. Catch
(facultatif)-
Tableau d'objets, nommés Receveurs, qui définissent un état de secours. Step Functions utilise les Catchers définis dans
Catch
si l'état rencontre des erreurs d'exécution. Lorsqu'une erreur se produit, l'exécution utilise d'abord les récupérateurs définis dansRetry
. Si la politique de nouvelle tentative n'est pas définie ou est épuisée, l'exécution utilise ses Catchers, s'ils sont définis. Pour plus d'informations, consultez États de secours.
Étapes suivantes
Pour en savoir plus sur l'état des cartes distribuées, consultez les ressources suivantes :
-
Traitement des entrées et des sorties
Pour configurer l'entrée qu'un état de carte distribuée reçoit et la sortie qu'il génère, Step Functions fournit les champs suivants :
Outre ces champs, Step Functions vous permet également de définir un seuil d'échec toléré pour Distributed Map. Cette valeur vous permet de spécifier le nombre maximum ou le pourcentage d'éléments ayant échoué comme seuil d'échec pour une exécution cartographique. Pour plus d'informations sur la configuration du seuil de défaillance toléré, consultezSeuil de défaillance toléré pour l'état de la carte distribuée.
-
Utilisation de l'état de la carte distribuée
Reportez-vous aux didacticiels et exemples de projets suivants pour commencer à utiliser l'état des cartes distribuées.
-
Traitement d'un lot complet de données avec une fonction Lambda
-
Traitement d'éléments de données individuels à l'aide d'une fonction Lambda
-
Exemple de projet : traitement d'un fichier CSV avec une carte distribuée
-
Exemple de projet : traiter des données dans un compartiment Amazon S3 avec Distributed Map
-
Examiner l'exécution de l'état des cartes distribuées
La console Step Functions fournit une page Map Run Details, qui affiche toutes les informations relatives à l'exécution d'un état de carte distribuée. Pour plus d'informations sur la façon d'examiner les informations affichées sur cette page, consultezExamen de Map Run.