Opérateurs liés aux E/S - Service géré pour Apache Flink

Le service géré Amazon pour Apache Flink était auparavant connu sous le nom d’Amazon Kinesis Data Analytics pour Apache Flink.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Opérateurs liés aux E/S

Il est préférable d’éviter toute dépendance à des systèmes externes sur le chemin des données. Il est souvent beaucoup plus performant de conserver un ensemble de données de référence dans son état plutôt que de faire appel à un système externe pour enrichir des événements individuels. Cependant, certaines dépendances ne peuvent pas être facilement déplacées vers un état, par exemple si vous souhaitez enrichir les événements avec un modèle de machine learning hébergé sur Amazon Sagemaker.

Les opérateurs qui s’interfacent avec des systèmes externes via le réseau peuvent devenir un goulot d’étranglement et provoquer une contre-pression. Il est fortement recommandé d’utiliser AsyncIO pour implémenter la fonctionnalité, afin de réduire le temps d’attente pour les appels individuels et d’éviter le ralentissement de l’ensemble de l’application.

En outre, pour les applications avec des opérateurs liés aux E/S, il peut également être judicieux d'augmenter le paramètre ParallelismPerKPU de l'application Managed Service for Apache Flink. Cette configuration décrit le nombre de sous-tâches parallèles qu’une application peut effectuer par unité de traitement Kinesis (KPU). En augmentant la valeur par défaut de 1 à 4, par exemple, l’application utilise les mêmes ressources (et a le même coût) mais peut augmenter le parallélisme jusqu’à 4 fois. Cela fonctionne bien pour les applications liées aux E/S, mais entraîne une surcharge supplémentaire pour les applications qui ne sont pas liées aux E/S.