Service géré pour Apache Flink : comment ça marche - Service géré pour Apache Flink

Le service géré Amazon pour Apache Flink était auparavant connu sous le nom d’Amazon Kinesis Data Analytics pour Apache Flink.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Service géré pour Apache Flink : comment ça marche

Le service géré pour Apache Flink est un service Amazon entièrement géré qui vous permet d'utiliser une application Apache Flink pour traiter des données de streaming. Vous programmez d'abord votre application Apache Flink, puis vous créez votre application Managed Service for Apache Flink.

Programmez votre application Apache Flink

Une application Apache Flink est une application Java ou Scala créée avec l’environnement Apache Flink. Vous créez votre application Apache Flink localement.

Les applications utilisent principalement l'DataStream API ou l'API Table. Les autres Apache Flink APIs sont également disponibles, mais ils sont moins couramment utilisés pour créer des applications de streaming.

Les caractéristiques des deux APIs sont les suivantes :

DataStream API

Le modèle de programmation de DataStream l'API Apache Flink repose sur deux composants :

  • Flux de données : représentation structurée d’un flux continu d’enregistrements de données.

  • Opérateur de transformation : prend un ou plusieurs flux de données en entrée et produit un ou plusieurs flux de données en sortie.

Les applications créées à l'aide de DataStream l'API effectuent les opérations suivantes :

  • Lire les données d’une source de données (telle qu’un flux Kinesis ou une rubrique Amazon MSK).

  • Appliquer des transformations aux données, telles que le filtrage, l’agrégation ou l’enrichissement.

  • Écrire les données transformées dans un récepteur de données.

Les applications qui utilisent l' DataStream API peuvent être écrites en Java ou en Scala, et peuvent être lues à partir d'un flux de données Kinesis, d'une rubrique Amazon MSK ou d'une source personnalisée.

Votre application traite les données à l’aide d’un connecteur. Apache Flink utilise les types de connecteurs suivants :

  • Source : connecteur utilisé pour lire des données externes.

  • Récepteur : connecteur utilisé pour écrire sur des emplacements externes.

  • Opérateur : connecteur utilisé pour traiter les données au sein de l’application.

Une application classique comprend au moins un flux de données avec une source, un flux de données avec un ou plusieurs opérateurs et au moins un récepteur de données.

Pour plus d'informations sur l'utilisation de l' DataStream API, consultezVérifier les composants de DataStream l'API.

API de table

Le modèle de programmation de l’API de table Apache Flink repose sur deux composants :

  • Environnement de table : interface permettant d’accéder aux données sous-jacentes que vous utilisez pour créer et héberger une ou plusieurs tables.

  • Table : objet donnant accès à une table ou à une vue SQL.

  • Source de table : utilisée pour lire des données provenant d’une source externe, telle qu’une rubrique Amazon MSK.

  • Fonction de table : requête SQL ou appel d’API utilisé pour transformer des données.

  • Récepteur de table : utilisé pour écrire des données dans un emplacement externe, tel qu’un compartiment Amazon S3.

Les applications créées avec l’API de table effectuent les opérations suivantes :

  • Créer un TableEnvironment en vous connectant à une Table Source.

  • Créer une table dans l’TableEnvironment à l’aide de requêtes SQL ou de fonctions de l’API de table.

  • Exécuter une requête sur la table à l’aide de l’API de table ou de SQL.

  • Appliquer des transformations aux résultats de la requête à l’aide de fonctions de table ou de requêtes SQL.

  • Écrire les résultats de la requête ou de la fonction dans un Table Sink.

Les applications qui utilisent l’API de table peuvent être écrites en Java ou en Scala et peuvent interroger des données à l’aide d’appels d’API ou de requêtes SQL.

Pour plus d’informations sur l’utilisation de l’API de table, consultez Composants de l'API Review Table.

Créez votre service géré pour l'application Apache Flink

Le service géré pour Apache Flink est un AWS service qui crée un environnement pour héberger votre application Apache Flink et lui fournit les paramètres suivants :

Vous pouvez créer votre application de service géré pour Apache Flink à l’aide de la console ou de l’interface AWS CLI. Pour commencer à créer une application de service géré pour Apache Flink, consultez Tutoriel : Commencez à utiliser l' DataStream API dans Managed Service pour Apache Flink.