Service géré pour Apache Flink : comment ça marche - Service géré pour Apache Flink

Le service géré Amazon pour Apache Flink était auparavant connu sous le nom d’Amazon Kinesis Data Analytics pour Apache Flink.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Service géré pour Apache Flink : comment ça marche

Le service géré pour Apache Flink est un service Amazon entièrement géré qui vous permet d'utiliser une application Apache Flink pour traiter des données de streaming. Vous programmez d'abord votre application Apache Flink, puis vous créez votre application Managed Service for Apache Flink.

Programmez votre application Apache Flink

Une application Apache Flink est une application Java ou Scala créée avec l’environnement Apache Flink. Vous créez votre application Apache Flink localement.

Les applications utilisent principalement le DataStream APIou le tableau API. Les autres Apache Flink APIs sont également disponibles, mais ils sont moins couramment utilisés pour créer des applications de streaming.

Les caractéristiques des deux APIs sont les suivantes :

DataStream API

Le modèle de DataStream API programmation Apache Flink repose sur deux composants :

  • Flux de données : représentation structurée d’un flux continu d’enregistrements de données.

  • Opérateur de transformation : prend un ou plusieurs flux de données en entrée et produit un ou plusieurs flux de données en sortie.

Les applications créées à l'aide de DataStream API ce qui suit sont les suivantes :

  • Lisez les données d'une source de données (telle qu'un flux Kinesis ou une MSK rubrique Amazon).

  • Appliquer des transformations aux données, telles que le filtrage, l’agrégation ou l’enrichissement.

  • Écrire les données transformées dans un récepteur de données.

Les applications qui utilisent le DataStream API peuvent être écrites en Java ou en Scala, et peuvent être lues à partir d'un flux de données Kinesis, d'une rubrique MSK Amazon ou d'une source personnalisée.

Votre application traite les données à l’aide d’un connecteur. Apache Flink utilise les types de connecteurs suivants :

  • Source : connecteur utilisé pour lire des données externes.

  • Récepteur : connecteur utilisé pour écrire sur des emplacements externes.

  • Opérateur : connecteur utilisé pour traiter les données au sein de l’application.

Une application classique comprend au moins un flux de données avec une source, un flux de données avec un ou plusieurs opérateurs et au moins un récepteur de données.

Pour plus d'informations sur l'utilisation du DataStream API, consultezPasser en revue DataStream API les composants.

Tableau API

Le modèle de API programmation d'Apache Flink Table repose sur les composants suivants :

  • Environnement de table : interface permettant d’accéder aux données sous-jacentes que vous utilisez pour créer et héberger une ou plusieurs tables.

  • Tableau : objet permettant d'accéder à un SQL tableau ou à une vue.

  • Source de table : utilisée pour lire des données provenant d'une source externe, telle qu'une MSK rubrique Amazon.

  • Fonction de table : SQL requête ou API appel utilisé pour transformer des données.

  • Récepteur de table : utilisé pour écrire des données dans un emplacement externe, tel qu’un compartiment Amazon S3.

Les applications créées à l'aide de la table API effectuent les opérations suivantes :

  • Créer un TableEnvironment en vous connectant à une Table Source.

  • Créez une table à l'TableEnvironmentaide de SQL requêtes ou de API fonctions de table.

  • Exécutez une requête sur la table à l'aide de Table API ou SQL

  • Appliquez des transformations aux résultats de la requête à l'aide de fonctions de table ou de SQL requêtes.

  • Écrire les résultats de la requête ou de la fonction dans un Table Sink.

Les applications qui utilisent la table API peuvent être écrites en Java ou en Scala et peuvent interroger des données à l'aide d'APIappels ou de SQL requêtes.

Pour plus d'informations sur l'utilisation du tableauAPI, consultezPasser en revue les API composants du tableau.

Créez votre service géré pour l'application Apache Flink

Le service géré pour Apache Flink est un AWS service qui crée un environnement pour héberger votre application Apache Flink et lui fournit les paramètres suivants :

Vous pouvez créer votre application de service géré pour Apache Flink à l’aide de la console ou de l’interface AWS CLI. Pour commencer à créer une application de service géré pour Apache Flink, consultez Tutoriel : Commencez à utiliser le DataStream API service géré pour Apache Flink.