Utilisation d'une source de données en streaming

Vous pouvez créer des tâches d'extraction, de transformation et de chargement en streaming (ETL) qui s'exécutent continu et consomment des données provenant de sources en streaming dans Amazon Kinesis Data Streams, Apache Kafka et Amazon Managed Streaming for Apache Kafka (Amazon MSK).

Pour configurer les propriétés d'une source de données en streaming

Accédez à l'éditeur de graphes visuels pour une tâche nouvelle ou sauvegardée.
Choisissez un nœud de source de données dans le graphe pour Kafka ou Kinesis Data Streams.
Choisissez l'onglet Data source properties (Propriétés de source de données), puis saisissez les informations suivantes :
Kinesis
Kinesis source type (Type de source Kinesis) : Choisissez l'option Stream details (Détails du flux) pour utiliser un accès direct à la source de streaming ou choisissez Data catalog table (Table du catalogue de données) pour utiliser les informations qui y sont stockées.

Si vous choisissez Stream details (Détails du flux), spécifiez les informations supplémentaires suivantes.

Emplacement du flux de données : choisissez si le flux est associé à l'utilisateur actuel ou à un autre utilisateur.

Région : Choisissez l' Région AWS endroit où se trouve le flux. Ces informations sont utilisées pour construire l'ARN permettant d'accéder au flux de données.

Stream ARN : entrez l'Amazon Resource Name (ARN) pour le flux de données Kinesis. Si le flux est situé dans le compte courant, vous pouvez choisir le nom du flux dans la liste déroulante. Vous pouvez utiliser le champ de recherche pour rechercher un flux de données par son nom ou son ARN.

Data format (Format de données) : choisissez dans la liste le format utilisé par le flux de données.

AWS Glue détecte automatiquement le schéma à partir des données en streaming.

Si vous choisissez Data Catalog table (Table Catalogue de données), spécifiez les informations supplémentaires suivantes.

Database (Base de données) : (facultatif) dans le catalogue de données AWS Glue, choisissez la base de données qui contient la table associée à votre source de données en streaming. Vous pouvez utiliser le champ de recherche pour rechercher une base de données par son nom.

Table : (facultatif) choisissez la table associée aux données source depuis la liste. Cette table doit déjà exister dans le catalogue de données.AWS Glue. Vous pouvez utiliser le champ de recherche pour rechercher une table par son nom.

Detect schema (Détection de schéma) : choisissez cette option pour que AWS Glue détecte le schéma à partir des données en streaming, plutôt que d'utiliser les informations de schéma dans une table de catalogue de données. Cette option est activée automatiquement si vous choisissez l'option Stream details (Détails du flux).

Starting position (Position de départ) : Par défaut, la tâche ETL utilise l'option Earliest, ce qui signifie qu'elle lit les données en commençant par le plus ancien enregistrement disponible dans le flux. Vous pouvez plutôt choisir Dernière, qui indique que la tâche ETL doit commencer à lire juste après l'enregistrement le plus récent du flux.

Window size (Dimension de la fenêtre temporelle) : Par défaut, votre tâche ETL traite et écrit les données dans des fenêtres de 100 secondes. Cela permet de traiter les données de manière eﬃcace et d'effectuer des agrégations sur les données qui arrivent plus tard que prévu. Vous pouvez modifier la taille de cette fenêtre temporelle pour augmenter la ponctualité ou la précision de l'agrégation.

AWS Glue les tâches de streaming utilisent des points de contrôle plutôt que des signets de tâches pour suivre les données lues.

Connection options (Options de connexion) : développez cette section pour ajouter des paires clé-valeur permettant de spécifier des options de connexion supplémentaires. Pour de plus amples informations sur les options que vous pouvez spécifier ici, veuillez consulter les rubriques « connectionType » : « kinesis » dans le Guide du développeur AWS Glue .
Kafka
Apache Kafka source (Source Apache Kafka) : choisissez l'option Stream details (Détails du flux) pour utiliser l'accès direct à la source en streaming ou choisir Data Catalog table (Table du catalogue de données) pour utiliser les informations qui y sont stockées.

Si vous choisissez Data Catalog table (Table Catalogue de données), spécifiez les informations supplémentaires suivantes.

Database (Base de données) : (facultatif) dans le catalogue de données AWS Glue, choisissez la base de données qui contient la table associée à votre source de données en streaming. Vous pouvez utiliser le champ de recherche pour rechercher une base de données par son nom.

Table : (facultatif) choisissez la table associée aux données source depuis la liste. Cette table doit déjà exister dans le catalogue de données.AWS Glue. Vous pouvez utiliser le champ de recherche pour rechercher une table par son nom.

Detect schema (Détection de schéma) : choisissez cette option pour que AWS Glue détecte le schéma à partir des données en streaming, plutôt que de stocker les informations de schéma dans une table de catalogue de données. Cette option est activée automatiquement si vous choisissez l'option Stream details (Détails du flux).

Si vous choisissez Stream details (Détails du flux), spécifiez les informations supplémentaires suivantes.

Connection name (Nom de la connexion) : choisissez le AWS Glue qui contient les informations d'accès et d'authentification pour le flux de données Kafka. Vous devez utiliser une connexion avec les sources de données en streaming Kafka. Si aucune connexion n'existe, vous pouvez utiliser la console AWS Glue pour créer une connexion pour votre flux de données Kafka.

Topic name (Nom de la rubrique) : entrez le nom de la rubrique à lire.

Data format (Format de données) : choisissez le format à utiliser lors de la lecture de données à partir du flux d'événements Kafka.

Starting position (Position de départ) : Par défaut, la tâche ETL utilise la commande Earliest (Au plus tôt), ce qui signifie qu'elle lit les données commençant par le plus ancien registre disponible dans le flux. Vous pouvez plutôt choisir Dernière, qui indique que la tâche ETL doit commencer à lire juste après l'enregistrement le plus récent du flux.

Window size (Dimension de la fenêtre temporelle) : Par défaut, votre tâche ETL traite et écrit les données dans des fenêtres de 100 secondes. Cela permet de traiter les données de manière eﬃcace et d'effectuer des agrégations sur les données qui arrivent plus tard que prévu. Vous pouvez modifier la taille de cette fenêtre temporelle pour augmenter la ponctualité ou la précision de l'agrégation.

AWS Glue Les tâches en streaming utilisent des points de contrôle plutôt que des signets de tâche pour effectuer le suivit des données lues.

Connection options (Options de connexion) : développez cette section pour ajouter des paires clé-valeur permettant de spécifier des options de connexion supplémentaires. Pour de plus amples informations sur les options que vous pouvez spécifier ici, veuillez consulter les rubriques « connectionType » : « kafka » dans le Guide du développeur AWS Glue .

Note

Les prévisualisations de données ne sont actuellement pas prises en charge pour les sources de données en streaming.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisation de fichiers dans Amazon S3 pour la source de données

Références