Utilisation de la fonction de découverte de schéma sur des données de diffusion - Guide du développeur d'Amazon Kinesis Data Analytics SQL pour applications

Après mûre réflexion, nous avons décidé de mettre fin à Amazon Kinesis Data Analytics SQL pour les applications en deux étapes :

1. À compter du 15 octobre 2025, vous ne pourrez plus créer de nouveaux Kinesis Data Analytics SQL pour les applications.

2. Nous supprimerons vos candidatures à compter du 27 janvier 2026. Vous ne serez pas en mesure de démarrer ou d'utiliser votre Amazon Kinesis Data Analytics SQL pour les applications. Support ne sera plus disponible pour Amazon Kinesis Data Analytics à partir SQL de cette date. Pour de plus amples informations, veuillez consulter Arrêt d'Amazon Kinesis Data Analytics SQL pour applications.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de la fonction de découverte de schéma sur des données de diffusion

Note

Après le 12 septembre 2023, vous ne pourrez plus créer de nouvelles applications en utilisant Kinesis Data Firehose comme source si vous n’utilisez pas déjà Kinesis Data Analytics pour SQL. Pour plus d’informations, consultez Limites .

Fournir un schéma d'entrée qui décrit la façon dont les enregistrements de l'entrée de diffusion sont mappés à un flux intégré à l'application peut s'avérer fastidieux et source d'erreurs. Vous pouvez utiliser l'API DiscoverInputSchema (appelée API de découverte) pour déduire un schéma. En utilisant des échantillons aléatoires d'enregistrements de la source de diffusion, l'API peut déduire un schéma (autrement dit, les noms de colonnes, les types de données et la position de l'élément de données dans les données entrantes).

Note

Pour utiliser l’API de découverte pour générer un schéma à partir d’un fichier stocké dans Amazon S3, consultez Utilisation de la fonction de découverte de schéma sur des données statiques.

La console utilise l'API de découverte pour générer un schéma pour une source de streaming spécifiée. A l'aide de la console, vous pouvez également mettre le schéma à jour, y compris ajouter, supprimer ou renommer des colonnes et modifier des types de données. Cependant, apportez les modifications avec soin pour veiller à ne pas créer un schéma non valide.

Une fois que vous avez finalisé le schéma de votre flux intégré à l'application, vous pouvez modifier des valeurs de chaîne et de date/heure. Vous pouvez utiliser ces fonctions dans votre code d'application lorsque vous utilisez des lignes dans le flux intégré à l'application qui en résulte. Pour de plus amples informations, veuillez consulter Exemple : transformation DateTime des valeurs.

Attribution de noms de colonnes pendant la découverte de schéma

Pendant la découverte de schéma, Amazon Kinesis Data Analytics tente de conserver autant que possible le nom d’origine de la colonne de la source d’entrée de streaming, sauf dans les cas suivants :

  • Le nom de la colonne du flux source est un mot réservé SQL, par exemple TIMESTAMP, USER, VALUES ou YEAR.

  • Le nom de la colonne du flux source contient des caractères non pris en charge. Seuls les lettres, les chiffres et les caractères de soulignement (_) sont pris en charge.

  • Le nom de la colonne du flux source commence par un chiffre.

  • Le nom de la colonne du flux source comporte plus de 100 caractères.

Si une colonne est renommée, son nouveau nom commence par COL_. Dans certains cas, aucun nom de colonne d’origine ne peut être conservé, par exemple si le nom complet est composé de caractères non pris en charge. Dans ce cas, la colonne est nommée COL_#, # correspondant au chiffre de l'emplacement de la colonne dans l'ordre des colonnes.

Une fois la découverte terminée, vous pouvez mettre le schéma à jour à l'aide de la console en ajoutant, supprimant ou renommant des colonnes ou en modifiant les types ou la taille des données.

Exemples de noms de colonnes suggérés lors de la découverte

Nom de la colonne dans le flux source Nom de colonne suggéré lors de la découverte

USER

COL_USER

USER@DOMAIN

COL_USERDOMAIN

@@

COL_0

Problèmes liés à la découverte d'un schéma

Que se passe-t-il si Kinesis Data Analytics ne déduit pas un schéma pour une source de streaming donnée ?

Kinesis Data Analytics déduit votre schéma pour les formats courants, tels que CSV et JSON, qui sont codés en UTF-8. Kinesis Data Analytics prend en charge tous les enregistrements codés en UTF-8 (y compris le texte brut, comme des journaux d’applications, et des enregistrements) avec un délimiteur de ligne et de colonne personnalisé. Si Kinesis Data Analytics ne déduit pas un schéma, vous pouvez définir un schéma manuellement à l’aide de l’éditeur de schéma dans la console (ou à l’aide de l’API).

Si vous vos données ne suivent pas un modèle (que vous pouvez spécifier à l'aide de l'éditeur de schéma), vous pouvez définir un schéma en tant que colonne unique de type VARCHAR(N), où N est le plus grand nombre de caractères que vous prévoyez que votre enregistrement puisse inclure. A partir de là, vous pouvez utiliser une manipulation de chaîne et de date/heure pour structurer vos données une fois que celles-ci sont dans un flux intégré à l'application. Pour obtenir des exemples, consultez Exemple : transformation DateTime des valeurs.