Qu'est-ce qu'Amazon Kinesis Data Streams ? - Amazon Kinesis Data Streams

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Qu'est-ce qu'Amazon Kinesis Data Streams ?

Vous pouvez utiliser Amazon Kinesis Data Streams pour collecter et traiter des flux volumineux d'enregistrements de données en temps réel. Vous pouvez créer des applications de traitement de données appelées applications Kinesis Data Streams. Une application Kinesis Data Streams standard lit les données à partir d'un flux de données sous forme d'enregistrements de données. Ces applications peuvent utiliser la bibliothèque cliente Kinesis et s'exécuter sur des instances AmazonEC2. Vous pouvez envoyer les enregistrements traités à des tableaux de bord, les utiliser pour générer des alertes et modifier dynamiquement les stratégies tarifaires et publicitaires, ou envoyer des données à différents autres services  AWS . Pour plus d'informations sur les fonctionnalités et les tarifs de Kinesis Data Streams, consultez la rubrique Amazon Kinesis Data Streams.

Kinesis Data Streams fait partie de la plateforme de données de streaming Kinesis, au même titre que Firehose, Kinesis Video Streams et le service géré pour Apache Flink.

Pour plus d'informations sur les solutions de AWS mégadonnées, voir Big Data sur AWS. Pour plus d'informations plus sur les solutions de données en flux continu AWS , consultez la rubrique Qu'est-ce que les données en flux continu ?.

Que puis-je faire avec Kinesis Data Streams ?

Vous pouvez utiliser Kinesis Data Streams pour la collecte et l'agrégation rapides et continues de données. Le type de données utilisé peut inclure des données de journaux d'infrastructure informatique, des journaux d'applications, des réseaux sociaux, des flux de données du marché et des données de flux de clics web. Comme le temps de réponse pour la récupération et le traitement des données est en temps réel, le traitement est généralement léger.

Les scénarios suivants sont typiques de l'utilisation de Kinesis Data Streams :

Extraction et traitement accélérés des journaux et des flux de données

Les applications producteur peuvent envoyer leurs données directement dans un flux. Par exemple, envoyez des journaux système et d'application ; ils sont alors disponibles pour le traitement en quelques secondes. Cela empêche la perte des données du journal en cas de défaillance du serveur frontal ou de l'application. Kinesis Data Streams permet l'accélération de la collecte des flux de données, car vous n'avez pas besoin de regrouper les données sur les serveurs avant de les soumettre à la collecte.

Métriques et création de rapports en temps réel

Vous pouvez utiliser les données collectées dans Kinesis Data Streams pour une analyse de données simple et une création de rapports en temps réel. Par exemple, votre application de traitement de données peut générer des métriques et des rapports à partir de journaux d'applications et d'événements système dès que les données ont été transmises, au lieu d'attendre qu'elles soient envoyées par lots de données.

Analyse des données en temps réel

Cette analyse combine la puissance du traitement parallèle avec la valeur des données en temps réel. Par exemple, traiter des flux de clics de site Web en temps réel, puis analyser la facilité d'utilisation du site à l'aide de plusieurs applications Kinesis Data Streams différentes exécutées en parallèle.

Traitement des flux complexes

Vous pouvez créer des graphes acycliques dirigés (DAGs) à partir d'applications et de flux de données Kinesis Data Streams. Cela implique généralement de placer des données issues de plusieurs applications Kinesis Data Streams dans un autre flux pour être traitées en aval par une application Kinesis Data Streams différente.

Avantages de l'utilisation de Kinesis Data Streams

Bien que vous puissiez utiliser Kinesis Data Streams pour résoudre divers problèmes liés aux données en flux continu, un usage courant est l'agrégation en temps réel des données, suivie du chargement de ces données agrégées dans un entrepôt des données ou un cluster map-reduce.

Les données sont placées dans des flux de données Kinesis, ce qui en garantit la durabilité et l'élasticité. Le délai entre le moment où un enregistrement est placé dans le flux et le moment où il peut être récupéré (put-to-get délai) est généralement inférieur à 1 seconde. En d'autres termes, une application Kinesis Data Streams peut commencer à consommer les données du flux presque immédiatement après l'ajout de ces données. L'aspect de service géré de Kinesis Data Streams vous libère de la charge opérationnelle de création et d'exécution d'un pipeline d'apport de données. Vous pouvez créer des applications de streaming de type map-reduce. L'élasticité de Kinesis Data Streamsvous permet de mettre à l'échelle le flux à la hausse ou à la baisse afin de ne jamais perdre d'enregistrements de données avant leur expiration.

Plusieurs applications Kinesis Data Streams peuvent consommer les données d'un flux afin que différentes actions comme l'archivage et le traitement soient effectuées simultanément et indépendamment. Par exemple, deux applications peuvent lire des données à partir du même flux. La première application calcule les regroupements en cours et met à jour une table Amazon DynamoDB, et la seconde application compresse les données et les archive dans un magasin de données comme Amazon Simple Storage Service (Amazon S3). La table DynamoDB contenant les agrégats en cours d'exécution est ensuite lue par un tableau de bord pour les rapports. up-to-the-minute

La Kinesis Client Library permet une consommation de données tolérante aux pannes à partir des flux et assure la prise en charge de la mise à l'échelle pour les applications Kinesis Data Streams.

Pour plus d'informations sur l'utilisation EMR des clusters Amazon pour lire et traiter directement les flux de données Kinesis, consultez Kinesis Connector.