Offres d'emploi en streaming - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Offres d'emploi en streaming

Une tâche de streaming dans EMR Serverless est un mode de travail qui vous permet d'analyser et de traiter des données de streaming en temps quasi réel. Ces tâches de longue durée interrogent les données de streaming et traitent les résultats en continu au fur et à mesure de leur arrivée. Les tâches de streaming sont particulièrement adaptées aux tâches qui nécessitent un traitement des données en temps réel, telles que les analyses en temps quasi réel, la détection des fraudes et les moteurs de recommandations. EMRLes tâches de streaming sans serveur offrent des optimisations, telles que la résilience intégrée des tâches, une surveillance en temps réel, une gestion améliorée des journaux et l'intégration avec des connecteurs de streaming.

Voici quelques exemples d'utilisation des jobs de streaming :

  • Analyses en temps quasi réel : les tâches de streaming dans Amazon EMR Serverless vous permettent de traiter les données de streaming en temps quasi réel. Vous pouvez ainsi effectuer des analyses en temps réel sur des flux de données continus, tels que des données de journal, des données de capteurs ou des données de parcours de navigation afin d'en tirer des informations et de prendre des décisions en temps opportun sur la base des informations les plus récentes.

  • Détection des fraudes : vous pouvez utiliser les tâches de streaming pour détecter les fraudes en temps quasi réel dans les transactions financières, les opérations de carte de crédit ou les activités en ligne lorsque vous analysez des flux de données et identifiez des modèles ou des anomalies suspects au fur et à mesure qu'ils se produisent.

  • Moteurs de recommandation : les tâches de streaming peuvent traiter les données d'activité des utilisateurs et mettre à jour les modèles de recommandations. Cela ouvre la voie à des recommandations personnalisées et en temps réel basées sur les comportements et les préférences.

  • Analyse des réseaux sociaux : les jobs de streaming peuvent traiter les données des réseaux sociaux, telles que les tweets, les commentaires et les publications, afin que les entreprises puissent suivre les tendances, analyser les sentiments et gérer la réputation de la marque en temps quasi réel.

  • Analyse de l'Internet des objets (IoT) : les tâches de streaming peuvent gérer et analyser des flux de données à haut débit provenant d'appareils IoT, de capteurs et de machines connectées, afin que vous puissiez exécuter la détection des anomalies, la maintenance prédictive et d'autres cas d'utilisation de l'analytique IoT.

  • Analyse du flux de clics : les tâches de streaming peuvent traiter et analyser les données du flux de clics provenant de sites Web ou d'applications mobiles. Les entreprises qui utilisent de telles données peuvent effectuer des analyses pour en savoir plus sur le comportement des utilisateurs, personnaliser les expériences utilisateur et optimiser les campagnes marketing.

  • Surveillance et analyse des journaux : les tâches de streaming peuvent également traiter les données des journaux provenant de serveurs, d'applications et de périphériques réseau. Cela vous permet de détecter les anomalies, de résoudre les problèmes, ainsi que de garantir l'état et les performances du système.

Principaux avantages

Les tâches de streaming dans EMR Serverless garantissent automatiquement la résilience des tâches, qui est une combinaison des facteurs suivants :

  • Réessai automatique — EMR Serverless réessaie automatiquement toutes les tâches qui ont échoué sans aucune intervention manuelle de votre part.

  • Résilience de la zone de disponibilité (AZ) : EMR Serverless fait automatiquement passer les tâches de streaming à une AZ saine si l'AZ d'origine rencontre des problèmes.

  • Gestion des journaux :

    • Rotation des journaux : pour une gestion plus efficace du stockage sur disque, EMR Serverless fait régulièrement pivoter les journaux pour les tâches de streaming de longue durée. Cela permet d'éviter l'accumulation de journaux qui pourrait consommer tout l'espace disque.

    • Compaction des journaux : vous aide à gérer et à optimiser efficacement les fichiers journaux dans le cadre d'une persistance gérée. Le compactage améliore également l'expérience de débogage lorsque vous utilisez le serveur d'historique Spark géré.

Sources de données et récepteurs de données pris en charge

EMRServerless fonctionne avec un certain nombre de sources de données d'entrée et de récepteurs de données de sortie :

  • Sources de données d'entrée prises en charge : Amazon Kinesis Data Streams, Amazon Managed Streaming for Apache Kafka et clusters Apache Kafka autogérés. Par défaut, les EMR versions 7.1.0 et supérieures d'Amazon incluent le connecteur Amazon Kinesis Data Streams. Vous n'avez donc pas besoin de créer ou de télécharger de packages supplémentaires.

  • Récepteurs de données de sortie pris en charge : AWS Tableaux du catalogue de données Glue, Amazon S3, Amazon Redshift, My, Postgre SQL OracleSQL, Oracle, Microsoft, Apache IcebergSQL, Delta Lake et Apache Hudi.

Considérations et restrictions

Lorsque vous utilisez des jobs de streaming, gardez à l'esprit les considérations et limites suivantes.

  • Les jobs de streaming sont pris en charge par les EMRversions 7.1.0 et supérieures d'Amazon.

  • EMRServerless s'attend à ce que les tâches de streaming s'exécutent pendant une longue période. Vous ne pouvez donc pas définir un délai d'exécution pour limiter le temps d'exécution de la tâche.

  • Les jobs de streaming ne sont compatibles qu'avec le moteur Spark, qui repose sur le framework de streaming structuré.

  • EMRServerless réessaie indéfiniment des tâches de streaming, et vous ne pouvez pas personnaliser le nombre maximum de tentatives. La prévention du thrash est automatiquement incluse pour arrêter la nouvelle tentative si le nombre de tentatives infructueuses a dépassé un seuil défini sur une fenêtre horaire. Le seuil par défaut est de cinq tentatives infructueuses en une heure. Vous pouvez configurer ce seuil pour qu'il soit compris entre 1 et 10 tentatives. Pour plus d'informations, consultez la section Résilience des emplois.

  • Les tâches de streaming comportent des points de contrôle pour enregistrer l'état d'exécution et la progression, afin que EMR Serverless puisse reprendre la tâche de streaming à partir du dernier point de contrôle. Pour plus d'informations, consultez la section Restauration après un échec avec le point de contrôle dans la documentation d'Apache Spark.