Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Offerte di lavoro in streaming
Un processo di streaming in EMR Serverless è una modalità di lavoro che consente di analizzare ed elaborare i dati di streaming quasi in tempo reale. Questi processi di lunga durata analizzano i dati in streaming ed elaborano continuamente i risultati non appena arrivano i dati. I lavori in streaming sono più adatti per attività che richiedono l'elaborazione dei dati in tempo reale, come analisi quasi in tempo reale, rilevamento delle frodi e motori di suggerimenti. EMRI processi di streaming senza server offrono ottimizzazioni, come la resilienza integrata dei processi, il monitoraggio in tempo reale, la gestione avanzata dei log e l'integrazione con i connettori di streaming.
Di seguito sono riportati alcuni casi d'uso con i lavori di streaming:
-
Analisi quasi in tempo reale: i lavori di streaming in Amazon EMR Serverless ti consentono di elaborare i dati in streaming quasi in tempo reale, in modo da poter eseguire analisi in tempo reale su flussi di dati continui, come dati di log, dati di sensori o dati clickstream per ricavare informazioni e prendere decisioni tempestive sulla base delle informazioni più recenti.
-
Rilevamento delle frodi: puoi utilizzare i processi di streaming per eseguire il rilevamento delle frodi quasi in tempo reale nelle transazioni finanziarie, nelle operazioni con carte di credito o nelle attività online quando analizzi i flussi di dati e identifichi modelli o anomalie sospetti man mano che si verificano.
-
Motori di raccomandazione: i processi di streaming possono elaborare i dati sulle attività degli utenti e aggiornare i modelli di suggerimenti. In questo modo si aprono possibilità di consigli personalizzati e in tempo reale basati su comportamenti e preferenze.
-
Analisi dei social media: le offerte di lavoro in streaming possono elaborare i dati dei social media, come tweet, commenti e post, in modo che le organizzazioni possano monitorare le tendenze, l'analisi del sentiment e gestire la reputazione del marchio quasi in tempo reale.
-
Analisi dell'Internet of Things (IoT): i job in streaming possono gestire e analizzare flussi di dati ad alta velocità provenienti da dispositivi IoT, sensori e macchinari connessi, in modo da poter eseguire il rilevamento delle anomalie, la manutenzione predittiva e altri casi d'uso di analisi IoT.
-
Analisi clickstream: i job di streaming possono elaborare e analizzare i dati clickstream provenienti da siti Web o applicazioni mobili. Le aziende che utilizzano tali dati possono eseguire analisi per saperne di più sul comportamento degli utenti, personalizzare le esperienze degli utenti e ottimizzare le campagne di marketing.
-
Monitoraggio e analisi dei log: i processi di streaming possono anche elaborare i dati di registro da server, applicazioni e dispositivi di rete. Ciò consente il rilevamento delle anomalie, la risoluzione dei problemi e lo stato e le prestazioni del sistema.
Principali vantaggi
I lavori di streaming in EMR Serverless forniscono automaticamente la resilienza del lavoro, che è una combinazione dei seguenti fattori:
-
Riprova automatica: EMR Serverless riprova automaticamente tutti i lavori non riusciti senza alcun input manuale da parte dell'utente.
-
Resilienza della zona di disponibilità (AZ): EMR Serverless sposta automaticamente i job di streaming su una zona AZ integra se la zona di disponibilità originale presenta problemi.
-
Gestione dei registri:
-
Rotazione dei log: per una gestione più efficiente dello storage su disco, EMR Serverless ruota periodicamente i log per lunghi lavori di streaming. In questo modo si evita l'accumulo di log che potrebbe consumare tutto lo spazio su disco.
-
Compattazione dei log: consente di gestire e ottimizzare in modo efficiente i file di registro in modalità di persistenza gestita. La compattazione migliora anche l'esperienza di debug quando si utilizza il server di cronologia Spark gestito.
-
Fonti di dati e data sink supportati
EMRServerless funziona con una serie di sorgenti di dati di input e data sink di output:
-
Fonti di dati di input supportate: Amazon Kinesis Data Streams, Amazon Managed Streaming for Apache Kafka e cluster Apache Kafka autogestiti. Per impostazione predefinita, le EMR versioni di Amazon 7.1.0 e successive includono il connettore Amazon Kinesis Data Streams, quindi non è necessario creare o scaricare pacchetti aggiuntivi.
-
Dissipatori di dati di output supportati: AWS Tabelle Glue Data Catalog, Amazon S3, Amazon Redshift, SQL My, SQL Postgre Oracle, Oracle, SQL Microsoft, Apache Iceberg, Delta Lake e Apache Hudi.
Considerazioni e limitazioni
Quando utilizzi i lavori di streaming, tieni presente le seguenti considerazioni e limitazioni.
-
I lavori di streaming sono supportati dalle EMRversioni di Amazon 7.1.0 e successive.
-
EMRServerless prevede che i processi di streaming durino a lungo, quindi non è possibile impostare il timeout di esecuzione per limitare il tempo di esecuzione del processo.
-
EMRServerless riprova i processi di streaming a tempo indeterminato e non puoi personalizzare il numero massimo di tentativi. La prevenzione degli errori viene inclusa automaticamente per interrompere il nuovo tentativo di lavoro se il numero di tentativi falliti supera una soglia impostata su una finestra oraria. La soglia predefinita è di cinque tentativi falliti nell'arco di un'ora. È possibile configurare questa soglia in modo che sia compresa tra 1 e 10 tentativi. Per ulteriori informazioni, consulta Job resiliency.
-
I lavori di streaming dispongono di punti di controllo per salvare lo stato di runtime e l'avanzamento, quindi EMR Serverless può riprendere il processo di streaming dal checkpoint più recente. Per ulteriori informazioni, consulta Recovery from failures with Checkpointing
nella documentazione di Apache Spark.