Pulizia delle risorse - Flusso di dati Amazon Kinesis

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Pulizia delle risorse

Poiché l'utilizzo del flusso di dati Kinesis è a pagamento, una volta terminato di usarlo assicurati di eliminarlo insieme alle tabelle Amazon DynamoDB corrispondenti. Vengono infatti applicati costi nominali a un flusso attivo, anche quando non invii o ricevi record. Ciò si verifica perché un flusso attivo utilizza risorse monitorando in modo continuo i record in entrata e le richieste per ottenere record.

Per eliminare il flusso e la tabella
  1. Chiudere i producer e i consumer ancora in esecuzione.

  2. Apri la console Kinesis in /kinesis. https://console.aws.amazon.com

  3. Scegliere il flusso creato per questa applicazione (StockTradeStream).

  4. Scegliere Delete Stream (Elimina flusso).

  5. Apri la console DynamoDB all'indirizzo. https://console.aws.amazon.com/dynamodb/

  6. Eliminare la tabella StockTradesProcessor.

Riepilogo

L'elaborazione di una grande quantità di dati quasi in tempo reale non richiede la scrittura di codice complicato o lo sviluppo di un'infrastruttura enorme. Elaborare una piccola quantità di dati (come la scritturaprocessRecord(Record)) è tanto semplice quanto scrivere la logica, ma usare Kinesis Data Streams per scalare in modo da funzionare per una grande quantità di dati in streaming. Non devi preoccuparti del dimensionamento dell'elaborazione, perché il flusso di dati Kinesis lo gestisce per conto tuo. Devi soltanto inviare i tuoi record di streaming al flusso di dati Kinesis e scrivere la logica per elaborare ogni nuovo record ricevuto.

Di seguito sono elencati alcuni miglioramenti potenziali per questa applicazione.

Aggregazione tra tutti gli shard

Al momento, puoi ottenere statistiche derivate dall'aggregazione dei record di dati ricevuti da un singolo ruolo di lavoro e provenienti da un solo shard (uno shard non può essere elaborato da più di un ruolo di lavoro in un'unica applicazione allo stesso tempo). Quando esegui il dimensionamento e disponi di più di uno shard, potresti voler effettuare l'aggregazione tra tutti gli shard. Per farlo, ti occorre un'architettura pipeline in cui l'output di ogni ruolo di lavoro viene utilizzato in un altro flusso con un singolo shard, che viene elaborato da un ruolo di lavoro che aggrega gli output della prima fase. Poiché i dati della prima fase sono limitati (un campione al minuto per shard), possono essere gestiti facilmente da uno shard.

Dimensionamento dell'elaborazione

Quando il flusso viene incrementato per disporre di numerosi shard (dal momento che molti producer inviano dati), per dimensionare l'elaborazione è possibile aggiungere ulteriori ruoli di lavoro. Puoi eseguire i worker in EC2 istanze Amazon e utilizzare i gruppi di Auto Scaling.

Uso dei connettori su Amazon S3/DynamoDB/Amazon Redshift/Storm

Poiché uno stream viene elaborato continuamente, il suo output può essere inviato ad altre destinazioni. AWS fornisce connettori per integrare Kinesis Data Streams AWS con altri servizi e strumenti di terze parti.

Passaggi successivi