Esporta, importa, interroga e unisci tabelle in DynamoDB utilizzando Amazon EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esporta, importa, interroga e unisci tabelle in DynamoDB utilizzando Amazon EMR

Nota

Il connettore Amazon EMR -DynamoDB è open source su. GitHub Per ulteriori informazioni, consulta. https://github.com/awslabs/emr-dynamodb-connector

DynamoDB è un servizio di database SQL No completamente gestito che offre prestazioni veloci e prevedibili con una scalabilità perfetta. Gli sviluppatori possono creare una tabella di database e accrescerne la richiesta di traffico o lo storage senza limiti. DynamoDB distribuisce automaticamente i dati e il traffico per la tabella su un numero sufficiente di server per gestire la capacità di richieste specificata dal cliente e la quantità di dati archiviati, garantendo al contempo prestazioni rapide e costanti. Con Amazon EMR e Hive puoi elaborare in modo rapido ed efficiente grandi quantità di dati, come i dati archiviati in DynamoDB. Per ulteriori informazioni su DynamoDB, consulta Guida per gli sviluppatori di Amazon DynamoDB.

Apache Hive è un livello software che è possibile utilizzare per interrogare, mappare e ridurre i cluster utilizzando un linguaggio di query semplificato simile a SQL HiveQL. e che viene eseguito su architettura Hadoop. Per ulteriori informazioni su Hive e HiveQL, consulta il Manuale sul linguaggio HiveQL. Per ulteriori informazioni su Hive e AmazonEMR, consultaApache Hive.

Puoi utilizzare Amazon EMR con una versione personalizzata di Hive che include la connettività a DynamoDB per eseguire operazioni sui dati archiviati in DynamoDB:

  • Caricamento dei dati DynamoDB nel file system distribuito Hadoop HDFS () e utilizzo come input in un cluster Amazon. EMR

  • Interrogazione di dati dinamici di DynamoDB utilizzando istruzioni di SQL tipo -like (HiveQL).

  • Unione di dati archiviati in DynamoDB ed esportazione o esecuzione di query sui dati uniti.

  • Esportazione dei dati archiviati in DynamoDB su Amazon S3.

  • Importazione dei dati archiviati in Amazon S3 su DynamoDB.

Per eseguire ciascuna delle seguenti attività, devi avviare un EMR cluster Amazon, specificare la posizione dei dati in DynamoDB ed emettere i comandi Hive per manipolare i dati in DynamoDB.

Esistono diversi modi per avviare un EMR cluster Amazon: puoi utilizzare la EMR console Amazon, l'interfaccia a riga di comando (CLI) oppure puoi programmare il cluster utilizzando un AWS SDK o Amazon EMRAPI. È anche possibile scegliere se eseguire un cluster Hive interattivamente o da uno script. In questa sezione, ti mostreremo come avviare un cluster Hive interattivo dalla EMR console Amazon e da. CLI

L'utilizzo interattivo di Hive è perfetto per testare le prestazioni delle query e ottimizzare l'applicazione. Dopo aver stabilito un set di comandi Hive che verranno eseguiti regolarmente, valuta la possibilità di creare uno script Hive che Amazon EMR può eseguire per te.

avvertimento

Le operazioni di EMR lettura o scrittura di Amazon su una tabella DynamoDB vengono conteggiate sulla base del throughput assegnato stabilito, aumentando potenzialmente la frequenza delle eccezioni di throughput assegnate. Per richieste di grandi dimensioni, Amazon EMR implementa nuovi tentativi con backoff esponenziale per gestire il carico delle richieste sulla tabella DynamoDB. L'esecuzione EMR di job Amazon contemporaneamente ad altro traffico può causare il superamento del livello di throughput assegnato. Puoi monitorarlo controllando la ThrottleRequestsmetrica in Amazon CloudWatch. Se il carico di richieste è troppo elevato, puoi riavviare il cluster e impostare Impostazione della percentuale di lettura o su un valore inferiore Impostazione della percentuale di scrittura per limitare le operazioni di Amazon. EMR Per ulteriori informazioni sulle impostazioni di velocità effettiva di DynamoDB, consulta Velocità effettiva assegnata.

Se una tabella è configurata per la Modalità on demand, è necessario ripristinare la tabella in modalità di provisioning prima di eseguire un'operazione di esportazione o importazione. Le pipeline necessitano di un rapporto di velocità effettiva per calcolare le risorse da utilizzare partendo da un sistema D. ynamoDBtable La modalità on demand rimuove la velocità effettiva di provisioning. Per fornire la capacità di throughput, puoi utilizzare i parametri di Amazon CloudWatch Events per valutare il throughput aggregato utilizzato da una tabella.