Ottimizzazione prestazioni

Quando si crea una tabella esterna Hive mappata a una tabella DynamoDB, non si utilizza alcuna capacità di lettura o scrittura da DynamoDB. Tuttavia, un'attività di lettura e scrittura nella tabella Hive (ad esempio INSERT o SELECT) si traduce direttamente in operazioni di lettura e scrittura nella tabella DynamoDB sottostante.

Apache Hive su Amazon EMR implementa la propria logica per bilanciare il carico I/O sulla tabella DynamoDB e cerca di ridurre al minimo la possibilità di superare il throughput assegnato dalla tabella. Al termine di ogni query Hive, Amazon EMR restituisce parametri di runtime, incluso il numero di volte in cui il throughput assegnato è stato superato. È possibile utilizzare queste informazioni, insieme alle CloudWatch metriche sulla tabella DynamoDB, per migliorare le prestazioni nelle richieste successive.

La console di Amazon EMR fornisce strumenti di monitoraggio di base per il tuo cluster. Per maggiori informazioni, consulta Visualizzazione e monitoraggio di un cluster nella Guida alla gestione di Amazon EMR.

È inoltre possibile monitorare i processi cluster e Hadoop utilizzando strumenti basati sul Web, come Hue, Ganglia e l'interfaccia Web Hadoop. Per ulteriori informazioni, consulta Visualizzazione delle interfacce Web ospitate nei cluster Amazon EMR nella Guida alla gestione di Amazon EMR.

In questa sezione vengono descritti i passaggi che è possibile eseguire per ottimizzare le operazioni Hive nelle tabelle esterne di DynamoDB.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Lettura di dati di caratteri non stampabili UTF-8

Velocità di trasmissione effettiva assegnata a DynamoDB