Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Exportieren, Importieren, Abfragen und Verbinden von Tabellen in DynamoDB mithilfe von Amazon EMR
Anmerkung
Der Amazon EMR -DynamoDB-Connector ist als Open Source verfügbar auf. GitHub Weitere Informationen finden Sie unter. https://github.com/awslabs/emr-dynamodb-connector
DynamoDB ist ein vollständig verwalteter Dienst ohne SQL Datenbank, der schnelle und vorhersehbare Leistung mit nahtloser Skalierbarkeit bietet. Entwickler können eine Datenbanktabelle erstellen und den durch Anfragen erzeugten Datenverkehr oder den Speicher unbegrenzt erweitern. DynamoDB verteilt die Daten und den Datenverkehr für die Tabelle automatisch auf eine ausreichende Anzahl von Servern, um die vom Kunden angegebene Anforderungskapazität zu erreichen und die gespeicherte Datenmenge zu verarbeiten und dabei gleichzeitig eine konsistente, schnelle Leistung beizubehalten. Mit Amazon EMR und Hive können Sie große Datenmengen, wie z. B. in DynamoDB gespeicherte Daten, schnell und effizient verarbeiten. Weitere Informationen über DynamoDB finden Sie im Entwicklerhandbuch von Amazon DynamoDB.
Apache Hive ist eine Softwareschicht, mit der Sie Map-Reduce-Cluster mithilfe einer vereinfachten, SQL ähnlichen Abfragesprache namens HiveQL abfragen können. Die Software baut auf der Hadoop-Architektur auf. Weitere Informationen zu Hive und HiveQL erhalten Sie in der HiveQL-Sprachreferenz
Sie können Amazon EMR mit einer angepassten Version von Hive verwenden, die Konnektivität zu DynamoDB bietet, um Operationen mit in DynamoDB gespeicherten Daten durchzuführen:
-
DynamoDB-Daten in das Hadoop Distributed File System (HDFS) laden und als Eingabe in einen Amazon-Cluster verwenden. EMR
-
Abfragen von DynamoDB-Live-Daten mit SQL ähnlichen Anweisungen (HiveQL).
-
Verknüpfen von in DynamoDB gespeicherten Daten und deren Export oder Abfragen der verknüpften Daten.
-
Exportieren von in DynamoDB gespeicherten Daten nach Amazon S3.
-
Importieren von in Amazon S3 gespeicherten Daten in DynamoDB.
Um jede der folgenden Aufgaben auszuführen, starten Sie einen EMR Amazon-Cluster, geben den Speicherort der Daten in DynamoDB an und geben Hive-Befehle aus, um die Daten in DynamoDB zu bearbeiten.
Es gibt mehrere Möglichkeiten, einen EMR Amazon-Cluster zu starten: Sie können die EMR Amazon-Konsole oder die Befehlszeilenschnittstelle (CLI) verwenden, oder Sie können Ihren Cluster mit einem AWS SDK oder Amazon programmieren EMRAPI. Sie können auch bestimmen, ob ein Hive-Cluster interaktiv oder über ein Skript ausgeführt werden soll. In diesem Abschnitt zeigen wir Ihnen, wie Sie einen interaktiven Hive-Cluster von der EMR Amazon-Konsole aus starten und CLI
Die interaktive Verwendung von Hive ist eine hervorragende Möglichkeit zum Testen der Abfrageleistung und Optimieren Ihrer Anwendung. Nachdem Sie eine Reihe von Hive-Befehlen eingerichtet haben, die regelmäßig ausgeführt werden, sollten Sie erwägen, ein Hive-Skript zu erstellen, das Amazon für Sie ausführen EMR kann.
Warnung
EMRLese- oder Schreibvorgänge von Amazon an einer DynamoDB-Tabelle werden auf Ihren festgelegten bereitgestellten Durchsatz angerechnet, wodurch sich möglicherweise die Häufigkeit von Ausnahmen beim bereitgestellten Durchsatz erhöht. Bei großen Anfragen EMR implementiert Amazon Wiederholungen mit exponentiellem Backoff, um die Anforderungslast in der DynamoDB-Tabelle zu verwalten. Wenn Sie EMR Amazon-Jobs gleichzeitig mit anderem Datenverkehr ausführen, kann dies dazu führen, dass Sie den zugewiesenen, bereitgestellten Durchsatz überschreiten. Sie können dies überwachen, indem Sie die ThrottleRequestsMetrik in Amazon überprüfen CloudWatch. Wenn die Anforderungslast zu hoch ist, können Sie den Cluster neu starten und den Wert Einstellung der Leserate in Prozent oder Einstellung der Schreibrate in Prozent auf einen niedrigeren Wert setzen, um den EMR Amazon-Betrieb zu drosseln. Weitere Informationen zu DynamoDB-Durchsatzeinstellungen finden Sie unter Bereitgestellter Durchsatz.
Wenn eine Tabelle für den On-Demand-Modus konfiguriert ist, sollten Sie die Tabelle wieder in den Bereitstellungsmodus ändern, bevor Sie einen Export- oder Importvorgang ausführen. Pipelines benötigen ein Durchsatzverhältnis, um die zu verwendenden Ressourcen anhand eines D berechnen zu können. ynamoDBtable Im On-Demand-Modus wird der bereitgestellte Durchsatz entfernt. Um Durchsatzkapazität bereitzustellen, können Sie Amazon CloudWatch Events-Metriken verwenden, um den Gesamtdurchsatz auszuwerten, den eine Tabelle verwendet hat.