Bereitgestellte Lesekapazitätseinheiten Einstellung der Leserate in Prozent Einstellung der Schreibrate in Prozent Einstellung für das Wiederholungsintervall Anzahl der Zuordnungs-Tasks Parallele Datenanforderungen Prozessdauer Durchsatzüberschreitungen vermeiden Abfragezeit Zeitbasierte Tabellen Archivierte Daten

Optimieren der Leistung von Amazon-EMR-Operationen in DynamoDB

Amazon-EMR-Operationen auf eine DynamoDB-Tabelle zählen als Lesevorgänge und unterliegen den für die Tabelle angegebenen Durchsatzeinstellungen. Amazon EMR implementiert eine eigene Logik, um zu versuchen, die Belastung Ihrer DynamoDB-Tabelle auszugleichen und so die Möglichkeit der Überschreitung des bereitgestellten Durchsatzes zu minimieren. Am Ende jeder Hive-Abfrage gibt Amazon EMR Informationen über den für die Verarbeitung der Abfrage verwendeten Cluster zurück, zum Beispiel darüber, wie oft der bereitgestellte Durchsatz überschritten wurde. Sie können diese Informationen sowie CloudWatch Metriken zu Ihrem DynamoDB-Durchsatz verwenden, um die Belastung Ihrer DynamoDB-Tabelle bei nachfolgenden Anfragen besser zu verwalten.

Die folgenden Faktoren beeinflussen die Hive-Abfrageleistung bei der Arbeit mit DynamoDB-Tabellen.

Bereitgestellte Lesekapazitätseinheiten

Wenn Sie Hive-Abfragen über eine DynamoDB-Tabelle ausführen, müssen Sie sicherstellen, dass ausreichend Lesekapazitätseinheiten vorhanden sind.

Nehmen Sie zum Beispiel an, dass Sie 100 Lesekapazitätseinheiten für Ihre DynamoDB-Tabelle bereitgestellt haben. Dadurch können Sie 100 Lesevorgänge oder 409.600 Byte pro Sekunde ausführen. Wenn diese Tabelle 20 GB an Daten enthält (21.474.836.480 Bytes) und Ihre Hive-Abfrage einen vollständigen Tabellen-Scan durchführt, können Sie ermitteln, wie lange die Ausführung der Abfrage dauern wird:

21 474 836 480/409 600 = 52 429 Sekunden = 14,56 Stunden

Die einzige Möglichkeit, um die erforderliche Zeit zu verkürzen, würde eine Änderung der Lesekapazitätseinheiten in der DynamoDB-Quelltabelle notwendig machen. Das Hinzufügen weiterer Knoten zum Amazon-EMR-Cluster würde nicht helfen.

Der Fertigstellungsgrad in der Hive-Ausgabe wird dann aktualisiert, wenn ein oder mehrere Mapper-Prozesse abgeschlossen wurden. Für eine große DynamoDB-Tabelle mit wenig bereitgestellter Lesekapazität wird die fertiggestellte Ausgabe in Prozent ggf. für längere Zeit nicht aktualisiert; im oben genannten Fall würde der Auftrag mehrere Stunden lang zu 0 % abgeschlossen angezeigt. Weitere Details zum Fortschritt Ihres Auftrags finden Sie in der Amazon-EMR-Konsole. Hier können Sie den Status einzelner Mapper-Aufgaben sowie Statistiken für Lesevorgänge anzeigen.

Sie können sich auch bei der Hadoop-Schnittstelle auf dem Master-Knoten anmelden und die Hadoop-Statistiken anzeigen. Hier werden Ihnen der Status einzelner Map-Aufgaben sowie Statistiken für Lesevorgänge angezeigt. Weitere Informationen finden Sie unter Auf Hauptknoten gehostete Web-Schnittstellen im Verwaltungshandbuch für Amazon EMR.

Einstellung der Leserate in Prozent

Standardmäßig verwaltet Amazon EMR die Anforderungslast für Ihre DynamoDB-Tabelle entsprechend Ihres aktuell bereitgestellten Durchsatzes. Wenn Amazon EMR jedoch Informationen zu Ihrem Auftrag zurückgibt, die eine große Anzahl an Antworten enthalten, dass der bereitgestellte Durchsatz überschritten wurde, können Sie die Standardleserate bei Einrichtung der Hive-Tabelle mit dem Parameter dynamodb.throughput.read.percent anpassen. Weitere Informationen zum Festlegen des Parameters zur Leserate in Prozent finden Sie unter Hive-Optionen.

Einstellung der Schreibrate in Prozent

Standardmäßig verwaltet Amazon EMR die Anforderungslast für Ihre DynamoDB-Tabelle entsprechend Ihres aktuell bereitgestellten Durchsatzes. Wenn Amazon EMR jedoch Informationen zu Ihrem Auftrag zurückgibt, die eine große Anzahl an Antworten enthalten, dass der bereitgestellte Durchsatz überschritten wurde, können Sie die Standardschreibrate bei Einrichtung der Hive-Tabelle mit dem Parameter dynamodb.throughput.write.percent anpassen. Weitere Informationen zum Festlegen des Parameters zur Schreibrate in Prozent finden Sie unter Hive-Optionen.

Einstellung für das Wiederholungsintervall

Standardmäßig führt Amazon EMR eine Hive-Abfrage erneut aus, wenn nicht innerhalb von zwei Minuten (dem Standard-Wiederholungsintervall) ein Ergebnis zurückgegeben wurde. Sie können dieses Intervall anpassen, indem Sie bei der Ausführung einer Hive-Abfrage den Parameter dynamodb.retry.duration einstellen. Weitere Informationen zum Festlegen des Parameters zur Schreibrate in Prozent finden Sie unter Hive-Optionen.

Anzahl der Zuordnungs-Tasks

Die Zuordnungs-Daemons, die Hadoop startet, um Ihre Anforderungen zum Exportieren und Abfragen von in DynamoDB gespeicherten Daten zu verarbeiten, sind auf eine maximale Leserate von 1 MiB pro Sekunde begrenzt, um die verbrauchte Lesekapazität einzuschränken. Wenn zusätzlich bereitgestellter Durchsatz auf DynamoDB vorhanden ist, verbessern Sie die Performance von Hive-Export- und Abfrageoperationen, indem Sie die Anzahl der Zuordnungs-Daemons erhöhen. Zu diesem Zweck können Sie entweder die Anzahl der EC2-Instances in Ihrem Cluster oder die Anzahl der Zuordnungs-Daemons erhöhen, die auf jeder EC2-Instance ausgeführt werden.

Sie können die Anzahl der EC2-Instances in einem Cluster erhöhen, indem Sie den aktuellen Cluster beenden und mit einer größeren Anzahl von EC2-Instances erneut starten. Sie geben die Anzahl der EC2-Instances im Dialogfeld Configure EC2 Instances an, wenn Sie den Cluster von der Amazon-EMR-Konsole starten, oder mit der Option --num-instances, wenn Sie den Cluster von der Befehlszeilenschnittstelle starten.

Die Anzahl der Map-Tasks auf einer Instance hängt vom EC2-Instance-Typ ab. Weitere Informationen zu den unterstützten EC2 Instance-Typen und der Anzahl der von ihnen jeweils bereitgestellten Mapper finden Sie in der Aufgabenkonfiguration. Hier finden Sie einen Abschnitt zur Aufgabenkonfiguration ("Task Configuration") für jede der unterstützten Konfigurationen.

Eine andere Möglichkeit, die Anzahl der Mapper-Daemons zu erhöhen, besteht darin, den Hadoop-Konfigurationsparameter mapreduce.tasktracker.map.tasks.maximum in einen höheren Wert zu ändern. Dies hat den Vorteil, dass Sie mehr Mapper erhalten, ohne die Anzahl oder die Größe der EC2-Instances erhöhen zu müssen, wodurch Sie Kosten sparen. Ein Nachteil ist, dass wenn Sie diesen Wert zu hoch einstellen, für die EC2-Instances in Ihrem Cluster nicht mehr genügend Arbeitsspeicher vorhanden ist. Zum Festlegen von mapreduce.tasktracker.map.tasks.maximum starten Sie den Cluster und geben einen Wert für mapreduce.tasktracker.map.tasks.maximum als Eigenschaft der Konfigurationsklassifizierung der mapred-site an. Dies wird im folgenden Beispiel veranschaulicht. Weitere Informationen finden Sie unter Anwendungen konfigurieren.


{
    "configurations": [
    {
        "classification": "mapred-site",
        "properties": {
            "mapred.tasktracker.map.tasks.maximum": "10"
        }
    }
    ]
}

Parallele Datenanforderungen

Mehrere Datenanforderungen, entweder von mehr als einem Benutzer oder von mehr als einer Anwendung, für eine einzelne Tabelle kann den bereitgestellten Lesedurchsatz erschöpfen und die Performance beeinträchtigen.

Prozessdauer

Die Datenkonsistenz in DynamoDB hängt von der Reihenfolge der Lese- und Schreibvorgänge auf den einzelnen Knoten ab. Während eine Hive-Abfrage verarbeitet wird, kann eine andere Anwendung neue Daten in die DynamoDB-Tabelle laden oder vorhandene Daten ändern oder löschen. In diesem Fall enthalten die Ergebnisse der Hive-Abfrage möglicherweise nicht die Datenänderungen, die vorgenommen wurden, während die Abfrage ausgeführt wurde.

Durchsatzüberschreitungen vermeiden

Wenn Sie Hive-Abfragen für DynamoDB ausführen, achten Sie darauf, dass Ihr bereitgestellter Durchsatz nicht überschritten wird, da sich dies nachteilig auf die Kapazität auswirkt, die für die DynamoDB::Get-Aufrufe Ihrer Anwendung benötigt werden. Um sicherzustellen, dass dies nicht der Fall ist, sollten Sie das Lesevolumen und die Drosselung bei Anwendungsaufrufen regelmäßig überwachen, DynamoDB::Get indem Sie die Protokolle und Messwerte in Amazon überprüfen. CloudWatch

Abfragezeit

Wenn Hive-Abfragen, die auf eine DynamoDB-Tabelle zugreifen, für Zeiten geplant werden, in denen wenig Anforderungen an die DynamoDB-Tabelle gerichtet werden, verbessert das die Leistung. Beispiel: Wenn die Mehrzahl der Anwendungsbenutzer in San Francisco lebt, können Sie die täglichen Daten um 04:00 Uhr PST, wenn die meisten Benutzer schlafen und keine Datensätze in der DynamoDB-Datenbank aktualisiert werden.

Zeitbasierte Tabellen

Wenn die Daten als eine Reihe von zeitbasierten DynamoDB-Tabellen organisiert sind, z. B. eine Tabelle pro Tag, können Sie die Daten exportieren, wenn die Tabelle nicht mehr aktiv ist. Sie können auf diese Weise Daten fortlaufend nach Amazon S3 sichern.

Archivierte Daten

Wenn Sie vorhaben, viele Hive-Abfragen für in DynamoDB gespeicherte Daten auszuführen und Ihre Anwendung archivierte Daten unterstützt, können Sie die Daten nach HDFS oder Amazon S3 exportieren und die Hive-Abfragen auf eine Kopie der Daten anstelle von DynamoDB ausführen. Dies spart Lesevorgänge und schont den bereitgestellten Durchsatz.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Hive-Befehlsbeispiele für das Exportieren, Importieren und Abfragen von Daten

Kinesis