Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
In diesem Tutorial starten Sie einen Amazon-EMR-Cluster und verwenden Apache Hive zum Verarbeiten von Daten in einer DynamoDB-Tabelle.
Hive ist eine Data-Warehouse-Anwendung für Hadoop, mit der Sie Daten aus mehreren Quellen verarbeiten und analysieren können. Hive bietet eine SQL-ähnliche Sprache, HiveQL, die es Ihnen ermöglicht, mit lokal im Amazon-EMR-Cluster oder in einer externen Datenquelle (wie Amazon DynamoDB) gespeicherten Daten zu arbeiten.
Weitere Informationen finden Sie im Hive-Tutorial
Themen
Bevor Sie beginnen
Für dieses Tutorial benötigen Sie Folgendes:
-
Ein AWS Konto. Wenn Sie kein Konto haben, finden Sie weitere Informationen unter Melden Sie sich an für AWS.
-
Einen SSH-Client (Secure Shell). Sie verwenden den SSH-Client, um eine Verbindung mit dem Leader-Knoten des Amazon-EMR-Clusters herzustellen und interaktive Befehle auszuführen. In den meisten Linux-, Unix- und Mac-OS-X-Installationen sind SSH-Clients standardmäßig vorhanden. Windows-Benutzer können den PuTTY
-Client, der SSH unterstützt, herunterladen und installieren.
Nächster Schritt
Schritt 1: Erstellen Sie ein EC2 Amazon-Schlüsselpaar