Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Verarbeiten von DynamoDB-Daten mit Apache Hive in Amazon EMR

Fokusmodus
Verarbeiten von DynamoDB-Daten mit Apache Hive in Amazon EMR - Amazon-DynamoDB

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon DynamoDB ist in Apache Hive integriert, eine Data-Warehousing-Anwendung, die auf Amazon EMR ausgeführt wird. Hive kann Daten in DynamoDB-Tabellen lesen und schreiben und bietet folgende Möglichkeiten:

  • Abfragen von Live-DynamoDB-Daten mit einer SQL-ähnlichen Sprache (HiveQL).

  • Kopieren von Daten aus einer DynamoDB-Tabelle in einen Amazon-S3-Bucket und umgekehrt.

  • Kopieren von Daten aus einer DynamoDB-Tabelle in Hadoop Distributed File System (HDFS) und umgekehrt.

  • Durchführen von Join-Vorgängen für DynamoDB-Tabellen.

Übersicht

Amazon EMR ist Service, der die schnelle und kosteneffiziente Verarbeitung riesiger Datenmengen erleichtert. Um Amazon EMR zu verwenden, starten Sie einen verwalteten Cluster von EC2 Amazon-Instances, auf denen das Hadoop-Open-Source-Framework ausgeführt wird. Hadoop ist eine verteilte Anwendung, die den MapReduce Algorithmus implementiert, bei dem eine Aufgabe mehreren Knoten im Cluster zugeordnet wird. Jeder Knoten verarbeitet die ihm zugewiesene Aufgabe parallel mit den anderen Knoten. Die Ausgaben werden letztendlich auf einen einzelnen Knoten reduziert, was zum Endergebnis führt.

Sie können Ihren Amazon-EMR-Cluster so starten, dass er permanent oder vorübergehend ist:

  • Ein permanenter Cluster wird ausgeführt, bis er herunterfahren wird. Permanente Cluster sind ideal für die Datenanalyse, für Data Warehousing und andere interaktive Verwendungen.

  • Ein vorübergehender Cluster wird ausgeführt, um einen Auftragsverlauf zu verarbeiten, und fährt dann automatisch herunter. Vorübergehende Cluster sind für regelmäßige Verarbeitungsaufgaben, wie das Ausführen von Skripts, ideal.

Weitere Informationen zur Amazon-EMR-Architektur und -Verwaltung finden Sie im Management Guide für Amazon EMR.

Wenn Sie einen Amazon EMR-Cluster starten, geben Sie die anfängliche Anzahl und den Typ der EC2 Amazon-Instances an. Sie geben außerdem andere verteilte Anwendungen (zusätzlich zu Hadoop) an, die auf dem Cluster ausgeführt werden sollen. Diese Anwendungen umfassen u. a. Hue, Mahout, Pig und Spark.

Weitere Informationen über Anwendungen für Amazon EMR finden Sie in den Amazon-EMR-Versionshinweisen.

Je nach Cluster-Konfiguration liegen ein oder mehrere der folgenden Knotentypen vor:

  • Leader Node — Verwaltet den Cluster und koordiniert die Verteilung der MapReduce ausführbaren Datei und Teilmengen der Rohdaten an die Kern- und Task-Instance-Gruppen. Darüber hinaus verfolgt der Leader-Knoten den Status jedes durchgeführten Tasks und überwacht den Zustand der Instance-Gruppen. In jedem Cluster gibt es nur einen Leader-Knoten.

  • Kernknoten — Führt MapReduce Aufgaben aus und speichert Daten mithilfe des Hadoop Distributed File System (HDFS).

  • Task-Knoten (optional) — Führt MapReduce Aufgaben aus.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.