Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Was ist Amazon EMR Serverless?
Amazon EMR Serverless ist eine Bereitstellungsoption für Amazon EMR, die eine serverlose Laufzeitumgebung bietet. Dies vereinfacht den Betrieb von Analyseanwendungen, die die neuesten Open-Source-Frameworks wie Apache Spark und Apache Hive verwenden. Mit EMR Serverless müssen Sie keine Cluster konfigurieren, optimieren, sichern oder betreiben, um Anwendungen mit diesen Frameworks auszuführen.
Mit EMR Serverless können Sie vermeiden, dass Ressourcen für Ihre Datenverarbeitungsaufgaben zu hoch oder zu niedrig bereitgestellt werden. EMR Serverless ermittelt automatisch die Ressourcen, die die Anwendung benötigt, ruft diese Ressourcen für die Verarbeitung Ihrer Jobs ab und gibt die Ressourcen frei, wenn die Jobs abgeschlossen sind. Für Anwendungsfälle, in denen Anwendungen innerhalb von Sekunden eine Antwort benötigen, wie z. B. interaktive Datenanalysen, können Sie die Ressourcen, die die Anwendung benötigt, bei der Erstellung der Anwendung vorab initialisieren.
Mit EMR Serverless profitieren Sie weiterhin von den Vorteilen von Amazon EMR, wie z. B. Open-Source-Kompatibilität, Parallelität und optimierte Laufzeitleistung für beliebte Frameworks.
EMR Serverless ist für Kunden geeignet, die den Betrieb von Anwendungen mithilfe von Open-Source-Frameworks vereinfachen möchten. Es bietet einen schnellen Start von Jobs, automatisches Kapazitätsmanagement und einfache Kostenkontrolle.
Konzepte
In diesem Abschnitt behandeln wir die Begriffe und Konzepte von EMR Serverless, die in unserem EMR Serverless User Guide enthalten sind.
Version veröffentlichen
Eine Amazon EMR-Version besteht aus einer Reihe von Open-Source-Anwendungen aus dem Big-Data-Ökosystem. Jede Version enthält verschiedene Big-Data-Anwendungen, Komponenten und Funktionen, die Sie für EMR Serverless auswählen, um sie bereitzustellen und zu konfigurieren, damit sie Ihre Anwendungen ausführen können. Wenn Sie eine Anwendung erstellen, müssen Sie deren Release-Version angeben. Wählen Sie die Amazon EMR-Release-Version und die Open-Source-Framework-Version, die Sie in Ihrer Anwendung verwenden möchten. Weitere Informationen zu Vorabversionen finden Sie unter. Serverlose Release-Versionen von Amazon EMR
Anwendung
Mit EMR Serverless können Sie eine oder mehrere EMR Serverless-Anwendungen erstellen, die Open-Source-Analyse-Frameworks verwenden. Um eine Anwendung zu erstellen, müssen Sie die folgenden Attribute angeben:
-
Die Amazon EMR-Release-Version für die Open-Source-Framework-Version, die Sie verwenden möchten. Informationen zur Bestimmung Ihrer Release-Version finden Sie unterServerlose Release-Versionen von Amazon EMR.
-
Die spezifische Laufzeit, die Ihre Anwendung verwenden soll, z. B. Apache Spark oder Apache Hive.
Nachdem Sie eine Anwendung erstellt haben, können Sie Datenverarbeitungsaufträge oder interaktive Anfragen an Ihre Anwendung senden.
Jede serverlose EMR-Anwendung läuft auf einer sicheren Amazon Virtual Private Cloud (VPC), strikt getrennt von anderen Anwendungen. Darüber hinaus können Sie AWS Identity and Access Management (IAM) -Richtlinien verwenden, um zu definieren, welche Benutzer und Rollen auf die Anwendung zugreifen können. Sie können auch Grenzwerte festlegen, um die durch die Anwendung anfallenden Nutzungskosten zu kontrollieren und nachzuverfolgen.
Erwägen Sie, mehrere Anwendungen zu erstellen, wenn Sie Folgendes tun müssen:
-
Verwenden Sie verschiedene Open-Source-Frameworks
-
Verwenden Sie verschiedene Versionen von Open-Source-Frameworks für unterschiedliche Anwendungsfälle
-
Führen Sie A/B-Tests durch, wenn Sie von einer Version auf eine andere aktualisieren
-
Pflegen Sie separate logische Umgebungen für Test- und Produktionsszenarien
-
Stellen Sie separate logische Umgebungen für verschiedene Teams mit unabhängiger Kostenkontrolle und Nutzungsverfolgung bereit
-
Trennen Sie verschiedene line-of-business Anwendungen
EMR Serverless ist ein regionaler Service, der die Ausführung von Workloads in mehreren Availability Zones in einer Region vereinfacht. Weitere Informationen zur Verwendung von Anwendungen mit EMR Serverless finden Sie unter. Interagieren Sie mit einer serverlosen EMR-Anwendung und konfigurieren Sie sie
Aufgabenausführung
Eine Auftragsausführung ist eine Anforderung, die an eine serverlose EMR-Anwendung gesendet wird und die Anwendung asynchron ausführt und bis zum Abschluss verfolgt. Beispiele für Jobs sind eine HiveQL-Abfrage, die Sie an eine Apache Hive-Anwendung senden, oder ein PySpark Datenverarbeitungsskript, das Sie an eine Apache Spark-Anwendung senden. Wenn Sie einen Job einreichen, müssen Sie eine in IAM verfasste Runtime-Rolle angeben, die der Job für den Zugriff auf AWS Ressourcen wie Amazon S3 S3-Objekte verwendet. Sie können mehrere Anfragen zur Auftragsausführung an eine Anwendung senden, und für jede Auftragsausführung kann eine andere Laufzeitrolle für den Zugriff auf Ressourcen verwendet werden. AWS Eine serverlose EMR-Anwendung beginnt mit der Ausführung von Jobs, sobald sie sie empfängt, und führt mehrere Jobanfragen gleichzeitig aus. Weitere Informationen darüber, wie EMR Serverless Jobs ausführt, finden Sie unter. Ausführen von Aufgaben
Worker
Eine serverlose EMR-Anwendung verwendet intern Worker, um Ihre Workloads auszuführen. Die Standardgrößen dieser Worker basieren auf Ihrem Anwendungstyp und der Amazon EMR-Release-Version. Wenn Sie eine Auftragsausführung planen, können Sie diese Größen überschreiben.
Wenn Sie einen Job einreichen, berechnet EMR Serverless die Ressourcen, die die Anwendung für den Job benötigt, und plant Mitarbeiter ein. EMR Serverless unterteilt Ihre Workloads in Aufgaben, lädt Bilder herunter, stellt Mitarbeiter bereit und richtet sie ein und nimmt sie nach Abschluss des Auftrags wieder in Betrieb. EMR Serverless skaliert Mitarbeiter automatisch nach oben oder unten, je nach Arbeitslast und Parallelität, die in jeder Phase des Auftrags erforderlich sind. Durch diese automatische Skalierung müssen Sie nicht mehr abschätzen, wie viele Mitarbeiter die Anwendung zur Ausführung Ihrer Workloads benötigt.
Vorinitialisierte Kapazität
EMR Serverless bietet eine vorinitialisierte Kapazitätsfunktion, mit der Mitarbeiter innerhalb von Sekunden initialisiert und bereit sind, zu antworten. Diese Kapazität schafft effektiv einen warmen Pool von Mitarbeitern für eine Anwendung. Um diese Funktion für jede Anwendung zu konfigurieren, legen Sie den initial-capacity
Parameter einer Anwendung fest. Wenn Sie vorinitialisierte Kapazität konfigurieren, können Jobs sofort gestartet werden, sodass Sie iterative Anwendungen und zeitkritische Jobs implementieren können. Weitere Informationen zu vorinitialisierten Workern finden Sie unter. Konfiguration einer Anwendung bei der Arbeit mit EMR Serverless
EMR Studio
EMR Studio ist die Benutzerkonsole, mit der Sie Ihre EMR Serverless-Anwendungen verwalten können. Wenn in Ihrem Konto kein EMR Studio vorhanden ist, wenn Sie Ihre erste EMR Serverless-Anwendung erstellen, erstellen wir automatisch eines für Sie. Sie können entweder über die Amazon EMR-Konsole auf EMR Studio zugreifen oder den Verbundzugriff von Ihrem Identity Provider (IdP) über IAM oder IAM Identity Center aktivieren. Auf diese Weise können Benutzer ohne direkten Zugriff auf die Amazon EMR-Konsole auf Studio zugreifen und EMR-Anwendungen ohne direkten Zugriff auf die Amazon EMR-Konsole verwalten. Weitere Informationen darüber, wie EMR Serverless-Anwendungen mit EMR Studio funktionieren, finden Sie unter und. Eine serverlose EMR-Anwendung von der EMR Studio-Konsole aus erstellen Jobs von der EMR Studio-Konsole aus ausführen