Wie Amazon EMR Studio funktioniert - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Wie Amazon EMR Studio funktioniert

Ein Amazon EMR Studio ist eine Amazon-EMR-Ressource, die Sie für ein Team von Benutzern erstellen. EMR Studio ist eine webbasierte, integrierte Entwicklungsumgebung für vollständig verwaltete Jupyter-Notebooks, die auf Amazon-EMR-Clustern ausgeführt werden. Benutzer melden sich mit Unternehmensanmeldeinformationen bei einem Studio an.

Jedes EMR Studio, das Sie erstellen, verwendet die folgenden AWS-Ressourcen:

  • Eine Amazon Virtual Private Cloud (VPC) mit Subnetzen – Benutzer führen Studio-Kernel und -Anwendungen auf Amazon EMR und Amazon EMR auf EKS-Clustern in der angegebenen VPC aus. Ein EMR Studio kann eine Verbindung zu jedem Cluster in den Subnetzen herstellen, die Sie beim Erstellen des Studios angeben.

  • IAM-Rollen und Berechtigungsrichtlinien – Um Benutzerberechtigungen zu verwalten, erstellen Sie IAM-Berechtigungsrichtlinien, die Sie der IAM-Identität eines Benutzers oder einer Benutzerrolle zuordnen. EMR Studio verwendet auch eine IAM-Servicerolle und Sicherheitsgruppen, um mit anderen AWS-Services zusammenzuarbeiten. Weitere Informationen erhalten Sie unter Zugriffskontrolle und Definieren Sie Sicherheitsgruppen zur Steuerung des EMR Studio-Netzwerkverkehrs.

  • Sicherheitsgruppen – EMR Studio verwendet Sicherheitsgruppen, um einen sicheren Netzwerkkanal zwischen dem Studio und einem EMR-Cluster einzurichten.

  • Ein Amazon-S3-Backup-Speicherort – EMR Studio speichert Notebookarbeiten an einem Amazon-S3-Speicherort.

In den folgenden Schritten wird beschrieben, wie Sie ein EMR Studio erstellen und verwalten:

  1. Erstellen Sie ein Studio in Ihrem AWS-Konto mit entweder IAM- oder IAM-Identity-Center-Authentifizierung. Detaillierte Anweisungen finden Sie unter Richten Sie ein Amazon EMR Studio ein.

  2. Weisen Sie Ihrem Studio Benutzer und Gruppen zu. Verwenden Sie Berechtigungsrichtlinien, um detaillierte Berechtigungen für jeden Benutzer festzulegen. Weitere Informationen finden Sie im Thema EMRStudio-Benutzer zuweisen und verwalten .

  3. Beginnen Sie mit der Überwachung von EMR-Studio-Aktionen mit AWS CloudTrail-Ereignissen. Weitere Informationen finden Sie unter Amazon EMR Studio-Aktionen überwachen.

  4. Bieten Sie Studio-Benutzern mehr Cluster-Optionen mit Cluster-Vorlagen und Amazon EMR in EKS-verwalteten Endpunkten.

Authentifizierung und Benutzeranmeldung

Amazon EMR Studio unterstützt zwei Authentifizierungsmodi: den IAM-Authentifizierungsmodus und den IAM-Identity-Center-Authentifizierungsmodus. Der IAM-Modus verwendet AWS Identity and Access Management (IAM), während der IAM-Identity-Center-Modus AWS IAM Identity Center verwendet. Wenn Sie ein EMR Studio erstellen, wählen Sie den Authentifizierungsmodus für alle Benutzer dieses Studios.

IAM-Authentifizierungsmodus

Im IAM-Authentifizierungsmodus können Sie entweder die IAM-Authentifizierung oder den IAM-Verbund verwenden.

Mit der IAM-Authentifizierung können Sie IAM-Identitäten wie Benutzer, Gruppen und Rollen in IAM verwalten. Sie gewähren Benutzern Zugriff auf ein Studio mit IAM-Berechtigungsrichtlinien und attributbasierter Zugriffskontrolle (ABAC).

Mit dem IAM-Verbund können Sie Vertrauen zwischen einem externen Identitätsanbieter (IdP) aufbauen und AWS-Benutzeridentitäten über Ihren IdP verwalten.

Authentifizierungsmodus von IAM Identity Center

Mit dem IAM-Identity-Center-Authentifizierungsmodus können Sie Benutzern Verbundzugriff auf ein EMR Studio gewähren. Sie können IAM Identity Center verwenden, um Benutzer und Gruppen aus Ihrem IAM-Identity-Center-Verzeichnis, Ihrem vorhandenen Unternehmensverzeichnis oder einem externen IdP wie Azure Active Directory (AD) zu authentifizieren. Sie verwalten dann Benutzer mit Ihrem Identitätsanbieter (IdP).

EMR Studio unterstützt die Verwendung der folgenden Identitätsanbieter für IAM Identity Center:

Wie sich die Authentifizierung auf die Anmeldung und die Benutzerzuweisung auswirkt

Der Authentifizierungsmodus, den Sie für EMR Studio wählen, wirkt sich darauf aus, wie sich Benutzer bei einem Studio anmelden, wie Sie einen Benutzer einem Studio zuweisen und wie Sie Benutzer autorisieren (ihnen Berechtigungen erteilen), Aktionen wie das Erstellen neuer Amazon-EMR-Cluster auszuführen.

In der folgenden Tabelle sind die Anmeldemethoden für EMR Studio nach Authentifizierungsmodus zusammengefasst.

EMR-Studio-Anmeldeoptionen nach Authentifizierungsmodus
Authentifizierungsmodus Anmelde-Methode Beschreibung
  • IAM (Authentifizierung und Verbund)

  • IAM Identity Center

EMR-Studio-URL

Benutzer melden sich mit der Studio-Zugriffs-URL bei einem Studio an. Beispiel: https://xxxxxxxxxxxxxxxxxxxxxxx.emrstudio-prod.us-east-1.amazonaws.com.

Benutzer geben IAM-Anmeldeinformationen ein, wenn Sie die IAM-Authentifizierung verwenden. Wenn Sie IAM-Verbund oder IAM Identity Center verwenden, leitet EMR Studio Benutzer zur Eingabe der Anmeldeinformationen zur Anmelde-URL Ihres Identitätsanbieters weiter.

Im Zusammenhang mit dem Identitätsverbund wird diese Anmeldeoption als vom Serviceanbieter (SP) initiierte Anmeldung bezeichnet.

  • IAM (Verbund)

  • IAM Identity Center

Identitätsanbieter-(IdP)-Portal

Benutzer melden sich beim Portal Ihres Identitätsanbieters an, z. B. beim Azure-Portal, und starten die Amazon-EMR-Konsole. Nach dem Start der Amazon-EMR-Konsole wählen Benutzer ein Studio aus der Studio-Liste aus und öffnen es.

Sie können EMR Studio auch als SAML-Anwendung konfigurieren, sodass sich Benutzer über das Portal Ihres Identitätsanbieters bei einem bestimmten Studio anmelden können. Anweisungen finden Sie unter So konfigurieren Sie ein EMR Studio als SAML-Anwendung in Ihrem IdP-Portal.

Im Zusammenhang mit dem Identitätsverbund wird diese Anmeldeoption als vom Identitätsanbieter (IdP) initiierte Anmeldung bezeichnet.

  • IAM (Authentifizierung)

AWS Management Console Benutzer melden sich bei AWS Management Console mit IAM-Anmeldeinformationen an und öffnen ein Studio aus der Studios-Liste in der Amazon-EMR-Konsole.

In der folgenden Tabelle werden die Benutzerzuweisung und Autorisierung für EMR Studio nach Authentifizierungsmodus beschrieben.

EMR Studio Benutzerzuweisung und Autorisierung im Authentifizierungsmodus
Authentifizierungsmodus Benutzerzuweisung Benutzer-Autorisierung

IAM (Authentifizierung und Verbund)

Zulassen der CreateStudioPresignedUrl Aktion in einer IAM-Berechtigungsrichtlinie, die an eine IAM-Identität (Benutzer, Gruppe oder Rolle) angefügt ist.

Lassen Sie für Verbundbenutzer die CreateStudioPresignedUrl-Aktion in einem IAM in der Berechtigungsrichtlinie zu, die Sie für die IAM-Rolle konfigurieren, die Sie für den Verbund verwenden.

Verwenden Sie die attributbasierte Zugriffskontrolle (ABAC), um das Studio oder die Studios anzugeben, auf die der Benutzer zugreifen kann.

Detaillierte Anweisungen finden Sie unter Weisen Sie einem EMR Studio einen Benutzer oder eine Gruppe zu.

Definieren Sie IAM-Berechtigungsrichtlinien, die bestimmte EMR-Studio-Aktionen zulassen.

Hängen Sie für native Benutzer die IAM-Berechtigungsrichtlinie an eine IAM-Identität (Benutzer, Gruppe oder Rolle) an. Lassen Sie für Verbundbenutzer Studio-Aktionen in der Berechtigungsrichtlinie zu, die Sie für die IAM-Rolle konfigurieren, die Sie für den Verbund verwenden.

Weitere Informationen finden Sie unter EMRStudio-Benutzerberechtigungen für Amazon EC2 oder Amazon konfigurieren EKS.

IAM Identity Center

Ordnen Sie bei Studios, bei denen IdCUserAssignment auf REQUIRED eingestellt wurde, Benutzer dem Studio mit einer bestimmten Sitzungsrichtlinie zu. Weitere Informationen finden Sie unter Weisen Sie einem EMR Studio einen Benutzer oder eine Gruppe zu.

Bei Studios, bei denen IdCUserAssignment auf OPTIONAL eingestellt wurde, kann jeder Identity-Center-Benutzer oder jede Identity-Center-Gruppe auf das Studio zugreifen.

Optional: Definieren Sie IAM-Sitzungsrichtlinien, die bestimmte EMR-Studio-Aktionen zulassen. Ordnen Sie einem Benutzer eine Sitzungsrichtlinie zu, wenn Sie ihn einem Studio zuweisen.

Weitere Informationen finden Sie unter Benutzerberechtigungen für den IAM-Identity-Center-Authentifizierungsmodus.

Zugriffskontrolle

In Amazon EMR Studio konfigurieren Sie die Benutzerautorisierung (Berechtigungen) mit identitätsbasierten AWS Identity and Access Management (IAM)-Richtlinien. In diesen Richtlinien geben Sie zulässige Aktionen und Ressourcen sowie die Bedingungen an, unter denen die Aktionen zulässig sind.

Benutzerberechtigungen für den IAM-Authentifizierungsmodus

Um Benutzerberechtigungen festzulegen, wenn Sie die IAM-Authentifizierung für EMR Studio verwenden, lassen Sie Aktionen zu, z. B. elasticmapreduce:RunJobFlow in einer IAM-Berechtigungsrichtlinie. Sie können eine oder mehrere zu verwendende Berechtigungsrichtlinien erstellen. Sie könnten beispielsweise eine grundlegende Richtlinie erstellen, die es einem Benutzer nicht erlaubt, neue Amazon-EMR-Cluster zu erstellen, und eine weitere Richtlinie, die die Clustererstellung zulässt. Eine Liste aller Studio-Aktionen finden Sie unter AWS Identity and Access Management Berechtigungen für EMR Studio-Benutzer.

Benutzerberechtigungen für den IAM-Identity-Center-Authentifizierungsmodus

Wenn Sie die IAM-Identity-Center-Authentifizierung verwenden, erstellen Sie eine einzelne EMR-Studio-Benutzerrolle. Die Benutzerrolle ist eine dedizierte IAM-Rolle, die ein Studio annimmt, wenn sich ein Benutzer anmeldet.

Sie fügen der EMR-Studio-Benutzerrolle IAM-Sitzungsrichtlinien hinzu. Eine Sitzungsrichtlinie ist eine spezielle Art von IAM-Berechtigungsrichtlinie, die einschränkt, was ein Verbundbenutzer während einer Studio-Anmeldesitzung tun kann. Mit Sitzungsrichtlinien können Sie spezifische Berechtigungen für einen Benutzer oder eine Gruppe festlegen, ohne mehrere Benutzerrollen für EMR Studio erstellen zu müssen.

Wenn Sie einem Studio Benutzer und Gruppen zuweisen, ordnen Sie diesem Benutzer oder dieser Gruppe eine Sitzungsrichtlinie zu, um detaillierte Berechtigungen anzuwenden. Sie können die Sitzungsrichtlinie eines Benutzers oder einer Gruppe auch jederzeit aktualisieren. Amazon EMR speichert jede Sitzungsrichtlinienzuweisung, die Sie erstellen.

Weitere allgemeine Informationen zu Sitzungs-Richtlinien finden Sie unter Berechtigungen und Richtlinien im AWS Identity and Access Management-Benutzerhandbuch.

Workspaces

Workspaces sind die wichtigsten Bausteine von Amazon EMR Studio. Um Notebooks zu organisieren, erstellen Benutzer einen oder mehrere Workspaces in einem Studio. Weitere Informationen finden Sie unter Informationen über Workspace-Grundlagen.

Ähnlich wie Workspaces in JupyterLab behält ein Workspace den Status der Notebook-Arbeit bei. Die Workspace-Benutzeroberfläche erweitert jedoch die Open-Source-Benutzeroberfläche von JupyterLab um zusätzliche Tools, mit denen Sie EMR-Cluster erstellen und anhängen, Aufträge ausführen, Beispiel-Notebooks durchsuchen und Git-Repositorys verknüpfen können.

Die folgende Liste enthält die wichtigsten Features von EMR Studio Workspaces:

  • Die Sichtbarkeit von Workspace basiert auf Studio. Workspaces, die Sie in einem Studio erstellen, sind in anderen Studios nicht sichtbar.

  • Standardmäßig wird ein Workspace geteilt und kann von allen Studio-Benutzern gesehen werden. Es kann jedoch jeweils nur ein Benutzer einen Workspace öffnen und darin arbeiten. Um gleichzeitig mit anderen Benutzern zu arbeiten, können Sie Konfigurieren Sie die Zusammenarbeit im Workspace

  • Sie können gleichzeitig mit anderen Benutzern in einem Workspace zusammenarbeiten, wenn Sie die Workspace-Zusammenarbeit aktivieren. Weitere Informationen finden Sie unter Konfigurieren Sie die Zusammenarbeit im Workspace.

  • Notebooks in einem Workspace verwenden denselben EMR-Cluster, um Befehle auszuführen. Sie können einen Workspace an einen Amazon-EMR-Cluster anhängen, der auf Amazon EC2 ausgeführt wird, oder an einen virtuellen Amazon EMR in EKS-Cluster und verwalteten Endpunkt.

  • Workspaces können zu einer anderen Availability Zone wechseln, die Sie den Subnetzen eines Studios zuordnen. Sie können einen Workspace beenden und neu starten, um den Failover-Prozess einzuleiten. Wenn Sie einen Workspace neu starten, startet EMR Studio den Workspace in einer anderen Availability Zone in der VPC des Studios, wenn das Studio mit Zugriff auf mehrere Availability Zones konfiguriert ist. Wenn das Studio nur über eine Availability Zone verfügt, versucht EMR Studio, den Workspace in einem anderen Subnetz zu starten. Weitere Informationen finden Sie unter Beheben von Workspace-Verbindungsproblemen.

  • Ein Workspace kann eine Verbindung zu Clustern in allen Subnetzen herstellen, die einem Studio zugeordnet sind.

Weitere Informationen zum Erstellen und Konfigurieren von EMR Studio Workspaces finden Sie unter Informationen über Workspace-Grundlagen.

Notebook-Speicher in Amazon EMR Studio

Wenn Sie einen Workspace verwenden, speichert EMR Studio die Zellen in Notebookdateien automatisch in regelmäßigen Abständen an dem Amazon-S3-Speicherort, der mit Ihrem Studio verknüpft ist. Bei diesem Backup-Prozess bleibt die Arbeit zwischen den Sitzungen erhalten, sodass Sie später darauf zurückgreifen können, ohne Änderungen an ein Git-Repository zu übertragen. Weitere Informationen finden Sie unter Workspace-Inhalt speichern.

Wenn Sie eine Notebook-Datei aus einem Workspace löschen, löscht EMR Studio die Backup-Version für Sie aus Amazon S3. Wenn Sie jedoch einen Workspace löschen, ohne zuerst die zugehörigen Notebookdateien zu löschen, verbleiben die Notebookdateien in Amazon S3 und es fallen weiterhin Speichergebühren an. Weitere Informationen hierzu finden Sie unter Löschen Sie einen Workspace und Notebookdateien.