Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Generative KI-Fehlerbehebung für Apache Spark in AWS Glue
Die generative KI-Fehlerbehebung für die Vorschau von Apache Spark ist für Aufträge verfügbar, die auf AWS Glue 4.0 ausgeführt werden, und in den folgenden AWS Regionen: US East (N. Virginia), USA Ost (Ohio), USA West (Oregon), USA West (Kalifornien), Europa (Stockholm), Asien-Pazifik (Tokio), Asien-Pazifik (Mumbai) und Asien-Pazifik (Sydney). Die Funktionen für die Vorschau können sich ändern. |
Generative KI-Fehlerbehebung für Apache Spark-Jobs in AWS Glue ist eine neue Funktion, mit der Dateningenieure und Wissenschaftler Probleme in ihren Spark-Anwendungen mühelos diagnostizieren und beheben können. Mithilfe von maschinellem Lernen und generativen KI-Technologien analysiert diese Funktion Probleme in Spark-Jobs und bietet eine detaillierte Ursachenanalyse sowie umsetzbare Empfehlungen zur Lösung dieser Probleme.
Wie funktioniert Generative KI Troubleshooting für Apache Spark?
Für Ihre fehlgeschlagenen Spark-Jobs analysiert Generative AI Troubleshooting die Job-Metadaten und die genauen Metriken und Protokolle, die mit der Fehlersignatur Ihres Jobs verknüpft sind, um eine Ursachenanalyse zu erstellen, und empfiehlt spezifische Lösungen und bewährte Verfahren zur Behebung von Jobfehlern.
Einrichtung von Generative KI Troubleshooting für Apache Spark für Ihre Jobs
Anmerkung
In der Vorschauversion hilft diese Funktion bei der Fehlerbehebung bei AWS Glue 4.0-Jobs, die innerhalb der ersten 30 Minuten ihrer Ausführung fehlschlagen.
IAMBerechtigungen konfigurieren
Um Benutzern, die von Spark Troubleshooting für Ihre Jobs in AWS Glue APIs verwendet werden, Berechtigungen zu gewähren, sind entsprechende IAM Berechtigungen erforderlich. Sie können Berechtigungen erhalten, indem Sie die folgende benutzerdefinierte AWS Richtlinie an Ihre IAM Identität (z. B. einen Benutzer, eine Rolle oder eine Gruppe) anfügen.
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue:StartCompletion", "glue:GetCompletion" ], "Resource": [ "arn:aws:glue:*:*:completion/*" ] } ] }
Anmerkung
In der Vorschauversion steht Spark Troubleshooting nicht über den APIs zur Verfügung AWS SDK, den Sie programmgesteuert verwenden können. Die folgenden beiden APIs werden in der IAM Richtlinie verwendet, um diese Erfahrung über die AWS Glue Studio-Konsole zu aktivieren: StartCompletion
undGetCompletion
.
Zuweisen von Berechtigungen
Um Zugriff zu gewähren, fügen Sie Ihren Benutzern, Gruppen oder Rollen Berechtigungen hinzu:
-
Für Benutzer und Gruppen in IAM Identity Center: Erstellen Sie einen Berechtigungssatz. Folgen Sie den Anweisungen unter Einen Berechtigungssatz erstellen im IAM Identity Center-Benutzerhandbuch.
-
Für Benutzer, IAM die über einen Identitätsanbieter verwaltet werden: Erstellen Sie eine Rolle für den Identitätsverbund. Befolgen Sie die Anweisungen unter Erstellen einer Rolle für einen Drittanbieter-Identitätsanbieter (Verbund) im IAM Benutzerhandbuch.
-
Für IAM Benutzer: Erstellen Sie eine Rolle, die Ihr Benutzer annehmen kann. Folgen Sie den Anweisungen unter Eine Rolle für einen IAM Benutzer erstellen im IAM Benutzerhandbuch.
Die Analyse zur Problembehandlung wird anhand eines fehlgeschlagenen Auftrags ausgeführt
Sie können über mehrere Pfade in der AWS Glue-Konsole auf die Fehlerbehebungsfunktion zugreifen. Sie ist wie folgt erhältlich:
Option 1: Auf der Seite mit der Jobliste
-
Öffnen Sie die AWS Glue-Konsole unter https://console.aws.amazon.com/glue/
. -
Wählen Sie im Navigationsbereich die Option ETLAufträge aus.
-
Suchen Sie Ihren fehlgeschlagenen Job in der Jobliste.
-
Wählen Sie im Abschnitt mit den Auftragsdetails die Registerkarte Läufe aus.
-
Klicken Sie auf die fehlgeschlagene Auftragsausführung, die Sie analysieren möchten.
-
Wählen Sie Troubleshooting with AI, um die Analyse zu starten.
-
Wenn die Analyse zur Fehlerbehebung abgeschlossen ist, können Sie die Ursachenanalyse und die Empfehlungen auf der Registerkarte Analyse zur Fehlerbehebung am unteren Bildschirmrand einsehen.
Option 2: Verwenden der Seite „Job Run Monitoring“
-
Navigieren Sie zur Seite zur Überwachung der Jobausführung.
-
Suchen Sie nach Ihrer fehlgeschlagenen Auftragsausführung.
-
Wählen Sie das Dropdown-Menü Aktionen.
-
Wählen Sie Problembehandlung mit KI.
Option 3: Von der Seite mit den Job-Ausführungsdetails
-
Navigieren Sie zur Detailseite Ihres fehlgeschlagenen Auftragslaufs, indem Sie entweder auf der Registerkarte Ausführungen auf Details zu einem fehlgeschlagenen Lauf anzeigen klicken oder den ausgeführten Job auf der Seite zur Überwachung des Auftragslaufs auswählen.
-
Suchen Sie auf der Detailseite des Auftragslaufs die Registerkarte Analyse zur Fehlerbehebung.
Unterstützte Kategorien für die Fehlerbehebung (Vorschau)
Dieser Service konzentriert sich auf drei Hauptkategorien von Problemen, auf die Dateningenieure und Entwickler in ihren Spark-Anwendungen häufig stoßen:
-
Fehler bei der Einrichtung und beim Zugriff auf Ressourcen: Beim Ausführen von Spark-Anwendungen in AWS Glue gehören Fehler bei der Einrichtung und beim Zugriff auf Ressourcen zu den häufigsten, aber schwierig zu diagnostizierenden Problemen. Diese Fehler treten häufig auf, wenn Ihre Spark-Anwendung versucht, mit AWS Ressourcen zu interagieren, aber auf Berechtigungsprobleme, fehlende Ressourcen oder Konfigurationsprobleme stößt.
-
Speicherprobleme mit Spark-Treibern und Executoren: Speicherbezogene Fehler in Apache Spark-Jobs können komplex zu diagnostizieren und zu beheben sein. Diese Fehler treten häufig auf, wenn Ihre Datenverarbeitungsanforderungen die verfügbaren Speicherressourcen überschreiten, entweder auf dem Treiberknoten oder auf den Executor-Knoten.
-
Probleme mit der Spark-Festplattenkapazität: Speicherbedingte Fehler in AWS Glue Spark-Jobs treten häufig bei Shuffle-Vorgängen, beim Verschütten von Daten oder bei umfangreichen Datentransformationen auf. Diese Fehler können besonders knifflig sein, da sie möglicherweise erst auftreten, wenn Ihr Job eine Weile ausgeführt wurde, wodurch möglicherweise wertvolle Rechenzeit und Ressourcen verschwendet werden.
Anmerkung
Bevor Sie vorgeschlagene Änderungen in Ihrer Produktionsumgebung implementieren, sollten Sie die vorgeschlagenen Änderungen sorgfältig prüfen. Der Service bietet Empfehlungen, die auf Mustern und bewährten Methoden basieren. Ihr spezieller Anwendungsfall erfordert jedoch möglicherweise zusätzliche Überlegungen.