Fehlerbehebung - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Fehlerbehebung

Wenn Sie mit EMR Amazon-Clustern von Studio- oder Studio Classic-Notebooks aus arbeiten, können Sie während des Verbindungs- oder Nutzungsprozesses auf verschiedene potenzielle Probleme oder Herausforderungen stoßen. Um Ihnen bei der Behebung und Behebung dieser Fehler zu helfen, finden Sie in diesem Abschnitt Anleitungen zu häufig auftretenden Problemen.

Im Folgenden sind häufig auftretende Fehler aufgeführt, die beim Verbinden oder Verwenden von EMR Amazon-Clustern aus Studio- oder Studio Classic-Notebooks auftreten können.

Probleme mit Livy-Verbindungen beheben, die hängen bleiben oder fehlschlagen

Im Folgenden sind Livy-Verbindungsprobleme aufgeführt, die bei der Verwendung von EMR Amazon-Clustern aus Studio- oder Studio Classic-Notebooks auftreten können.

  • In Ihrem EMR Amazon-Cluster ist ein out-of-memory Fehler aufgetreten.

    Ein möglicher Grund dafür, dass eine Livy-Verbindung sparkmagic hängenbleibt oder fehlschlägt, liegt darin, dass in Ihrem EMR Amazon-Cluster ein out-of-memory Fehler aufgetreten ist.

    Standardmäßig ist der Java-Konfigurationsparameter des Apache Spark-Treibers spark.driver.defaultJavaOptions auf -XX:OnOutOfMemoryError='kill -9 %p' eingestellt. Das bedeutet, dass die Standardaktion, die ergriffen wird, wenn das Treiberprogramm auf ein trifft, OutOfMemoryError darin besteht, das Treiberprogramm durch Senden eines SIGKILL Signals zu beenden. Wenn der Apache Spark-Treiber beendet wird, bleibt jede Livy-Verbindung über sparkmagic, die von diesem Treiber abhängt, hängen oder schlägt fehl. Das liegt daran, dass der Spark-Treiber für die Verwaltung der Ressourcen der Spark-Anwendung verantwortlich ist. Dazu gehören auch die Aufgabenplanung und -ausführung. Ohne den Treiber kann die Spark-Anwendung nicht funktionieren, und alle Versuche, mit ihr zu interagieren, schlagen fehl.

    Wenn Sie vermuten, dass in Ihrem Spark-Cluster Speicherprobleme auftreten, können Sie die EMRAmazon-Protokolle überprüfen. Container, die aufgrund von out-of-memory Fehlern getötet wurden, werden normalerweise mit dem Code beendet137. In solchen Fällen müssen Sie die Spark-Anwendung neu starten und eine neue Livy-Verbindung herstellen, um die Interaktion mit dem Spark-Cluster wieder aufzunehmen.

    Weitere Informationen finden Sie im Knowledgebase-Artikel Wie behebe ich den Fehler „Container wurde getötet, YARN weil er Speichergrenzen überschritten hat“ in Spark auf AmazonEMR? weiter AWS re:Post , um mehr über verschiedene Strategien und Parameter zu erfahren, mit denen ein Problem out-of-memory behoben werden kann.

    Wir empfehlen, in den Amazon EMR Best Practices Guides nach bewährten Methoden und Anleitungen zur Optimierung von Apache Spark-Workloads auf Ihren EMR Amazon-Clustern zu suchen.

  • Ihre Livy-Sitzung läuft ab, wenn Sie sich zum ersten Mal mit einem EMR Amazon-Cluster verbinden.

    Wenn Sie zum ersten Mal eine Verbindung zu einem EMR Amazon-Cluster herstellen sagemaker-studio-analytics-extension, der die Verbindung zu einem Remote-Spark-Cluster (AmazonEMR) über die SparkMagicBibliothek mithilfe von Apache Livy ermöglicht, kann ein Verbindungs-Timeout-Fehler auftreten:

    An error was encountered: Session 0 did not start up in 60 seconds.

    Wenn Ihr EMR Amazon-Cluster beim Herstellen einer Verbindung die Initialisierung einer Spark-Anwendung erfordert, besteht eine erhöhte Wahrscheinlichkeit, dass Verbindungs-Timeout-Fehler auftreten.

    Um die Wahrscheinlichkeit von Timeouts zu verringern, wenn eine Verbindung zu einem EMR Amazon-Cluster mithilfe von Livy über die Analytics-Erweiterung hergestellt wird, überschreiben sagemaker-studio-analytics-extension Version 0.0.19 und später das standardmäßige Timeout für Serversitzungen auf 120 Sekunden anstelle sparkmagic des Standard-Sekunden-Timeouts auf Sekunden. 60

    Wir empfehlen, Ihre Erweiterung 0.0.18 und früher zu aktualisieren, indem Sie den folgenden Upgrade-Befehl ausführen.

    pip install --upgrade sagemaker-studio-analytics-extension

    Beachten Sie, dass bei der Bereitstellung einer benutzerdefinierten Konfiguration für die Zeitüberschreitung insparkmagic sagemaker-studio-analytics-extension diese Änderung berücksichtigt. Wenn Sie die Zeitüberschreitung für eine Sitzung auf 60 Sekunden festlegen, wird die standardmäßige Zeitüberschreitung für Serversitzungen von 120 Sekunden allerdings automatisch in sagemaker-studio-analytics-extension geändert.