Speichern von Protokollen - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Speichern von Protokollen

Um Ihren Auftragsfortschritt auf EMR Serverless zu überwachen und Auftragsfehler zu beheben, können Sie wählen, wie EMR Serverless Anwendungsprotokolle speichert und bereitstellt. Wenn Sie eine Auftragsausführung einreichen, können Sie Managed Storage, Amazon S3 und Amazon CloudWatch als Protokollierungsoptionen angeben.

Mit CloudWatch können Sie die Protokolltypen und Protokollspeicherorte angeben, die Sie verwenden möchten, oder die Standardtypen und Speicherorte akzeptieren. Weitere Informationen zu CloudWatch Protokollen finden Sie unterLogging für EMR Serverless mit Amazon CloudWatch. Bei verwaltetem Speicher und S3-Protokollierung zeigt die folgende Tabelle die Protokollspeicherorte und die Verfügbarkeit der Benutzeroberfläche, die Sie erwarten können, wenn Sie sich für verwalteten Speicher, Amazon S3 S3-Buckets oder beides entscheiden.

Option Ereignisprotokolle Containerprotokolle Benutzeroberfläche der Anwendung

Verwalteter Speicher

In verwaltetem Speicher gespeichert

Im verwalteten Speicher gespeichert

Unterstützt

Sowohl verwalteter Speicher als auch S3-Bucket

An beiden Orten gespeichert

Im S3-Bucket gespeichert

Unterstützt

Amazon-S3-Bucket

Im S3-Bucket gespeichert

Im S3-Bucket gespeichert

Nicht unterstützt 1

1 Wir empfehlen, dass Sie die Option Verwalteter Speicher ausgewählt lassen. Andernfalls können Sie die integrierte Anwendung nicht verwendenUIs.

Protokollierung für EMR Serverless mit verwaltetem Speicher

Standardmäßig speichert EMR Serverless Anwendungsprotokolle sicher für maximal 30 Tage im von Amazon EMR verwalteten Speicher.

Anmerkung

Wenn Sie die Standardoption deaktivieren, EMR kann Amazon Ihre Jobs nicht in Ihrem Namen beheben.

Um diese Option in EMR Studio zu deaktivieren, deaktivieren Sie AWS auf der Seite Job einreichen im Abschnitt Zusätzliche Einstellungen das Kontrollkästchen Aufbewahrung von Protokollen für 30 Tage zulassen.

Um diese Option in der zu deaktivieren AWS CLI, verwenden Sie die managedPersistenceMonitoringConfiguration Konfiguration, wenn Sie eine Jobausführung einreichen.

{ "monitoringConfiguration": { "managedPersistenceMonitoringConfiguration": { "enabled": false } } }

Protokollierung für EMR Serverless mit Amazon S3 S3-Buckets

Bevor Ihre Jobs Protokolldaten an Amazon S3 senden können, müssen Sie die folgenden Berechtigungen in die Berechtigungsrichtlinie für die Job-Runtime-Rolle aufnehmen. amzn-s3-demo-logging-bucketErsetzen Sie es durch den Namen Ihres Logging-Buckets.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-logging-bucket/*" ] } ] }

Um einen Amazon S3 S3-Bucket zum Speichern von Protokollen einzurichten AWS CLI, verwenden Sie die s3MonitoringConfiguration Konfiguration, wenn Sie einen Joblauf starten. Geben Sie dazu --configuration-overrides in der Konfiguration Folgendes an.

{ "monitoringConfiguration": { "s3MonitoringConfiguration": { "logUri": "s3://amzn-s3-demo-logging-bucket/logs/" } } }

Bei Batch-Aufträgen, für die keine Wiederholungsversuche aktiviert sind, sendet EMR Serverless die Protokolle an den folgenden Pfad:

'/applications/<applicationId>/jobs/<jobId>'

EMRServerless Releases 7.1.0 und höher unterstützen Wiederholungsversuche für Streaming-Jobs und Batch-Jobs. Wenn Sie einen Job mit aktivierten Wiederholungsversuchen ausführen, fügt EMR Serverless dem Protokollpfadpräfix automatisch eine Versuchsnummer hinzu, sodass Sie Protokolle besser unterscheiden und verfolgen können.

'/applications/<applicationId>/jobs/<jobId>/attempts/<attemptNumber>/'

Logging für EMR Serverless mit Amazon CloudWatch

Wenn Sie einen Job für eine EMR serverlose Anwendung einreichen, können Sie Amazon CloudWatch als Option zum Speichern Ihrer Bewerbungsprotokolle wählen. Auf diese Weise können Sie CloudWatch Protokollanalysefunktionen wie CloudWatch Logs Insights und Live Tail verwenden. Sie können Protokolle auch von CloudWatch anderen Systemen streamen, z. B. OpenSearch zur weiteren Analyse.

EMRServerless bietet Echtzeitprotokollierung für Treiberprotokolle. Sie können die Protokolle in Echtzeit mit der CloudWatch Live-Tail-Funktion oder über CloudWatch CLI Tail-Befehle anzeigen.

Standardmäßig ist die CloudWatch Protokollierung für EMR Serverless deaktiviert. Informationen zur Aktivierung finden Sie in AWS CLI der Konfiguration unter.

Anmerkung

Amazon CloudWatch veröffentlicht Protokolle in Echtzeit, sodass mehr Ressourcen von Mitarbeitern benötigt werden. Wenn Sie sich für eine geringe Arbeitskapazität entscheiden, kann sich die Auswirkung auf die Laufzeit Ihres Jobs erhöhen. Wenn Sie die CloudWatch Protokollierung aktivieren, empfehlen wir Ihnen, eine höhere Arbeitskapazität zu wählen. Es ist auch möglich, dass die Protokollveröffentlichung drosselt, wenn die Rate der Transaktionen pro Sekunde (TPS) für zu niedrig istPutLogEvents. Die CloudWatch Drosselungskonfiguration gilt global für alle Dienste, einschließlich EMR Serverless. Weitere Informationen finden Sie unter Wie stelle ich die Drosselung in meinen Protokollen fest? CloudWatch auf AWS re:post.

Erforderliche Berechtigungen für das Loggen mit CloudWatch

Bevor Ihre Jobs Protokolldaten an Amazon senden können CloudWatch, müssen Sie die folgenden Berechtigungen in die Berechtigungsrichtlinie für die Job-Runtime-Rolle aufnehmen.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "logs:DescribeLogGroups" ], "Resource": [ "arn:aws:logs:AWS-Region:111122223333:*" ] }, { "Effect": "Allow", "Action": [ "logs:PutLogEvents", "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogStreams" ], "Resource": [ "arn:aws:logs:AWS-Region:111122223333:log-group:my-log-group-name:*" ] } ] }

AWS CLI

CloudWatch Um Amazon so einzurichten, dass Protokolle für EMR Serverless von gespeichert werden AWS CLI, verwenden Sie die cloudWatchLoggingConfiguration Konfiguration, wenn Sie einen Joblauf starten. Stellen Sie dazu die folgenden Konfigurationsüberschreibungen bereit. Optional können Sie auch einen Protokollgruppennamen, einen Protokollstream-Präfixnamen, Protokolltypen und einen Verschlüsselungsschlüssel ARN angeben.

Wenn Sie die optionalen Werte nicht angeben, werden die Protokolle in einer Standardprotokollgruppe /aws/emr-serverless mit dem Standardprotokollstream CloudWatch veröffentlicht/applications/applicationId/jobs/jobId/worker-type.

EMRServerlose Versionen 7.1.0 und höher unterstützen Wiederholungsversuche für Streaming-Jobs und Batch-Jobs. Wenn Sie Wiederholungsversuche für einen Job aktiviert haben, fügt EMR Serverless dem Protokollpfadpräfix automatisch eine Versuchsnummer hinzu, sodass Sie Protokolle besser unterscheiden und verfolgen können.

'/applications/<applicationId>/jobs/<jobId>/attempts/<attemptNumber>/worker-type'

Im Folgenden wird die Mindestkonfiguration gezeigt, die erforderlich ist, um die CloudWatch Amazon-Protokollierung mit den Standardeinstellungen für EMR Serverless zu aktivieren:

{ "monitoringConfiguration": { "cloudWatchLoggingConfiguration": { "enabled": true } } }

Das folgende Beispiel zeigt alle erforderlichen und optionalen Konfigurationen, die Sie angeben können, wenn Sie die CloudWatch Amazon-Protokollierung für EMR Serverless aktivieren. Die unterstützten logTypes Werte sind ebenfalls unter diesem Beispiel aufgeführt.

{ "monitoringConfiguration": { "cloudWatchLoggingConfiguration": { "enabled": true, // Required "logGroupName": "Example_logGroup", // Optional "logStreamNamePrefix": "Example_logStream", // Optional "encryptionKeyArn": "key-arn", // Optional "logTypes": { "SPARK_DRIVER": ["stdout", "stderr"] //List of values } } } }

Standardmäßig veröffentlicht EMR Serverless nur die Treiberprotokolle von stdout und stderr. CloudWatch Wenn Sie andere Protokolle wünschen, können Sie im Feld eine Container-Rolle und die entsprechenden Protokolltypen angeben. logTypes

Die folgende Liste zeigt die unterstützten Worker-Typen, die Sie für die logTypes Konfiguration angeben können:

Spark
  • SPARK_DRIVER : ["STDERR", "STDOUT"]

  • SPARK_EXECUTOR : ["STDERR", "STDOUT"]

Hive
  • HIVE_DRIVER : ["STDERR", "STDOUT", "HIVE_LOG", "TEZ_AM"]

  • TEZ_TASK : ["STDERR", "STDOUT", "SYSTEM_LOGS"]