Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwendung von Auftragsparametern in Ray-Aufträgen
Sie legen Argumente für AWS Glue Ray-Jobs genauso fest wie Argumente AWS Glue für Spark-Jobs. Weitere Informationen zur AWS Glue API finden Sie unterAufträge. Sie können AWS Glue Ray-Jobs mit verschiedenen Argumenten konfigurieren, die in dieser Referenz aufgeführt sind. Sie können auch Ihre eigenen Argumente angeben.
Sie können einen Auftrag über die Konsole auf der Registerkarte Job details (Auftragsdetails) unter der Überschrift Job Parameters (Auftragsparameter) konfigurieren. Sie können einen Job auch über die Einstellung AWS CLI by für einen Job oder für die Einstellung DefaultArguments
für einen Job, Arguments
der ausgeführt wird, konfigurieren. Standardargumente und Auftragsparameter bleiben bei mehreren Ausführungen des Auftrags erhalten.
Im Folgenden wird die Syntax zum Ausführen eines Auftrags mit --arguments
für das Festlegen eines speziellen Parameters gezeigt.
$ aws glue start-job-run --job-name "CSV to CSV" --arguments='--scriptLocation="s3://my_glue/libraries/test_lib.py",--test-environment="true"'
Nachdem Sie die Argumente festgelegt haben, können Sie von Ihrem Ray-Auftrag aus über Umgebungsvariablen auf die Auftragsparameter zugreifen. Auf diese Weise können Sie Ihren Auftrag für jede Ausführung konfigurieren. Der Name der Umgebungsvariablen ist der Name des Auftragsarguments ohne das --
-Präfix.
Im vorherigen Beispiel würden die Variablennamen beispielsweise scriptLocation
und test-environment
lauten. Anschließend würden Sie das Argument über die in der Standardbibliothek verfügbaren Methoden abrufen: test_environment = os.environ.get('test-environment')
. Weitere Informationen zum Zugriff auf Umgebungsvariablen mit Python finden Sie unter OS-Modul
Konfigurieren, wie Ray-Aufträge Protokolle erzeugen
Standardmäßig generieren Ray-Jobs Protokolle und Metriken, die an CloudWatch Amazon S3 gesendet werden. Sie können den --logging_configuration
-Parameter verwenden, um zu ändern, wie Protokolle erzeugt werden. Derzeit können Sie damit verhindern, dass Ray-Aufträge verschiedene Arten von Protokollen erzeugen. Dieser Parameter nimmt ein JSON-Objekt auf, dessen Schlüssel den Protokollen/Verhaltensweisen entsprechen, die Sie ändern möchten. Es unterstützt die folgenden Schlüssel:
CLOUDWATCH_METRICS
— Konfiguriert eine Reihe von CloudWatch Metriken, die zur Visualisierung des Arbeitszustands verwendet werden können. Weitere Informationen zu den Metriken finden Sie unter Überwachung von Ray-Aufträgen mit Metriken.CLOUDWATCH_LOGS
— Konfiguriert CloudWatch Protokolle, die Ray-Informationen über den Status der Ausführung des Jobs auf Anwendungsebene enthalten. Weitere Informationen über Protokolle finden Sie unter Fehlerbehebung AWS Glue bei Ray-Fehlern aus Protokollen.S3
— Konfiguriert, was in Amazon S3 AWS Glue geschrieben wird, hauptsächlich ähnliche Informationen wie CloudWatch Logs, aber als Dateien und nicht als Log-Streams.
Um ein Ray-Protokollierungsverhalten zu deaktivieren, geben Sie den Wert {\"IS_ENABLED\": \"False\"}
an. Um beispielsweise CloudWatch Metriken und CloudWatch Protokolle zu deaktivieren, geben Sie die folgende Konfiguration an:
"--logging_configuration": "{\"CLOUDWATCH_METRICS\": {\"IS_ENABLED\": \"False\"}, \"CLOUDWATCH_LOGS\": {\"IS_ENABLED\": \"False\"}}"
Referenz
Ray-Aufträge erkennen die folgenden Argumentnamen, die Sie zum Einrichten der Skriptumgebung für Ihre Ray-Aufträge und Auftragsausführungen verwenden können:
-
--logging_configuration
– Wird verwendet, um die Erzeugung verschiedener Protokolle zu stoppen, die von Ray-Aufträgen erstellt werden. Diese Protokolle werden standardmäßig für alle Ray-Aufträge erstellt. Format: String-escaped JSON-Objekt. Weitere Informationen finden Sie unter Konfigurieren, wie Ray-Aufträge Protokolle erzeugen. -
--min-workers
– Die Mindestanzahl von Worker-Knoten, die einem Ray-Auftrag zugewiesen werden. Ein Worker-Knoten kann mehrere Replikate ausführen, eines pro virtueller CPU. Format: Ganzzahl. Minimum: 0. Maximum: Der in--number-of-workers (NumberOfWorkers)
angegebene Wert in der Auftragsdefinition. Weitere Informationen zur Abrechnung von Worker-Knoten finden Sie unter Abrechnung für Worker in Ray-Aufträgen. -
--object_spilling_config
— AWS Glue denn Ray unterstützt die Verwendung von Amazon S3 als Möglichkeit, den für Rays Objektspeicher verfügbaren Speicherplatz zu erweitern. Um dieses Verhalten zu aktivieren, können Sie Ray mit diesem Parameter ein JSON-Konfigurationsobjekt zur Verfügung stellen, das Objekte ausgibt. Weitere Informationen zur Konfiguration der Ray-Objekt-Ausgabe finden Sie unter Objekt-Ausgabein der Ray-Dokumentation. Format: JSON-Objekt. AWS Glue for Ray unterstützt nur die gleichzeitige Übertragung auf die Festplatte oder die gleichzeitige Übertragung auf Amazon S3. Sie können mehrere Standorte für die Ausgabe angeben, sofern diese Einschränkung eingehalten wird. Wenn die Ausgabe zu Amazon S3 erfolgt, müssen Sie Ihrem Auftrag für diesen Bucket auch IAM-Berechtigungen hinzufügen.
Wenn Sie ein JSON-Objekt als Konfiguration mit der CLI bereitstellen, müssen Sie es als Zeichenfolge bereitstellen, wobei die Zeichenfolge des JSON-Objekts mit Escape-Zeichen versehen ist. Ein Zeichenfolgenwert zum Übertragen auf einen Amazon S3-Pfad würde beispielsweise wie folgt aussehen:
"{\"type\": \"smart_open\", \"params\": {\"uri\":\"
. Geben Sie diesen Parameter als JSON-Objekt ohne zusätzliche Formatierung an. AWS Glue Studios3path
\"}}" -
--object_store_memory_head
– Der Speicher, der dem Plasma-Objektspeicher auf dem Ray-Head-Knoten zugewiesen ist. Diese Instance führt Cluster-Management-Services sowie Worker-Replikate aus. Der Wert stellt den Prozentsatz des freien Speichers auf der Instance nach einem Warmstart dar. Sie verwenden diesen Parameter, um speicherintensive Workloads zu optimieren – die Standardeinstellungen sind für die meisten Anwendungsfälle akzeptabel. Format: positive Ganzzahl. Minimum: 1. Maximum: 100.Weitere Informationen zu Plasma finden Sie unter The Plasma In-Memory Object Store
in der Ray-Dokumentation. -
--object_store_memory_worker
– Der Speicher, der dem Plasma-Objektspeicher auf den Ray-Worker-Knoten zugewiesen ist. Diese Instances führen nur Worker-Replikate aus. Der Wert stellt den Prozentsatz des freien Speichers auf der Instance nach einem Warmstart dar. Dieser Parameter wird zum Optimieren speicherintensiver Workloads verwendet – die Standardwerte sind für die meisten Anwendungsfälle akzeptabel. Format: positive Ganzzahl. Minimum: 1. Maximum: 100.Weitere Informationen zu Plasma finden Sie unter The Plasma In-Memory Object Store
in der Ray-Dokumentation. -
--pip-install
– Eine Reihe von zu installierenden Python-Paketen. Mit diesem Argument können Sie Pakete von PyPI installieren. Format: durch Kommas getrennte Liste.Ein PyPI-Paketeintrag liegt im Format
package==version
vor und enthält den PyPI-Namen und die Version Ihres Zielpakets. Einträge verwenden den Python-Versionsabgleich, um das Paket und die Version abzugleichen, wie z. B.==
, nicht das einzelne Gleichheitszeichen=
. Es gibt andere Operatoren für den Versionsabgleich. Weitere Informationen finden Sie unter PEP 440auf der Python-Website. Sie können auch benutzerdefinierte Module mit --s3-py-modules
bereitstellen. -
--s3-py-modules
– Eine Reihe von Amazon-S3-Pfaden, die Python-Modulverteilungen hosten. Format: durch Kommas getrennte Liste.Sie können dies verwenden, um Ihre eigenen Module an Ihren Ray-Auftrag zu verteilen. Sie können mit
--pip-install
auch Module von PyPI bereitstellen. Im Gegensatz zu AWS Glue ETL werden benutzerdefinierte Module nicht über Pip eingerichtet, sondern zur Verteilung an Ray übergeben. Weitere Informationen finden Sie unter Zusätzliche Python-Module für Ray-Aufträge. -
--working-dir
– Ein Pfad zu einer in Amazon S3 gehosteten ZIP-Datei, die Dateien enthält, die an alle Knoten verteilt werden sollen, auf denen Ihr Ray-Auftrag ausgeführt wird. Format: Zeichenfolge. Weitere Informationen finden Sie unter Bereitstellen von Dateien für Ihren Ray-Auftrag.