Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Utilizzo dei parametri di processo nei processi Ray
L'impostazione degli argomenti per i processi AWS Glue Ray è analoga a quella per i processi AWS Glue per Spark. Per ulteriori informazioni sull'API AWS Glue, consulta Processi. È possibile configurare i processi AWS Glue Ray con i vari argomenti che sono riportati in questa sezione. È anche possibile fornire i propri argomenti.
È possibile configurare un processo tramite la console, nella scheda Job details (Dettagli del processo), sotto l'intestazione Job Parameters (Parametri del processo). Puoi inoltre configurare un processo tramite la AWS CLI impostando DefaultArguments
su un processo o Arguments
sull'esecuzione di un processo. Gli argomenti e i parametri dei processi predefiniti resteranno gli stessi nel processo anche dopo più esecuzioni.
Ad esempio, la seguente è la sintassi per l'esecuzione di un processo utilizzando --arguments
per impostare un parametro speciale.
$ aws glue start-job-run --job-name "CSV to CSV" --arguments='--scriptLocation="s3://my_glue/libraries/test_lib.py",--test-environment="true"'
Dopo aver impostato gli argomenti, è possibile accedere ai parametri di processo dall'interno del processo Ray tramite le variabili di ambiente. Questo ti consente di configurare il processo per ogni esecuzione. Il nome della variabile di ambiente sarà il nome dell'argomento del processo senza il prefisso --
.
Ad esempio, nell'esempio precedente, i nomi delle variabili sarebbero scriptLocation
e test-environment
. Pertanto, l'argomento dovrebbe essere recuperato tramite i metodi disponibili nella libreria standard: test_environment = os.environ.get('test-environment')
. Per ulteriori informazioni sull'accesso alle variabili di ambiente con Python, consulta la sezione OS module
Configurazione delle modalità di generazione dei log da parte dei processi Ray
Per impostazione predefinita, i processi Ray generano log e parametri che vengono inviati a CloudWatch e Amazon S3. È possibile utilizzare il parametro --logging_configuration
per modificare la modalità di generazione dei log; attualmente è possibile utilizzarlo per impedire ai processi Ray di generare vari tipi di log. Questo parametro accetta un oggetto JSON, le cui chiavi corrispondono ai log/comportamenti che desideri modificare. Supporta le seguenti chiavi:
CLOUDWATCH_METRICS
: configura delle serie di parametri di CloudWatch che possono essere utilizzate per visualizzare l'integrità del processo. Per ulteriori informazioni sui parametri, consulta Monitoraggio dei processi di Ray con i parametri.CLOUDWATCH_LOGS
: configura i log di CloudWatch che forniscono dettagli a livello di applicazione Ray sullo stato di esecuzione del processo. Per ulteriori informazioni sui log, consulta Risoluzione dei problemi relativi agli errori di AWS Glue per Ray nei log.S3
: configura ciò che AWS Glue scrive in Amazon S3, principalmente informazioni simili ai log di CloudWatch ma sotto forma di file anziché flussi di log.
Per disabilitare un comportamento di registrazione di Ray, fornisci il valore {\"IS_ENABLED\": \"False\"}
. Ad esempio, per disabilitare i parametri di CloudWatch e i log di CloudWatch, fornisci la seguente configurazione:
"--logging_configuration": "{\"CLOUDWATCH_METRICS\": {\"IS_ENABLED\": \"False\"}, \"CLOUDWATCH_LOGS\": {\"IS_ENABLED\": \"False\"}}"
Riferimento
I processi Ray riconoscono i seguenti nomi di argomenti che possono essere utilizzati per configurare l'ambiente di script per i processi Ray e le esecuzioni di processo:
-
--logging_configuration
: viene utilizzato per interrompere la generazione di vari log creati dai processi Ray. Questi log vengono generati per impostazione predefinita su tutti i processi Ray. Formato: oggetto JSON con escape di stringhe. Per ulteriori informazioni, consulta Configurazione delle modalità di generazione dei log da parte dei processi Ray. -
--min-workers
: il numero minimo di nodi worker allocati a un processo Ray. Un nodo worker può eseguire più repliche, una per CPU virtuale. Formato: numero intero. Minimo: 0 Massimo: valore specificato in--number-of-workers (NumberOfWorkers)
nella definizione di processo. Per ulteriori informazioni su come allocare adeguatamente i nodi worker, consulta la pagina Contabilità per i worker nei processi Ray. -
--object_spilling_config
: AWS Glue per Ray supporta l'utilizzo di Amazon S3 per estendere lo spazio disponibile per l'archivio di oggetti di Ray. Per abilitare questo comportamento, è possibile fornire a Ray un oggetto di configurazione JSON per il riversamento di oggetti con questo parametro. Per ulteriori informazioni sulla configurazione del riversamento di oggetti in Ray, consulta la pagina Object Spillingnella documentazione di Ray. Formato: oggetto JSON. AWS Glue per Ray supporta il riversamento simultaneo solo su disco o su Amazon S3. È possibile fornire più punti di riversamento, purché rispettino questa limitazione. In caso di riversamento su Amazon S3, sarà necessario aggiungere al processo anche le autorizzazioni IAM per questo bucket.
Quando si fornisce un oggetto JSON come configurazione con la CLI, è necessario fornirlo come stringa, specificando l'oggetto JSON con escape di stringa. Ad esempio, un valore di stringa per il riversamento su un percorso Amazon S3 apparirebbe come:
"{\"type\": \"smart_open\", \"params\": {\"uri\":\"
. In AWS Glue Studio, fornisci questo parametro come oggetto JSON senza formattazione aggiuntiva.s3path
\"}}" -
--object_store_memory_head
: la memoria allocata all'archivio di oggetti Plasma sul nodo principale di Ray. Questa istanza esegue i servizi di gestione dei cluster e le repliche dei worker. Il valore rappresenta una percentuale di memoria libera sull'istanza dopo un avvio a caldo. Questo parametro viene utilizzato per ottimizzare i carichi di lavoro che richiedono un uso intensivo della memoria: i valori predefiniti sono accettabili per la maggior parte dei casi d'uso. Formato: numero intero positivo. Minimo: 1. Massimo: 100Per ulteriori informazioni su Plasma, consulta L'archivio oggetti in memoria di Plasma
nella documentazione di Ray. -
--object_store_memory_worker
: la memoria allocata all'archivio di oggetti Plasma sui nodi worker di Ray. Queste istanze eseguono solo repliche worker. Il valore rappresenta una percentuale di memoria libera sull'istanza dopo un avvio a caldo. Questo parametro viene utilizzato per ottimizzare i carichi di lavoro che richiedono un uso intensivo della memoria: i valori predefiniti sono accettabili per la maggior parte dei casi d'uso. Formato: numero intero positivo. Minimo: 1. Massimo: 100Per ulteriori informazioni su Plasma, consulta L'archivio oggetti in memoria di Plasma
nella documentazione di Ray. -
--pip-install
: un set di pacchetti Python da installare. È possibile installare pacchetti da PyPI utilizzando questo argomento. Formato: elenco delimitato da virgole.Una voce del pacchetto PyPI sarà nel formato
package==version
, con il nome e la versione di PyPI del pacchetto di destinazione. Le voci usano la corrispondenza della versione Python per abbinare il pacchetto e la versione, come==
, non il singolo uguale a=
. Esistono altri operatori di corrispondenza delle versioni. Per ulteriori informazioni, consulta PEP 440sul sito Web di Python. È inoltre possibile fornire moduli personalizzati con --s3-py-modules
. -
--s3-py-modules
: un set di percorsi Amazon S3 che ospitano le distribuzioni di moduli Python. Formato: elenco delimitato da virgole.Puoi utilizzarlo per distribuire i tuoi moduli al tuo processo di Ray. I moduli possono essere forniti anche da PyPI con
--pip-install
. A differenza di AWS Glue ETL, i moduli personalizzati non vengono impostati tramite pip, ma vengono trasmessi a Ray per la distribuzione. Per ulteriori informazioni, consulta Moduli Python aggiuntivi per i processi Ray. -
--working-dir
: un percorso verso un file .zip ospitato in Amazon S3 che contiene file da distribuire a tutti i nodi che eseguono il processo Ray. Formato: stringa. Per ulteriori informazioni, consulta Fornitura di file al processo Ray.