Configurazione delle proprietà dei job per i job Spark in AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione delle proprietà dei job per i job Spark in AWS Glue

Quando definisci il tuo lavoro sulla AWS Glue console, fornisci i valori delle proprietà per controllare l'ambiente AWS Glue di runtime.

Definire le proprietà di processo per i processi Spark

L'elenco seguente descrive le proprietà di un processo Spark. Per le proprietà di un processo shell di Python, consulta Definire le proprietà del processo per i processi shell di Python. Per le proprietà di un ETL processo di streaming, consultaDefinizione delle proprietà di processo per un processo di streaming ETL.

Le proprietà sono elencate nell'ordine in cui appaiono nella procedura guidata Aggiungi lavoro sulla AWS Glue console.

Nome

Fornisci una stringa UTF -8 con una lunghezza massima di 255 caratteri.

Descrizione

Fornisci una descrizione opzionale di un massimo di 2048 caratteri.

IAMRuolo

Specificare il IAM ruolo utilizzato per l'autorizzazione alle risorse utilizzate per eseguire il processo e accedere agli archivi dati. Per ulteriori informazioni sulle autorizzazioni per l'esecuzione di lavori in AWS Glue, vedereGestione delle identità e degli accessi per AWS Glue.

Type

Il tipo di ETL lavoro. Viene impostato automaticamente in base al tipo di fonti di dati selezionate.

Versione
AWS Glue

AWS Glue version determina le versioni di Apache Spark e Python disponibili per il job, come specificato nella tabella seguente.

AWS Glue versione Versioni Spark e Python supportate
4.0
  • Spark 3.3.0

  • Python 3.10

3.0
  • Spark 3.1.1

  • Python 3.7

2.0
  • Spark 2.4.3

  • Python 3.7

1
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

0.9
  • Spark 2.2.1

  • Python 2.7

Lingua

Il codice nello ETL script definisce la logica del lavoro. Lo script può essere codificato in Python o Scala. È possibile scegliere se lo script eseguito dal job viene generato AWS Glue o fornito dall'utente. Puoi fornire il nome e la posizione dello script in Amazon Simple Storage Service (Amazon S3). Conferma che non esiste un file con lo stesso nome della directory di script nel percorso. Per ulteriori informazioni sull'uso degli script, consulta AWS Glue guida alla programmazione.

Tipo di worker

Sono disponibili i seguenti tipi di worker:

Le risorse disponibili per i AWS Glue lavoratori vengono misurate inDPUs. A DPU è una misura relativa della potenza di elaborazione costituita dal 4% della capacità vCPUs di elaborazione e da 16 GB di memoria.

  • G.1X: quando si sceglie questo tipo, si fornisce anche un valore per Number of workers (Numero di worker). Ogni worker esegue il mapping su 1 DPU (vCPUs4,16 GB di memoria) con un disco da 84 GB (circa 34 GB gratuiti). Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi.

  • G.2X: quando si sceglie questo tipo, si fornisce anche un valore per Number of workers (Numero di worker). Ogni lavoratore esegue il mapping su 2 DPU (8vCPUs, 32 GB di memoria) con disco da 128 GB (circa 77 GB gratuiti). Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi.

  • G.4X: quando si sceglie questo tipo, si fornisce anche un valore per Number of workers (Numero di worker). Ogni lavoratore esegue il mapping su 4 DPU (16vCPUs, 64 GB di memoria) con disco da 256 GB (circa 235 GB gratuiti). Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di lavoratore è disponibile solo per i ETL lavori Spark AWS Glue versione 3.0 o successiva AWS nelle seguenti regioni: Stati Uniti orientali (Ohio), Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda) ed Europa (Stoccolma).

  • G.8X: quando si sceglie questo tipo, si fornisce anche un valore per Number of workers (Numero di worker). Ogni lavoratore esegue il mapping su 8 DPU (vCPUs32.128 GB di memoria) con disco da 512 GB (circa 487 GB gratuiti). Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di worker è disponibile solo per i ETL job Spark AWS Glue versione 3.0 o successiva, nelle stesse AWS regioni supportate per il tipo di lavoratore. G.4X

  • G.025X: quando si sceglie questo tipo, si fornisce anche un valore per Number of workers (Numero di worker). Ogni worker esegue il mapping a 0,25 DPU (2vCPUs, 4 GB di memoria) con un disco da 84 GB (circa 34 GB gratuiti). Consigliamo questo tipo di worker per i processi di streaming a basso volume. Questo tipo di worker è disponibile solo per i lavori di streaming della AWS Glue versione 3.0.

Ti viene addebitata una tariffa oraria basata sul numero di lavori DPUs utilizzati per eseguire i tuoi ETL lavori. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue.

Per la AWS Glue versione 1.0 o precedente, quando si configura un lavoro utilizzando la console e si specifica un tipo di lavoratore su Standard, viene impostata la capacità massima e il numero di lavoratori diventa il valore di Capacità massima - 1. Se si utilizza il AWS Command Line Interface (AWS CLI) o AWS SDK, è possibile specificare il parametro Capacità massima oppure è possibile specificare sia il tipo di lavoratore che il numero di lavoratori.

Per i lavori della AWS Glue versione 2.0 o successiva, non è possibile specificare una capacità massima. È invece necessario specificare un Worker type (Tipo di worker) e il Number of workers (Numero di worker).

Numero richiesto di lavoratori

Per la maggior parte dei tipi di worker è necessario specificare il numero di worker allocati quando il processo viene eseguito.

Segnalibro di processo

Specificate in che modo AWS Glue vengono elaborate le informazioni sullo stato durante l'esecuzione del lavoro. Puoi ricordare di aver già elaborato i dati, aggiornato le informazioni sullo stato o ignorato le informazioni sullo stato. Per ulteriori informazioni, consulta Monitoraggio dei dati elaborati mediante segnalibri di processo.

Job run in coda

Speciifica se le esecuzioni dei job vengono messe in coda per essere eseguite in un secondo momento quando non possono essere eseguite immediatamente a causa delle quote di servizio.

Se selezionata, l'accodamento delle esecuzioni dei lavori è abilitato per le esecuzioni dei lavori. Se non è compilato, i job run non verranno presi in considerazione per essere messi in coda.

Se questa impostazione non corrisponde al valore impostato nell'esecuzione del processo, verrà utilizzato il valore del campo Job Run.

Esecuzione Flex

Quando si configura un lavoro utilizzando AWS Studio o il, API è possibile specificare una classe di esecuzione del lavoro standard o flessibile. I tuoi processo possono avere diversi gradi di priorità e sensibilità temporale. La classe di esecuzione standard è ideale per carichi di lavoro sensibili al tempo che richiedono un avvio rapido dei processi e risorse dedicate.

La classe di esecuzione flessibile è adatta per processi non urgenti come i processi di pre-produzione, test e caricamenti di dati una tantum. Le esecuzioni di job flessibili sono supportate per i lavori che utilizzano la AWS Glue versione 3.0 o successiva G.1X e/o per i tipi di G.2X worker.

Le esecuzioni dei processi flessibili vengono fatturate in base al numero di worker che vengono eseguiti alla volta. Il numero di worker può essere aggiunto o rimosso per un'esecuzione di lavoro flessibile in esecuzione. Invece di fatturare come semplice calcolo di Max Capacity * Execution Time, ogni worker contribuirà per il tempo che è stato eseguito durante l'esecuzione del processo. La fattura è la somma di (Number of DPUs per worker * time each worker ran).

Per ulteriori informazioni, consulta il pannello di aiuto in AWS Studio oppure Processi eEsecuzioni di processi.

Numero di tentativi

Specificate il numero di volte, da 0 a 10, che AWS Glue devono riavviare automaticamente il processo in caso di errore. I processi che raggiungono il limite di timeout non vengono riavviati.

Timeout dei processi

Imposta il tempo di esecuzione massimo in minuti. Il valore predefinito è 2.880 minuti (48 ore) per i processi batch. Quando il tempo di esecuzione del processo supera questo limite, lo stato del processo cambia in TIMEOUT.

I lavori di streaming devono avere valori di timeout inferiori a 7 giorni o 10080 minuti. Se il valore viene lasciato vuoto, il processo verrà riavviato dopo 7 giorni, a seconda che non sia stata impostata una finestra di manutenzione. Se hai impostato una finestra di manutenzione, questa verrà riavviata durante la finestra di manutenzione dopo 7 giorni.

Le migliori pratiche per le interruzioni lavorative

I lavori vengono fatturati in base al tempo di esecuzione. Per evitare addebiti imprevisti, configura i valori di timeout appropriati per il tempo di esecuzione previsto del lavoro.

Proprietà avanzate
Nome del file dello script

Un nome di script univoco per il tuo lavoro. Non può essere denominato Untitled job.

Percorso dello script

La posizione dello script in Amazon S3. Il percorso deve essere nel formato s3://bucket/prefix/path/. Deve terminare con una barra (/) e non includere alcun file.

Parametri del processo

Attiva o disattiva la creazione di CloudWatch metriche Amazon durante l'esecuzione di questo processo. Per visualizzare i dati di profiling, è necessario abilitare questa opzione. Per ulteriori informazioni su come attivare e visualizzare i parametri, consulta Monitoraggio e debug dei processi.

Metriche di osservabilità del lavoro

Attiva la creazione di CloudWatch metriche di osservabilità aggiuntive durante l'esecuzione di questo lavoro. Per ulteriori informazioni, consulta Monitoraggio con parametri AWS Glue di osservabilità.

Registrazione continua

Attiva la registrazione continua su Amazon CloudWatch. Se questa opzione non è abilitata, i registri sono disponibili solo dopo il completamento del processo. Per ulteriori informazioni, consulta Registrazione continua dei processi AWS Glue.

Interfaccia utente di Spark

Attiva l'uso dell'interfaccia utente di Spark per monitorare questo processo. Per ulteriori informazioni, consulta Abilitazione dell'interfaccia utente Web di Apache Spark per processi AWS Glue.

Percorso dei registri dell'interfaccia utente di Spark

Il percorso per scrivere i log quando l'interfaccia utente Spark è abilitata.

Configurazione di registrazione e monitoraggio dell'interfaccia utente Spark

Selezionare una delle seguenti opzioni:

  • Standard: scrive i log usando l'ID di esecuzione del AWS Glue processo come nome del file. Attiva il monitoraggio dell'interfaccia utente Spark nella console. AWS Glue

  • Legacy: scrivi i log usando 'spark-application- {timestamp} 'come nome del file. Non attivare il monitoraggio dell'interfaccia utente Spark.

  • Standard e legacy: scrivi i log sia nelle posizioni standard che in quelle precedenti. Attiva il monitoraggio dell'interfaccia utente Spark nella AWS Glue console.

Simultaneità massima

Imposta il numero massimo di esecuzioni simultanee consentite per il processo. Il valore di default è 1. Viene restituito un errore al raggiungimento della soglia. Il valore massimo che è possibile specificare è controllato da un limite di servizio. Ad esempio, se un'esecuzione di un processo precedente non è ancora terminata quando una nuova istanza viene avviata, è possibile restituire un errore per evitare che due istanze dello stesso processo vengano eseguite simultaneamente.

Percorso temporaneo

Fornisci la posizione di una directory di lavoro in Amazon S3 in cui vengono scritti i risultati intermedi temporanei durante l' AWS Glue esecuzione dello script. Conferma che non esiste un file con lo stesso nome della directory temporanea nel percorso. Questa directory viene utilizzata durante la AWS Glue lettura e la scrittura su Amazon Redshift e per determinate AWS Glue trasformazioni.

Nota

AWS Glue crea un bucket temporaneo per i lavori se un bucket non esiste già in una regione. Questo bucket potrebbe consentire l'accesso pubblico. Puoi modificare il bucket in Amazon S3 per impostare il blocco dell'accesso pubblico oppure eliminare il bucket in un secondo momento dopo che tutti i processi in quella regione sono stati completati.

Soglia notifica di ritardo (minuti)

Imposta la soglia (in minuti) prima di inviare una notifica di ritardo. Puoi impostare questa soglia per inviare notifiche quando l'esecuzione di un processo RUNNING, STARTING o STOPPING impiega di più rispetto alla quantità di minuti attesa.

Configurazione di sicurezza

Scegliere una configurazione di sicurezza dall'elenco. Una configurazione di sicurezza specifica come vengono crittografati i dati sulla destinazione Amazon S3: nessuna crittografia, crittografia lato server AWS KMS con chiavi gestite SSE (KMS-) o chiavi di crittografia gestite da Amazon S3 (-S3). SSE

Crittografia lato server

Se si seleziona questa opzione, quando il ETL processo scrive su Amazon S3, i dati inattivi vengono crittografati utilizzando la crittografia SSE -S3. Vengono crittografati sia i dati di destinazione Amazon S3 sia tutti gli altri dati scritti in una directory temporanea Amazon S3. Questa opzione viene passata come parametro del processo. Per ulteriori informazioni, consulta Protezione dei dati utilizzando la crittografia lato server con le chiavi di crittografia gestite da Amazon S3 (SSE-S3) nella Guida per l'utente di Amazon Simple Storage Service.

Importante

Questa opzione viene ignorata se viene specificata una configurazione di protezione.

Opzione per l'uso del catalogo dati di Glue come metastore Hive

Seleziona di utilizzare il AWS Glue Data Catalog come metastore Hive. Il IAM ruolo utilizzato per il lavoro deve disporre dell'autorizzazione. glue:CreateDatabase Viene creato un database chiamato "default" nel catalogo dati, nel caso non fosse già presente.

Connessioni

Scegli una VPC configurazione per accedere alle fonti di dati Amazon S3 situate nel tuo cloud privato virtuale ()VPC. Puoi creare e gestire una connessione di rete in AWS Glue. Per ulteriori informazioni, consulta Connessione ai dati.

Libraries (Librerie)
Percorso della libreria Python, percorso dipendente e JARs percorso dei file di riferimento

Specificare queste opzioni se lo script le richiede. Puoi definire percorsi separati da virgole Amazon S3 per queste opzioni quando definisci il processo. Puoi sostituire tali percorsi quando esegui il processo. Per ulteriori informazioni, consulta Fornire i propri script personalizzati.

Parametri del processo

Un insieme di coppie chiave-valore che vengono passate come parametri denominati allo script. Si tratta di valori predefiniti che vengono utilizzati quando lo script viene eseguito, ma è possibile ignorarli nei trigger o quando si esegue il processo. È necessario prefissare il nome della chiave con --; ad esempio: --myKey. I parametri del lavoro vengono passati come mappa quando si utilizza. AWS Command Line Interface

Per ulteriori esempi, vedere i parametri Python in Passaggio di parametri Python in AWS Glue e accesso ai parametri.

Tag

Il tag si applica al processo tramite una Tag key (Chiave tag) e un Tag value (Valore tag) facoltativo. Una volta create, le chiavi di tag sono di sola lettura. Usa i tag su alcune risorse per facilitarne l'organizzazione e l'individuazione. Per ulteriori informazioni, consulta AWS tag in AWS Glue.

Restrizioni per i processi che accedono alle tabelle gestite da Lake Formation

Tieni presente le seguenti note e restrizioni quando crei lavori che leggono o scrivono su tabelle gestite da AWS Lake Formation: