Utilizzo delle opzioni di configurazione di Apache Airflow su Amazon MWAA - Amazon Managed Workflows for Apache Airflow

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo delle opzioni di configurazione di Apache Airflow su Amazon MWAA

Le opzioni di configurazione di Apache Airflow possono essere collegate al tuo ambiente Amazon Managed Workflows for Apache Airflow come variabili di ambiente. Puoi scegliere dall'elenco a discesa suggerito o specificare opzioni di configurazione personalizzate per la tua versione di Apache Airflow sulla console Amazon MWAA. Questa pagina descrive le opzioni di configurazione di Apache Airflow disponibili e come utilizzarle per sovrascrivere le impostazioni di configurazione di Apache Airflow nel tuo ambiente.

Prerequisiti

Avrai bisogno di quanto segue prima di completare i passaggi di questa pagina.

  • Autorizzazioni: al tuo AWS account deve essere stato concesso dall'amministratore l'accesso alla politica di controllo degli FullConsoleaccessi di AmazonMWAA per il tuo ambiente. Inoltre, il tuo ambiente Amazon MWAA deve essere autorizzato dal tuo ruolo di esecuzione ad accedere alle AWS risorse utilizzate dal tuo ambiente.

  • Accesso: se è necessario accedere agli archivi pubblici per installare le dipendenze direttamente sul server Web, l'ambiente deve essere configurato con l'accesso al server Web di rete pubblica. Per ulteriori informazioni, consulta Modalità di accesso Apache Airflow.

  • Configurazione Amazon S3 : il bucket Amazon S3 utilizzato per archiviare i DAGplugins.zip, i plug-in personalizzati e le dipendenze requirements.txt Python deve essere configurato con Public Access Blocked e Versioning Enabled.

Come funziona

Quando crei un ambiente, Amazon MWAA allega le impostazioni di configurazione specificate nella console Amazon MWAA nelle opzioni di configurazione Airflow come variabili di ambiente al contenitore per il tuo ambiente. AWS Fargate Se utilizzi un'impostazione con lo stesso nome inairflow.cfg, le opzioni specificate nella console Amazon MWAA sostituiscono i valori in. airflow.cfg

Sebbene per impostazione predefinita non le esponiamo airflow.cfg nell'interfaccia utente Apache Airflow di un ambiente Amazon MWAA, puoi modificare le opzioni di configurazione di Apache Airflow direttamente sulla console Amazon MWAA, inclusa l'impostazione per esporre le configurazioni. webserver.expose_config

Utilizzo delle opzioni di configurazione per caricare i plugin in Apache Airflow v2

Per impostazione predefinita, in Apache Airflow v2, i plugin sono configurati per essere caricati «pigramente» utilizzando l'impostazione. core.lazy_load_plugins : True Se utilizzi plug-in personalizzati in Apache Airflow v2, devi aggiungere un'opzione di configurazione di Apache Airflow per caricare core.lazy_load_plugins : False i plug-in all'inizio di ogni processo Airflow per sovrascrivere l'impostazione predefinita.

Panoramica delle opzioni di configurazione

Quando aggiungi una configurazione sulla console Amazon MWAA, Amazon MWAA scrive la configurazione come variabile di ambiente.

  • Opzioni elencate. Puoi scegliere una delle impostazioni di configurazione disponibili per la tua versione di Apache Airflow nell'elenco a discesa. Ad esempio,:. dag_concurrency 16 L'impostazione di configurazione viene tradotta nel contenitore Fargate dell'ambiente come AIRFLOW__CORE__DAG_CONCURRENCY : 16

  • Opzioni personalizzate. Puoi anche specificare opzioni di configurazione Airflow che non sono elencate per la tua versione di Apache Airflow nell'elenco a discesa. Ad esempio,:. foo.user YOUR_USER_NAME L'impostazione di configurazione viene tradotta nel contenitore Fargate dell'ambiente come AIRFLOW__FOO__USER : YOUR_USER_NAME

Opzioni di configurazione di Apache Airflow

L'immagine seguente mostra dove è possibile personalizzare le opzioni di configurazione di Apache Airflow sulla console Amazon MWAA.

Questa immagine mostra dove è possibile personalizzare le opzioni di configurazione di Apache Airflow sulla console Amazon MWAA.

Riferimento Apache Airflow

Per un elenco delle opzioni di configurazione supportate da Apache Airflow, consulta Configuration Reference nella guida di riferimento di Apache Airflow. Per visualizzare le opzioni per la versione di Apache Airflow in esecuzione su Amazon MWAA, seleziona la versione dall'elenco a discesa.

Utilizzo della console Amazon MWAA

La procedura seguente illustra i passaggi per aggiungere un'opzione di configurazione Airflow al tuo ambiente.

  1. Apri la pagina Ambienti sulla console Amazon MWAA.

  2. Scegli un ambiente.

  3. Scegli Modifica.

  4. Seleziona Successivo.

  5. Scegli Aggiungi configurazione personalizzata nel riquadro delle opzioni di configurazione Airflow.

  6. Scegli una configurazione dall'elenco a discesa e inserisci un valore, oppure digita una configurazione personalizzata e inserisci un valore.

  7. Scegli Aggiungi configurazione personalizzata per ogni configurazione che desideri aggiungere.

  8. Selezionare Salva.

Informazioni di riferimento sulla configurazione

La sezione seguente contiene l'elenco delle configurazioni Apache Airflow disponibili nell'elenco a discesa sulla console Amazon MWAA.

Configurazioni e-mail

L'elenco seguente mostra le opzioni di configurazione delle notifiche e-mail Airflow disponibili su Amazon MWAA.

Si consiglia di utilizzare la porta 587 per il traffico SMTP. Per impostazione predefinita, AWS blocca il traffico SMTP in uscita sulla porta 25 di tutte le istanze Amazon EC2. Se desideri inviare traffico in uscita sulla porta 25, puoi richiedere la rimozione di questa restrizione.

Apache Airflow v2

Configurazioni delle attività

L'elenco seguente mostra le configurazioni disponibili nell'elenco a discesa per le attività Airflow su Amazon MWAA.

Apache Airflow v2
Versione Airflow Opzione di configurazione del flusso d'aria Descrizione Valore di esempio

v2

core.default_task_retries

Il numero di volte in cui riprovare un'attività di Apache Airflow in default_task_retries.

3

v2

core.parallelismo

Il numero massimo di istanze di attività che possono essere eseguite contemporaneamente nell'intero ambiente in parallelo (parallelismo).

40

Configurazioni dello scheduler

L'elenco seguente mostra le configurazioni dello scheduler Apache Airflow disponibili nell'elenco a discesa su Amazon MWAA.

Apache Airflow v2
Versione Airflow Opzione di configurazione del flusso d'aria Descrizione Valore di esempio

v2

scheduler.catchup_by_default

Indica allo scheduler di creare un'esecuzione DAG per «recuperare» l'intervallo di tempo specifico in catchup_by_default.

False

v2

scheduler.scheduler_zombie_task_threshold

Indica allo scheduler se contrassegnare l'istanza dell'attività come non riuscita e riprogrammarla in scheduler_zombie_task_threshold.

300

Configurazioni dei lavoratori

L'elenco seguente mostra le configurazioni Airflow Worker disponibili nell'elenco a discesa su Amazon MWAA.

Apache Airflow v2
Versione Airflow Opzione di configurazione del flusso d'aria Descrizione Valore di esempio

v2

celery.worker_autoscale

Il numero massimo e minimo di attività che possono essere eseguite contemporaneamente su qualsiasi lavoratore utilizzando Celery Executor in worker_autoscale. Il valore deve essere separato da virgole nel seguente ordine:. max_concurrency,min_concurrency

16,12

Configurazioni del server Web

L'elenco seguente mostra le configurazioni del server Web Airflow disponibili nell'elenco a discesa su Amazon MWAA.

Apache Airflow v2
Versione Airflow Opzione di configurazione del flusso d'aria Descrizione Valore di esempio

v2

webserver.default_ui_timezone

L'impostazione datetime predefinita dell'interfaccia utente di Apache Airflow in default_ui_timezone.

Nota

L'impostazione dell'default_ui_timezoneopzione non modifica il fuso orario in cui è pianificata l'esecuzione dei DAG. Per modificare il fuso orario dei tuoi DAG, puoi utilizzare un plug-in personalizzato. Per ulteriori informazioni, consulta Modifica del fuso orario DAG di un su Amazon MWAA.

America/New_York

Configurazioni Triggerer

L'elenco seguente mostra le configurazioni dei trigger di Apache Airflow disponibili su Amazon MWAA.

Apache Airflow v2
Versione Airflow Opzione di configurazione del flusso d'aria Descrizione Valore di esempio

v2.7

mwaa.triggerer_enabled

Utilizzato per attivare e disattivare il trigger su Amazon MWAA. Per impostazione predefinita, questo valore è impostato su True. Se impostato suFalse, Amazon MWAA non avvierà alcun processo di attivazione sugli scheduler.

True

v2.7

triggerer.default_capacity

Definisce il numero di trigger che ogni trigger può eseguire in parallelo. Su Amazon MWAA, questa capacità è impostata per ogni trigger e per ogni scheduler poiché entrambi i componenti funzionano insieme. L'impostazione predefinita per scheduler è60,,125, e 1000 per istanze piccole 250500, medie e grandi, xlarge e 2xlarge, rispettivamente.

125

Esempi e codice di esempio

Esempio DAG

È possibile utilizzare il seguente DAG per stampare le opzioni di configurazione di email_backend Apache Airflow. Per eseguirlo in risposta agli eventi di Amazon MWAA, copia il codice nella cartella DAg del tuo ambiente sul bucket di storage Amazon S3.

from airflow.decorators import dag from datetime import datetime def print_var(**kwargs): email_backend = kwargs['conf'].get(section='email', key='email_backend') print("email_backend") return email_backend @dag( dag_id="print_env_variable_example", schedule_interval=None, start_date=datetime(yyyy, m, d), catchup=False, ) def print_variable_dag(): email_backend_test = PythonOperator( task_id="email_backend_test", python_callable=print_var, provide_context=True ) print_variable_test = print_variable_dag()

Esempio di impostazioni di notifica e-mail

Le seguenti opzioni di configurazione di Apache Airflow possono essere utilizzate per un account di posta elettronica Gmail.com utilizzando una password dell'app. Per ulteriori informazioni, consulta Accedere utilizzando le password delle app nella guida di riferimento dell'assistenza di Gmail.

Questa immagine mostra come configurare un account di posta elettronica gmail.com utilizzando le opzioni di configurazione di Apache Airflow sulla console MWAA.

Fasi successive