Utilizzo delle opzioni di configurazione di Apache Airflow su Amazon MWAA - Amazon Managed Workflows for Apache Airflow

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo delle opzioni di configurazione di Apache Airflow su Amazon MWAA

Le opzioni di configurazione di Apache Airflow possono essere collegate al tuo ambiente Amazon Managed Workflows for Apache Airflow come variabili di ambiente. Puoi scegliere dall'elenco a discesa suggerito o specificare opzioni di configurazione personalizzate per la tua versione di Apache Airflow sulla console Amazon. MWAA Questo argomento descrive le opzioni di configurazione di Apache Airflow disponibili e come utilizzarle per sovrascrivere le impostazioni di configurazione di Apache Airflow nel tuo ambiente.

Prerequisiti

Avrai bisogno di quanto segue prima di completare i passaggi di questa pagina.

  • Autorizzazioni: l'amministratore deve aver concesso all' AWS account l'accesso alla politica di controllo degli mazonMWAAFull ConsoleAccess accessi A per l'ambiente in uso. Inoltre, il tuo MWAA ambiente Amazon deve essere autorizzato dal tuo ruolo di esecuzione ad accedere alle AWS risorse utilizzate dal tuo ambiente.

  • Accesso: se è necessario accedere agli archivi pubblici per installare le dipendenze direttamente sul server Web, l'ambiente deve essere configurato con l'accesso al server Web di rete pubblica. Per ulteriori informazioni, consulta Modalità di accesso Apache Airflow.

  • Configurazione Amazon S3 : il bucket Amazon S3 utilizzato per archiviare i plug-in plugins.zip personalizzati e DAGs le requirements.txt dipendenze Python deve essere configurato con Public Access Blocked e Versioning Enabled.

Come funziona

Quando crei un ambiente, Amazon MWAA allega le impostazioni di configurazione specificate nella MWAA console Amazon nelle opzioni di configurazione Airflow come variabili di ambiente al AWS Fargate contenitore per il tuo ambiente. Se utilizzi un'impostazione con lo stesso nome inairflow.cfg, le opzioni specificate nella MWAA console Amazon sostituiscono i valori inairflow.cfg.

Sebbene per impostazione predefinita non le esponiamo airflow.cfg nell'interfaccia utente Apache Airflow di un MWAA ambiente Amazon, puoi modificare le opzioni di configurazione di Apache Airflow direttamente sulla MWAA console Amazon, inclusa l'impostazione webserver.expose_config per l'esposizione delle configurazioni.

Utilizzo delle opzioni di configurazione per caricare i plugin in Apache Airflow v2

Per impostazione predefinita, in Apache Airflow v2, i plugin sono configurati per essere caricati «pigramente» utilizzando l'impostazione. core.lazy_load_plugins : True Se utilizzi plug-in personalizzati in Apache Airflow v2, devi aggiungere un'opzione di configurazione di Apache Airflow per caricare core.lazy_load_plugins : False i plug-in all'inizio di ogni processo Airflow per sovrascrivere l'impostazione predefinita.

Panoramica delle opzioni di configurazione

Quando aggiungi una configurazione sulla MWAA console Amazon, Amazon MWAA scrive la configurazione come variabile di ambiente.

  • Opzioni elencate. Puoi scegliere una delle impostazioni di configurazione disponibili per la tua versione di Apache Airflow nell'elenco a discesa. Ad esempio,:. dag_concurrency 16 L'impostazione di configurazione viene tradotta nel contenitore Fargate dell'ambiente come AIRFLOW__CORE__DAG_CONCURRENCY : 16

  • Opzioni personalizzate. Puoi anche specificare opzioni di configurazione Airflow che non sono elencate per la tua versione di Apache Airflow nell'elenco a discesa. Ad esempio,:. foo.user YOUR_USER_NAME L'impostazione di configurazione viene tradotta nel contenitore Fargate dell'ambiente come AIRFLOW__FOO__USER : YOUR_USER_NAME

Opzioni di configurazione di Apache Airflow

L'immagine seguente mostra dove è possibile personalizzare le opzioni di configurazione di Apache Airflow sulla console AmazonMWAA.

Questa immagine mostra dove è possibile personalizzare le opzioni di configurazione di Apache Airflow sulla console AmazonMWAA.

Riferimento Apache Airflow

Per un elenco delle opzioni di configurazione supportate da Apache Airflow, consulta Configuration Reference nella guida di riferimento di Apache Airflow. Per visualizzare le opzioni per la versione di Apache Airflow in esecuzione su AmazonMWAA, seleziona la versione dall'elenco a discesa.

Utilizzo della MWAA console Amazon

La seguente procedura illustra i passaggi per aggiungere un'opzione di configurazione Airflow al tuo ambiente.

  1. Apri la pagina Ambienti sulla MWAA console Amazon.

  2. Scegli un ambiente.

  3. Scegli Modifica.

  4. Scegli Next (Successivo).

  5. Scegli Aggiungi configurazione personalizzata nel riquadro delle opzioni di configurazione Airflow.

  6. Scegli una configurazione dall'elenco a discesa e inserisci un valore, oppure digita una configurazione personalizzata e inserisci un valore.

  7. Scegli Aggiungi configurazione personalizzata per ogni configurazione che desideri aggiungere.

  8. Seleziona Salva.

Informazioni di riferimento sulla configurazione

La sezione seguente contiene l'elenco delle configurazioni Apache Airflow disponibili nell'elenco a discesa sulla console Amazon. MWAA

Configurazioni e-mail

L'elenco seguente mostra le opzioni di configurazione delle notifiche e-mail Airflow disponibili su AmazonMWAA.

Ti consigliamo di utilizzare la porta 587 per il SMTP traffico. Per impostazione predefinita, AWS blocca il SMTP traffico in uscita sulla porta 25 di tutte le EC2 istanze Amazon. Se desideri inviare traffico in uscita sulla porta 25, puoi richiedere la rimozione di questa restrizione.

Apache Airflow v2

Configurazioni delle attività

L'elenco seguente mostra le configurazioni disponibili nell'elenco a discesa per le attività Airflow su Amazon. MWAA

Apache Airflow v2
Versione Airflow Opzione di configurazione del flusso d'aria Descrizione Valore di esempio

v2

core.default_task_retries

Il numero di volte in cui riprovare un'attività di Apache Airflow in default_task_retries.

3

v2

core.parallelismo

Il numero massimo di istanze di attività che possono essere eseguite contemporaneamente nell'intero ambiente in parallelo (parallelismo).

40

Configurazioni dello scheduler

L'elenco seguente mostra le configurazioni dello scheduler Apache Airflow disponibili nell'elenco a discesa su Amazon. MWAA

Apache Airflow v2
Versione Airflow Opzione di configurazione del flusso d'aria Descrizione Valore di esempio

v2

scheduler.catchup_by_default

Indica allo scheduler di creare una DAG corsa per «recuperare» l'intervallo di tempo specifico in catchup_by_default.

False

v2

scheduler.scheduler_zombie_task_threshold

Indica allo scheduler se contrassegnare l'istanza dell'attività come non riuscita e riprogrammarla in scheduler_zombie_task_threshold.

300

Configurazioni dei lavoratori

L'elenco seguente mostra le configurazioni Airflow Worker disponibili nell'elenco a discesa su Amazon. MWAA

Apache Airflow v2
Versione Airflow Opzione di configurazione del flusso d'aria Descrizione Valore di esempio

v2

celery.worker_autoscale

Il numero massimo e minimo di attività che possono essere eseguite contemporaneamente su qualsiasi lavoratore utilizzando Celery Executor in worker_autoscale. Il valore deve essere separato da virgole nel seguente ordine:. max_concurrency,min_concurrency

16,12

Configurazioni del server Web

L'elenco seguente mostra le configurazioni del server web Airflow disponibili nell'elenco a discesa su Amazon. MWAA

Apache Airflow v2
Versione Airflow Opzione di configurazione del flusso d'aria Descrizione Valore di esempio

v2

webserver.default_ui_timezone

L'impostazione datetime predefinita dell'interfaccia utente di Apache Airflow in default_ui_timezone.

Nota

L'impostazione dell'default_ui_timezoneopzione non modifica il fuso orario in cui è programmata l'esecuzione. DAGs Per modificare il fuso orario del tuoDAGs, puoi utilizzare un plug-in personalizzato. Per ulteriori informazioni, consulta Modifica del fuso orario DAG di un su Amazon MWAA.

America/New_York

Configurazioni Triggerer

L'elenco seguente mostra le configurazioni dei trigger di Apache Airflow disponibili su Amazon. MWAA

Apache Airflow v2
Versione Airflow Opzione di configurazione del flusso d'aria Descrizione Valore di esempio

v2.7

mwaa.triggerer_enabled

Utilizzato per attivare e disattivare il trigger su Amazon. MWAA Per impostazione predefinita, questo valore è impostato su True. Se impostato suFalse, Amazon non MWAA avvierà alcun processo di attivazione sugli scheduler.

True

v2.7

triggerer.default_capacity

Definisce il numero di trigger che ogni trigger può eseguire in parallelo. Su AmazonMWAA, questa capacità è impostata per ogni trigger e per ogni scheduler poiché entrambi i componenti funzionano insieme. L'impostazione predefinita per scheduler è impostata su60,, 125 250500, e 1000 per istanze piccole, medie e grandi, xlarge e 2xlarge, rispettivamente.

125

Esempi e codice di esempio

Esempio DAG

È possibile utilizzare quanto segue DAG per stampare le opzioni di configurazione di email_backend Apache Airflow. Per eseguirlo in risposta agli MWAA eventi Amazon, copia il codice DAGs nella cartella del tuo ambiente sul tuo bucket di storage Amazon S3.

from airflow.decorators import dag from datetime import datetime def print_var(**kwargs): email_backend = kwargs['conf'].get(section='email', key='email_backend') print("email_backend") return email_backend @dag( dag_id="print_env_variable_example", schedule_interval=None, start_date=datetime(yyyy, m, d), catchup=False, ) def print_variable_dag(): email_backend_test = PythonOperator( task_id="email_backend_test", python_callable=print_var, provide_context=True ) print_variable_test = print_variable_dag()

Esempio di impostazioni di notifica e-mail

Le seguenti opzioni di configurazione di Apache Airflow possono essere utilizzate per un account di posta elettronica Gmail.com utilizzando una password dell'app. Per ulteriori informazioni, consulta Accedere utilizzando le password delle app nella guida di riferimento dell'assistenza di Gmail.

Questa immagine mostra come configurare un account di posta elettronica gmail.com utilizzando le opzioni di configurazione di Apache Airflow sulla console. MWAA

Fasi successive