Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengelola dependensi Python di requirements.txt
Halaman ini menjelaskan praktik terbaik yang kami sarankan untuk menginstal dan mengelola dependensi Python dalam file untuk lingkungan Alur Kerja Terkelola Amazon requirements.txt
untuk Apache Airflow.
Daftar Isi
Pengujian DAGs menggunakan MWAA CLI utilitas Amazon
-
Utilitas antarmuka baris perintah (CLI) mereplikasi Alur Kerja Terkelola Amazon untuk lingkungan Apache Airflow secara lokal.
-
CLIMembangun image container Docker secara lokal yang mirip dengan image produksi AmazonMWAA. Ini memungkinkan Anda menjalankan lingkungan Apache Airflow lokal untuk mengembangkan dan mengujiDAGs, plugin khusus, dan dependensi sebelum menerapkan ke Amazon. MWAA
-
Untuk menjalankanCLI, lihat aws-mwaa-local-runner
di GitHub.
Menginstal dependensi Python menggunakan PyPi Format File Persyaratan .org
Opsi satu: dependensi Python dari Indeks Paket Python
Bagian berikut menjelaskan cara menentukan dependensi Python dari Indeks Paketrequirements.txt
Opsi dua: Roda Python (.whl)
Roda Python adalah format paket yang dirancang untuk mengirimkan perpustakaan dengan artefak yang dikompilasi. Ada beberapa manfaat paket roda sebagai metode untuk menginstal dependensi di Amazon: MWAA
-
Instalasi lebih cepat — WHL file disalin ke wadah sebagai satuZIP, dan kemudian diinstal secara lokal, tanpa harus mengunduh masing-masing.
-
Lebih sedikit konflik — Anda dapat menentukan kompatibilitas versi untuk paket Anda terlebih dahulu. Akibatnya, tidak perlu mengerjakan versi yang kompatibel
pip
secara rekursif. -
Ketahanan yang lebih besar — Dengan pustaka yang dihosting secara eksternal, persyaratan hilir dapat berubah, mengakibatkan ketidakcocokan versi antar kontainer di lingkungan Amazon. MWAA Dengan tidak bergantung pada sumber eksternal untuk dependensi, setiap kontainer memiliki pustaka yang sama terlepas dari kapan setiap wadah dipakai.
Kami merekomendasikan metode berikut untuk menginstal dependensi Python dari arsip roda Python () di file Anda. .whl
requirements.txt
Metode
Menggunakan plugins.zip
file di bucket Amazon S3
Penjadwal Apache Airflow, pekerja, dan server web (untuk Apache Airflow v2.2.2 dan yang lebih baru) mencari plugin khusus selama startup pada wadah Fargate yang AWS dikelola untuk lingkungan Anda di. /usr/local/airflow/plugins/
Proses ini dimulai sebelum Amazon MWAA untuk dependensi Python dan startup layanan Apache Airflow. *
pip3 install -r requirements.txt
plugins.zip
File digunakan untuk file apa pun yang Anda tidak ingin terus berubah selama eksekusi lingkungan, atau Anda mungkin tidak ingin memberikan akses ke pengguna yang menulisDAGs. Misalnya, file roda pustaka Python, file sertifikat, dan PEM file konfigurasiYAML.
Bagian berikut menjelaskan cara memasang roda yang ada di plugins.zip
file di bucket Amazon S3 Anda.
-
Unduh WHL file yang diperlukan Anda dapat menggunakan
pip download
dengan yang ada requirements.txt
di Amazon MWAA local-runneratau wadah Amazon Linux 2 lainnya untuk menyelesaikan dan mengunduh file roda Python yang diperlukan. $
pip3 download -r "$AIRFLOW_HOME/dags/requirements.txt" -d "$AIRFLOW_HOME/plugins"
$
cd "
$AIRFLOW_HOME
/plugins"$
zip "
$AIRFLOW_HOME
/plugins.zip" * -
Tentukan jalur di Anda
requirements.txt
. Tentukan direktori plugin di bagian atas requirements.txt Anda menggunakan--find-links
dan menginstruksikan untuk pip
tidak menginstal dari sumber lain menggunakan--no-index
, seperti yang ditunjukkan dalam berikut --find-links /usr/local/airflow/plugins --no-index
contoh roda di requirements.txt
Contoh berikut mengasumsikan Anda telah mengunggah roda dalam
plugins.zip
file di root bucket Amazon S3 Anda. Sebagai contoh:--find-links /usr/local/airflow/plugins --no-index numpy
Amazon MWAA mengambil
numpy-1.20.1-cp37-cp37m-manylinux1_x86_64.whl
roda dariplugins
folder dan menginstalnya di lingkungan Anda.
Menggunakan WHL file yang dihosting di URL
Bagian berikut menjelaskan cara memasang roda yang di-host di fileURL. URLHarus dapat diakses publik, atau dapat diakses dari dalam Amazon khusus yang VPC Anda tentukan untuk MWAA lingkungan Amazon Anda.
-
Menyediakan a URL. Berikan URL ke roda di Anda
requirements.txt
.contoh arsip roda di depan umum URL
Contoh berikut mengunduh roda dari situs publik.
--find-links https://files.pythonhosted.org/packages/ --no-index
Amazon MWAA mengambil roda dari yang URL Anda tentukan dan menginstalnya di lingkungan Anda.
catatan
URLstidak dapat diakses dari server web pribadi yang menginstal persyaratan di Amazon MWAA v2.2.2 dan yang lebih baru.
Membuat WHL file dari DAG
Jika Anda memiliki server web pribadi menggunakan Apache Airflow v2.2.2 atau yang lebih baru dan Anda tidak dapat menginstal persyaratan karena lingkungan Anda tidak memiliki akses ke repositori eksternal, Anda dapat menggunakan yang berikut ini untuk DAG mengambil MWAA persyaratan Amazon yang ada dan mengemasnya di Amazon S3:
from airflow import DAG from airflow.operators.bash_operator import BashOperator from airflow.utils.dates import days_ago S3_BUCKET = 'my-s3-bucket' S3_KEY = 'backup/plugins_whl.zip' with DAG(dag_id="create_whl_file", schedule_interval=None, catchup=False, start_date=days_ago(1)) as dag: cli_command = BashOperator( task_id="bash_command", bash_command=f"mkdir /tmp/whls;pip3 download -r /usr/local/airflow/requirements/requirements.txt -d /tmp/whls;zip -j /tmp/plugins.zip /tmp/whls/*;aws s3 cp /tmp/plugins.zip s3://
{S3_BUCKET}
/{S3_KEY}
" )
Setelah menjalankanDAG, gunakan file baru ini sebagai Amazon Anda MWAAplugins.zip
, opsional, dikemas dengan plugin lain. Kemudian, perbarui Anda requirements.txt
sebelumnya dengan --find-links /usr/local/airflow/plugins
dan --no-index
tanpa menambahkan. --constraint
Metode ini memungkinkan Anda untuk menggunakan perpustakaan yang sama secara offline.
Opsi tiga: Dependensi Python yang dihosting pada Repo yang Sesuai/-503 pribadi PyPi PEP
Bagian berikut menjelaskan cara menginstal tambahan Apache Airflow yang di-host secara pribadi URL dengan otentikasi.
-
Tambahkan nama pengguna dan kata sandi Anda sebagai opsi konfigurasi Apache Airflow. Sebagai contoh:
-
foo.user
:YOUR_USER_NAME
-
foo.pass
:YOUR_PASSWORD
-
-
Buat
requirements.txt
file Anda. Gantikan placeholder dalam contoh berikut dengan pribadi AndaURL, dan nama pengguna dan kata sandi yang telah Anda tambahkan sebagai opsi konfigurasi Apache Airflow. Sebagai contoh:--index-url https://${AIRFLOW__FOO__USER}:${AIRFLOW__FOO__PASS}@my.privatepypi.com
-
Tambahkan pustaka tambahan apa pun ke
requirements.txt
file Anda. Sebagai contoh:--index-url https://${AIRFLOW__FOO__USER}:${AIRFLOW__FOO__PASS}@my.privatepypi.com my-private-package==1.2.3
Mengaktifkan log di konsol Amazon MWAA
Peran eksekusi untuk MWAA lingkungan Amazon Anda memerlukan izin untuk mengirim log ke CloudWatch Log. Untuk memperbarui izin peran eksekusi, lihatPeran MWAA eksekusi Amazon.
Anda dapat mengaktifkan log Apache Airflow diINFO
,, WARNING
ERROR
, atau CRITICAL
level. Saat Anda memilih level log, Amazon MWAA mengirimkan log untuk level tersebut dan semua tingkat keparahan yang lebih tinggi. Misalnya, jika Anda mengaktifkan log di INFO
level tersebut, Amazon MWAA mengirimkan INFO
log danWARNING
,ERROR
, dan tingkat CRITICAL
CloudWatch log ke Log. Sebaiknya aktifkan log Apache Airflow pada INFO
level agar Scheduler dapat melihat log yang diterima untuk file. requirements.txt
Melihat log di konsol CloudWatch Log
Anda dapat melihat log Apache Airflow untuk Scheduler yang menjadwalkan alur kerja Anda dan mengurai folder Anda. dags
Langkah-langkah berikut menjelaskan cara membuka grup log untuk Scheduler di MWAA konsol Amazon, dan melihat log Apache Airflow di konsol Log. CloudWatch
Untuk melihat log untuk requirements.txt
-
Buka halaman Lingkungan
di MWAA konsol Amazon. -
Pilih lingkungan.
-
Pilih grup log penjadwal aliran udara di panel Pemantauan.
-
Pilih
requirements_install_ip
log masuk Aliran log. -
Anda akan melihat daftar paket yang diinstal pada lingkungan di
/usr/local/airflow/.local/bin
. Sebagai contoh:Collecting appdirs==1.4.4 (from -r /usr/local/airflow/.local/bin (line 1)) Downloading https://files.pythonhosted.org/packages/3b/00/2344469e2084fb28kjdsfiuyweb47389789vxbmnbjhsdgf5463acd6cf5e3db69324/appdirs-1.4.4-py2.py3-none-any.whl Collecting astroid==2.4.2 (from -r /usr/local/airflow/.local/bin (line 2))
-
Tinjau daftar paket dan apakah salah satu dari ini mengalami kesalahan selama instalasi. Jika terjadi kesalahan, Anda mungkin melihat kesalahan yang mirip dengan yang berikut ini:
2021-03-05T14:34:42.731-07:00 No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4)) No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4))
Melihat kesalahan di Apache Airflow UI
Anda mungkin juga ingin memeriksa Apache Airflow UI untuk mengidentifikasi apakah kesalahan mungkin terkait dengan masalah lain. Kesalahan paling umum yang mungkin Anda temui dengan Apache Airflow di Amazon MWAA adalah:
Broken DAG: No module named
x
Jika Anda melihat kesalahan ini di Apache Airflow UI, Anda mungkin kehilangan ketergantungan yang diperlukan dalam file Anda. requirements.txt
Masuk ke Apache Airflow
Anda memerlukan Kebijakan akses Apache Airflow UI: A mazonMWAAWeb ServerAccess izin untuk AWS akun Anda di AWS Identity and Access Management (IAM) untuk melihat UI Apache Airflow Anda.
Untuk mengakses UI Apache Airflow Anda
-
Buka halaman Lingkungan
di MWAA konsol Amazon. -
Pilih lingkungan.
-
Pilih Buka UI Aliran Udara.
Contoh requirements.txt
skenario
Anda dapat mencampur dan mencocokkan berbagai format dalam format Andarequirements.txt
. Contoh berikut menggunakan kombinasi dari berbagai cara untuk menginstal ekstra.
contoh Ekstra di PyPi .org dan publik URL
Anda perlu menggunakan --index-url
opsi saat menentukan paket dari PyPi .org, selain paket di publikURL, seperti repo yang sesuai dengan PEP 503 kustom. URLs
aws-batch == 0.6 phoenix-letter >= 0.3 --index-url http://dist.repoze.org/zope2/2.10/simple zopelib