Menggunakan parameter pekerjaan di pekerjaan Ray - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan parameter pekerjaan di pekerjaan Ray

Anda menetapkan argumen untuk pekerjaan AWS Glue Ray dengan cara yang sama seperti Anda menetapkan argumen AWS Glue untuk pekerjaan Spark. Untuk informasi selengkapnya tentang API AWS Glue, lihat Tugas. Anda dapat mengkonfigurasi pekerjaan AWS Glue Ray dengan argumen yang berbeda, yang tercantum dalam referensi ini. Anda juga dapat memberikan argumen Anda sendiri.

Anda dapat mengonfigurasi pekerjaan melalui konsol, di tab Detail pekerjaan, di bawah judul Parameter Pekerjaan. Anda juga dapat mengonfigurasi pekerjaan AWS CLI melalui pengaturan DefaultArguments pekerjaan, atau pengaturan Arguments pada pekerjaan. Argumen default dan parameter pekerjaan tetap dengan pekerjaan melalui beberapa proses.

Misalnya, berikut ini adalah sintaksis untuk menjalankan sebuah tugas menggunakan --arguments untuk menetapkan parameter khusus.

$ aws glue start-job-run --job-name "CSV to CSV" --arguments='--scriptLocation="s3://my_glue/libraries/test_lib.py",--test-environment="true"'

Setelah Anda mengatur argumen, Anda dapat mengakses parameter pekerjaan dari dalam pekerjaan Ray Anda melalui variabel lingkungan. Ini memberi Anda cara untuk mengonfigurasi pekerjaan Anda untuk setiap proses. Nama variabel lingkungan akan menjadi nama argumen pekerjaan tanpa -- awalan.

Misalnya, dalam contoh sebelumnya, nama variabel akan menjadi scriptLocation dantest-environment. Anda kemudian akan mengambil argumen melalui metode yang tersedia di pustaka standar:test_environment = os.environ.get('test-environment'). Untuk informasi selengkapnya tentang mengakses variabel lingkungan dengan Python, lihat modul os dalam dokumentasi Python.

Konfigurasikan bagaimana pekerjaan Ray menghasilkan log

Secara default, pekerjaan Ray menghasilkan log dan metrik yang dikirim ke CloudWatch dan Amazon S3. Anda dapat menggunakan --logging_configuration parameter untuk mengubah cara log dihasilkan, saat ini Anda dapat menggunakannya untuk menghentikan pekerjaan Ray dari menghasilkan berbagai jenis log. Parameter ini mengambil objek JSON, yang kuncinya sesuai dengan log/perilaku yang ingin Anda ubah. Ini mendukung kunci berikut:

  • CLOUDWATCH_METRICS— Mengkonfigurasi rangkaian CloudWatch metrik yang dapat digunakan untuk memvisualisasikan kesehatan kerja. Untuk informasi lebih lanjut tentang metrik, lihat Memantau pekerjaan Ray dengan metrik.

  • CLOUDWATCH_LOGS— Mengkonfigurasi CloudWatch log yang memberikan rincian tingkat aplikasi Ray tentang status pekerjaan yang dijalankan. Untuk informasi lebih lanjut tentang log, lihat Pemecahan masalah AWS Glue untuk kesalahan Ray dari log.

  • S3— Mengkonfigurasi apa yang AWS Glue menulis ke Amazon S3, terutama informasi CloudWatch yang mirip dengan log tetapi sebagai file daripada aliran log.

Untuk menonaktifkan perilaku logging Ray, berikan nilainya{\"IS_ENABLED\": \"False\"}. Misalnya, untuk menonaktifkan CloudWatch metrik dan CloudWatch log, berikan konfigurasi berikut:

"--logging_configuration": "{\"CLOUDWATCH_METRICS\": {\"IS_ENABLED\": \"False\"}, \"CLOUDWATCH_LOGS\": {\"IS_ENABLED\": \"False\"}}"

Referensi

Pekerjaan Ray mengenali nama argumen berikut yang dapat Anda gunakan untuk mengatur lingkungan skrip untuk pekerjaan dan pekerjaan Ray Anda:

  • --logging_configuration— Digunakan untuk menghentikan pembuatan berbagai log yang dibuat oleh Ray jobs. Log ini dihasilkan secara default pada semua pekerjaan Ray. Format: Objek JSON yang lolos dari string. Untuk informasi selengkapnya, lihat Konfigurasikan bagaimana pekerjaan Ray menghasilkan log.

  • --min-workers— Jumlah minimum node pekerja yang dialokasikan untuk pekerjaan Ray. Node pekerja dapat menjalankan beberapa replika, satu per CPU virtual. Format: bilangan bulat. Minimal: 0. Maksimum: nilai yang ditentukan --number-of-workers (NumberOfWorkers) pada definisi pekerjaan. Untuk informasi selengkapnya tentang akuntansi untuk node pekerja, lihatAkuntansi untuk pekerja di pekerjaan Ray.

  • --object_spilling_config— AWS Glue untuk dukungan Ray menggunakan Amazon S3 sebagai cara memperluas ruang yang tersedia untuk penyimpanan objek Ray. Untuk mengaktifkan perilaku ini, Anda dapat memberikan Ray objek yang menumpahkan objek konfigurasi JSON dengan parameter ini. Untuk informasi lebih lanjut tentang konfigurasi tumpahan objek Ray, lihat Object Spilling dalam dokumentasi Ray. Format: objek JSON.

    AWS Glueuntuk Ray hanya mendukung tumpahan ke disk atau tumpah ke Amazon S3 sekaligus. Anda dapat menyediakan beberapa lokasi untuk tumpahan, selama mereka menghormati batasan ini. Saat tumpah ke Amazon S3, Anda juga perlu menambahkan izin IAM ke pekerjaan Anda untuk bucket ini.

    Saat menyediakan objek JSON sebagai konfigurasi dengan CLI, Anda harus menyediakannya sebagai string, dengan objek JSON string-escaped. Misalnya, nilai string untuk tumpah ke satu jalur Amazon S3 akan terlihat seperti:. "{\"type\": \"smart_open\", \"params\": {\"uri\":\"s3path\"}}" DalamAWS Glue Studio, berikan parameter ini sebagai objek JSON tanpa pemformatan tambahan.

  • --object_store_memory_head— Memori yang dialokasikan ke penyimpanan objek Plasma pada simpul kepala Ray. Instance ini menjalankan layanan manajemen klaster, serta replika pekerja. Nilai mewakili persentase memori bebas pada instance setelah awal yang hangat. Anda menggunakan parameter ini untuk menyetel beban kerja intensif memori — default dapat diterima untuk sebagian besar kasus penggunaan. Format: bilangan bulat positif. Minimal: 1. Maksimal: 100.

    Untuk informasi lebih lanjut tentang Plasma, lihat Toko Objek Dalam Memori Plasma di dokumentasi Ray.

  • --object_store_memory_worker— Memori yang dialokasikan ke penyimpanan objek Plasma pada node pekerja Ray. Contoh ini hanya menjalankan replika pekerja. Nilai mewakili persentase memori bebas pada instance setelah awal yang hangat. Parameter ini digunakan untuk menyetel beban kerja intensif memori — default dapat diterima untuk sebagian besar kasus penggunaan. Format: bilangan bulat positif. Minimal: 1. Maksimal: 100.

    Untuk informasi lebih lanjut tentang Plasma, lihat Toko Objek Dalam Memori Plasma di dokumentasi Ray.

  • --pip-install— Satu set paket Python yang akan diinstal. Anda dapat menginstal paket dari PyPI menggunakan argumen ini. Format: dibatasi koma daftar.

    Entri paket PyPI ada dalam formatpackage==version, dengan nama PyPI dan versi paket target Anda. Entri menggunakan pencocokan versi Python untuk mencocokkan paket dan versi, == seperti, bukan yang sama. = Ada yang lain operator pencocokan versi. Untuk informasi lebih lanjut, lihat PEP 440 di situs web Python. Anda juga dapat menyediakan modul khusus dengan--s3-py-modules.

  • --s3-py-modules- Satu set jalur Amazon S3 yang menampung distribusi modul Python. Format: daftar yang dibatasi koma.

    Anda dapat menggunakan ini untuk mendistribusikan modul Anda sendiri ke pekerjaan Ray Anda. Anda juga dapat menyediakan modul dari PyPI dengan. --pip-install Tidak seperti AWS Glue ETL, modul kustom tidak diatur melalui pip, tetapi diteruskan ke Ray untuk distribusi. Untuk informasi selengkapnya, lihat Modul Python tambahan untuk pekerjaan Ray.

  • --working-dir— Jalur ke file.zip yang dihosting di Amazon S3 yang berisi file yang akan didistribusikan ke semua node yang menjalankan pekerjaan Ray Anda. Format: string. Untuk informasi selengkapnya, lihat Menyediakan file untuk pekerjaan Ray Anda.