Buat jadwal untuk memproses data baru secara otomatis - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Buat jadwal untuk memproses data baru secara otomatis

catatan

Bagian berikut hanya berlaku untuk pekerjaan SageMaker Pemrosesan. Jika Anda menggunakan pengaturan Canvas default atau EMR Tanpa Server untuk membuat pekerjaan jarak jauh untuk menerapkan transformasi ke kumpulan data lengkap Anda, bagian ini tidak berlaku.

Jika Anda memproses data secara berkala, Anda dapat membuat jadwal untuk menjalankan pekerjaan pemrosesan secara otomatis. Misalnya, Anda dapat membuat jadwal yang menjalankan pekerjaan pemrosesan secara otomatis saat Anda mendapatkan data baru. Untuk informasi selengkapnya tentang memproses pekerjaan, lihatEkspor ke Amazon S3.

Saat membuat pekerjaan, Anda harus menentukan IAM peran yang memiliki izin untuk membuat pekerjaan. Anda dapat menggunakan AmazonSageMakerCanvasDataPrepFullAccesskebijakan untuk menambahkan izin.

Tambahkan kebijakan kepercayaan berikut ke peran untuk memungkinkan untuk EventBridge mengasumsikannya.

{ "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
penting

Saat Anda membuat jadwal, Data Wrangler membuat eventRule in. EventBridge Anda dikenakan biaya untuk aturan acara yang Anda buat dan instance yang digunakan untuk menjalankan pekerjaan pemrosesan.

Untuk informasi tentang EventBridge harga, lihat EventBridge harga Amazon. Untuk informasi tentang memproses harga lowongan kerja, lihat SageMaker Harga Amazon.

Anda dapat mengatur jadwal menggunakan salah satu metode berikut:

  • CRONekspresi

    catatan

    Data Wrangler tidak mendukung ekspresi berikut:

    • LW#

    • Singkatan untuk hari

    • Singkatan untuk bulan

  • RATEekspresi

  • Berulang — Tetapkan interval per jam atau harian untuk menjalankan pekerjaan.

  • Waktu spesifik - Tetapkan hari dan waktu tertentu untuk menjalankan pekerjaan.

Bagian berikut menyediakan prosedur penjadwalan pekerjaan saat mengisi pengaturan pekerjaan SageMaker Pemrosesan saat mengekspor data Anda ke Amazon S3. Semua instruksi berikut dimulai di bagian Jadwal asosiasi dari pengaturan pekerjaan SageMaker Pemrosesan.

CRON

Gunakan prosedur berikut untuk membuat jadwal dengan CRON ekspresi.

  1. Di panel samping Ekspor ke Amazon S3, pastikan Anda telah mematikan sakelar konfigurasi pekerjaan Otomatis dan pilih opsi SageMaker Pemrosesan.

  2. Di pengaturan pekerjaan SageMaker Pemrosesan, buka bagian Jadwal asosiasi dan pilih Buat jadwal baru.

  3. Kotak dialog Buat jadwal baru terbuka. Untuk Nama Jadwal, tentukan nama jadwal.

  4. Untuk Run Frequency, pilih CRON.

  5. Untuk setiap kolom Menit, Jam, Hari bulan, Bulan, dan Hari dalam seminggu, masukkan nilai CRON ekspresi yang valid.

  6. Pilih Buat.

  7. (Opsional) Pilih Tambahkan jadwal lain untuk menjalankan pekerjaan pada jadwal tambahan.

    catatan

    Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

  8. Pilih salah satu cara berikut:

    • Jadwalkan dan jalankan sekarang — Pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.

    • Hanya jadwal — Pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

  9. Pilih Ekspor setelah Anda mengisi sisa pengaturan pekerjaan ekspor.

RATE

Gunakan prosedur berikut untuk membuat jadwal dengan RATE ekspresi.

  1. Di panel samping Ekspor ke Amazon S3, pastikan Anda telah mematikan sakelar konfigurasi pekerjaan Otomatis dan pilih opsi SageMaker Pemrosesan.

  2. Di pengaturan pekerjaan SageMaker Pemrosesan, buka bagian Jadwal asosiasi dan pilih Buat jadwal baru.

  3. Kotak dialog Buat jadwal baru terbuka. Untuk Nama Jadwal, tentukan nama jadwal.

  4. Untuk Run Frequency, pilih Rate.

  5. Untuk Nilai, tentukan bilangan bulat.

  6. Untuk Unit, pilih salah satu dari berikut ini:

    • Menit

    • Jam

    • Hari

  7. Pilih Buat.

  8. (Opsional) Pilih Tambahkan jadwal lain untuk menjalankan pekerjaan pada jadwal tambahan.

    catatan

    Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

  9. Pilih salah satu cara berikut:

    • Jadwalkan dan jalankan sekarang — Pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.

    • Hanya jadwal — Pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

  10. Pilih Ekspor setelah Anda mengisi sisa pengaturan pekerjaan ekspor.

Recurring

Gunakan prosedur berikut untuk membuat jadwal yang menjalankan pekerjaan secara berulang.

  1. Di panel samping Ekspor ke Amazon S3, pastikan Anda telah mematikan sakelar konfigurasi pekerjaan Otomatis dan pilih opsi SageMaker Pemrosesan.

  2. Di pengaturan pekerjaan SageMaker Pemrosesan, buka bagian Jadwal asosiasi dan pilih Buat jadwal baru.

  3. Kotak dialog Buat jadwal baru terbuka. Untuk Nama Jadwal, tentukan nama jadwal.

  4. Untuk Run Frequency, pilih Recurring.

  5. Untuk Setiap x jam, tentukan frekuensi per jam yang dijalankan pekerjaan pada siang hari. Nilai yang valid adalah bilangan bulat dalam rentang inklusif dan1. 23

  6. Untuk Pada hari, pilih salah satu opsi berikut:

    • Setiap hari

    • Akhir pekan

    • Hari kerja

    • Pilih Hari

    1. (Opsional) Jika Anda telah memilih Pilih Hari, pilih hari dalam seminggu untuk menjalankan pekerjaan.

    catatan

    Jadwal diatur ulang setiap hari. Jika Anda menjadwalkan pekerjaan untuk dijalankan setiap lima jam, itu berjalan pada waktu-waktu berikut di siang hari:

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  7. Pilih Buat.

  8. (Opsional) Pilih Tambahkan jadwal lain untuk menjalankan pekerjaan pada jadwal tambahan.

    catatan

    Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

  9. Pilih salah satu cara berikut:

    • Jadwalkan dan jalankan sekarang — Pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.

    • Hanya jadwal — Pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

  10. Pilih Ekspor setelah Anda mengisi sisa pengaturan pekerjaan ekspor.

Specific time

Gunakan prosedur berikut untuk membuat jadwal yang menjalankan pekerjaan pada waktu tertentu.

  1. Di panel samping Ekspor ke Amazon S3, pastikan Anda telah mematikan sakelar konfigurasi pekerjaan Otomatis dan pilih opsi SageMaker Pemrosesan.

  2. Di pengaturan pekerjaan SageMaker Pemrosesan, buka bagian Jadwal asosiasi dan pilih Buat jadwal baru.

  3. Kotak dialog Buat jadwal baru terbuka. Untuk Nama Jadwal, tentukan nama jadwal.

  4. Untuk Run Frequency, pilih Waktu mulai.

  5. Untuk Waktu mulai, masukkan waktu dalam UTC format (misalnya,09:00). Waktu mulai default ke zona waktu tempat Anda berada.

  6. Untuk Pada hari, pilih salah satu opsi berikut:

    • Setiap hari

    • Akhir pekan

    • Hari kerja

    • Pilih Hari

    1. (Opsional) Jika Anda telah memilih Pilih Hari, pilih hari dalam seminggu untuk menjalankan pekerjaan.

  7. Pilih Buat.

  8. (Opsional) Pilih Tambahkan jadwal lain untuk menjalankan pekerjaan pada jadwal tambahan.

    catatan

    Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

  9. Pilih salah satu cara berikut:

    • Jadwalkan dan jalankan sekarang — Pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.

    • Hanya jadwal — Pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

  10. Pilih Ekspor setelah Anda mengisi sisa pengaturan pekerjaan ekspor.

Anda dapat menggunakan SageMaker AWS Management Console untuk melihat pekerjaan yang dijadwalkan untuk dijalankan. Pekerjaan pemrosesan Anda berjalan di dalam Pipelines. Setiap pekerjaan pemrosesan memiliki pipa sendiri. Ini berjalan sebagai langkah pemrosesan di dalam pipa. Anda dapat melihat jadwal yang telah Anda buat dalam pipeline. Untuk informasi tentang melihat pipeline, lihatLihat detail pipa.

Gunakan prosedur berikut untuk melihat pekerjaan yang telah Anda jadwalkan.

Untuk melihat pekerjaan yang telah Anda jadwalkan, lakukan hal berikut.

  1. Buka Amazon SageMaker Studio Classic.

  2. Buka Pipa

  3. Lihat saluran pipa untuk pekerjaan yang telah Anda buat.

    Pipeline yang menjalankan pekerjaan menggunakan nama pekerjaan sebagai awalan. Misalnya, jika Anda telah membuat pekerjaan bernamahousing-data-feature-enginnering, nama pipeline adalahcanvas-data-prep-housing-data-feature-engineering.

  4. Pilih pipeline yang berisi pekerjaan Anda.

  5. Lihat status jaringan pipa. Pipelines dengan Status Sukses telah menjalankan pekerjaan pemrosesan dengan sukses.

Untuk menghentikan pekerjaan pemrosesan berjalan, lakukan hal berikut:

Untuk menghentikan pekerjaan pemrosesan agar tidak berjalan, hapus aturan acara yang menentukan jadwal. Menghapus aturan acara menghentikan semua pekerjaan yang terkait dengan jadwal berjalan. Untuk informasi tentang menghapus aturan, lihat Menonaktifkan atau menghapus aturan Amazon. EventBridge

Anda dapat menghentikan dan menghapus saluran pipa yang terkait dengan jadwal juga. Untuk informasi tentang menghentikan pipa, lihat StopPipelineExecution. Untuk informasi tentang menghapus pipeline, lihat DeletePipeline.