Beban kerja transformasi data dengan SageMaker Processing - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Beban kerja transformasi data dengan SageMaker Processing

SageMaker Pemrosesan mengacu pada kemampuan SageMaker AI untuk menjalankan data sebelum dan sesudah pemrosesan, rekayasa fitur, dan tugas evaluasi model pada SageMaker infrastruktur AI yang dikelola sepenuhnya. Tugas-tugas ini dijalankan sebagai pekerjaan pemrosesan. Berikut ini memberikan informasi dan sumber daya untuk mempelajari tentang SageMaker Pemrosesan.

Menggunakan SageMaker Processing API, ilmuwan data dapat menjalankan skrip dan notebook untuk memproses, mengubah, dan menganalisis kumpulan data untuk mempersiapkannya untuk pembelajaran mesin. Ketika dikombinasikan dengan tugas pembelajaran mesin penting lainnya yang disediakan oleh SageMaker AI, seperti pelatihan dan hosting, Processing memberi Anda manfaat dari lingkungan pembelajaran mesin yang dikelola sepenuhnya, termasuk semua dukungan keamanan dan kepatuhan yang dibangun ke dalam SageMaker AI. Anda memiliki fleksibilitas untuk menggunakan wadah pemrosesan data bawaan atau membawa wadah Anda sendiri untuk logika pemrosesan khusus dan kemudian mengirimkan pekerjaan untuk dijalankan pada infrastruktur yang dikelola SageMaker AI.

catatan

Anda dapat membuat pekerjaan pemrosesan secara terprogram dengan memanggil tindakan CreateProcessingJobAPI dalam bahasa apa pun yang didukung oleh SageMaker AI atau dengan menggunakan. AWS CLI Untuk informasi tentang cara tindakan API ini diterjemahkan ke dalam fungsi dalam bahasa pilihan Anda, lihat bagian Lihat Juga CreateProcessingJob dan pilih SDK. Sebagai contoh, untuk pengguna Python, lihat bagian Amazon SageMaker Processing dari Python SageMaker SDK. Atau, lihat sintaks permintaan lengkap create_processing_job di file. AWS SDK for Python (Boto3)

Diagram berikut menunjukkan bagaimana Amazon SageMaker AI memutar pekerjaan Pemrosesan. Amazon SageMaker AI mengambil skrip Anda, menyalin data Anda dari Amazon Simple Storage Service (Amazon S3), dan kemudian menarik wadah pemrosesan. Infrastruktur yang mendasari untuk pekerjaan Pemrosesan sepenuhnya dikelola oleh Amazon SageMaker AI. Setelah Anda mengirimkan pekerjaan pemrosesan, SageMaker AI meluncurkan instans komputasi, memproses, dan menganalisis data input, dan melepaskan sumber daya setelah selesai. Output dari pekerjaan Pemrosesan disimpan di bucket Amazon S3 yang Anda tentukan.

catatan

Data input Anda harus disimpan dalam bucket Amazon S3. Atau, Anda dapat menggunakan Amazon Athena atau Amazon Redshift sebagai sumber input.

Menjalankan pekerjaan pemrosesan.
Tip

Untuk mempelajari praktik terbaik untuk komputasi terdistribusi pelatihan pembelajaran mesin (ML) dan pekerjaan pemrosesan secara umum, lihatKomputasi terdistribusi dengan praktik terbaik SageMaker AI.

Gunakan Notebook Sampel SageMaker Pemrosesan Amazon

Kami menyediakan dua contoh notebook Jupyter yang menunjukkan cara melakukan pra-pemrosesan data, evaluasi model, atau keduanya.

Untuk contoh buku catatan yang menunjukkan cara menjalankan skrip scikit-learn untuk melakukan prapemrosesan data serta pelatihan serta evaluasi model dengan SageMaker Python SDK for Processing, lihat scikit-learn Processing. Notebook ini juga menunjukkan cara menggunakan container kustom Anda sendiri untuk menjalankan beban kerja pemrosesan dengan pustaka Python Anda dan dependensi spesifik lainnya.

Untuk contoh buku catatan yang menunjukkan cara menggunakan Amazon SageMaker Processing untuk melakukan pra-pemrosesan data terdistribusi dengan Spark, lihat Pemrosesan Terdistribusi (Spark). Notebook ini juga menunjukkan cara melatih model regresi menggunakan XGBoost pada dataset yang telah diproses sebelumnya.

Untuk petunjuk tentang cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan sampel ini di SageMaker AI, lihat. Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab Contoh SageMaker AI untuk melihat daftar semua sampel SageMaker AI. Untuk membuka buku catatan, pilih tab Use dan pilih Create copy.

Pantau Pekerjaan SageMaker Pemrosesan Amazon dengan CloudWatch Log dan Metrik

Amazon SageMaker Processing menyediakan CloudWatch log dan metrik Amazon untuk memantau pekerjaan pemrosesan. CloudWatch menyediakan CPU, GPU, memori, memori GPU, dan metrik disk, dan pencatatan peristiwa. Untuk informasi selengkapnya, silakan lihat Metrik untuk memantau Amazon SageMaker AI dengan Amazon CloudWatch dan Grup log dan aliran yang dikirimkan Amazon SageMaker AI ke Amazon CloudWatch Logs.