Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Beban kerja transformasi data dengan SageMaker Processing
SageMaker Pemrosesan mengacu pada SageMaker kemampuan untuk menjalankan pemrosesan data sebelum dan sesudah pemrosesan, rekayasa fitur, dan tugas evaluasi model pada SageMaker infrastruktur yang dikelola sepenuhnya. Tugas-tugas ini dijalankan sebagai pekerjaan pemrosesan. Berikut ini memberikan informasi dan sumber daya untuk mempelajari tentang SageMaker Pemrosesan.
Menggunakan SageMaker ProcessingAPI, ilmuwan data dapat menjalankan skrip dan notebook untuk memproses, mengubah, dan menganalisis kumpulan data untuk mempersiapkannya untuk pembelajaran mesin. Ketika dikombinasikan dengan tugas pembelajaran mesin penting lainnya yang disediakan oleh SageMaker, seperti pelatihan dan hosting, Processing memberi Anda manfaat dari lingkungan pembelajaran mesin yang dikelola sepenuhnya, termasuk semua dukungan keamanan dan kepatuhan yang ada di dalamnya SageMaker. Anda memiliki fleksibilitas untuk menggunakan wadah pemrosesan data bawaan atau membawa wadah Anda sendiri untuk logika pemrosesan khusus dan kemudian mengirimkan pekerjaan untuk dijalankan pada infrastruktur SageMaker terkelola.
catatan
Anda dapat membuat pekerjaan pemrosesan secara terprogram dengan memanggil CreateProcessingJobAPItindakan dalam bahasa apa pun yang didukung oleh SageMaker atau dengan menggunakan. AWS CLI Untuk informasi tentang cara API tindakan ini diterjemahkan ke dalam fungsi dalam bahasa pilihan Anda, lihat bagian Lihat Juga CreateProcessingJob dan pilih. SDK Sebagai contoh, untuk pengguna Python, lihat bagian Amazon SageMaker Processing
Diagram berikut menunjukkan bagaimana Amazon SageMaker memutar pekerjaan Processing. Amazon SageMaker mengambil skrip Anda, menyalin data Anda dari Amazon Simple Storage Service (Amazon S3), dan kemudian menarik wadah pemrosesan. Infrastruktur dasar untuk pekerjaan Pemrosesan sepenuhnya dikelola oleh Amazon SageMaker. Setelah Anda mengirimkan pekerjaan pemrosesan, SageMaker meluncurkan instance komputasi, memproses, dan menganalisis data input, dan melepaskan sumber daya setelah selesai. Output dari pekerjaan Processing disimpan di bucket Amazon S3 yang Anda tentukan.
catatan
Data masukan Anda harus disimpan dalam bucket Amazon S3. Atau, Anda dapat menggunakan Amazon Athena atau Amazon Redshift sebagai sumber input.
Tip
Untuk mempelajari praktik terbaik untuk komputasi terdistribusi pelatihan pembelajaran mesin (ML) dan pekerjaan pemrosesan secara umum, lihatKomputasi terdistribusi dengan praktik SageMaker terbaik.
Gunakan Notebook Sampel SageMaker Pemrosesan Amazon
Kami menyediakan dua contoh notebook Jupyter yang menunjukkan cara melakukan pra-pemrosesan data, evaluasi model, atau keduanya.
Untuk contoh buku catatan yang menunjukkan cara menjalankan skrip scikit-learn untuk melakukan prapemrosesan data dan pelatihan serta evaluasi model dengan SageMaker Python SDK for Processing, lihat scikit-learn Processing.
Untuk contoh buku catatan yang menunjukkan cara menggunakan Amazon SageMaker Processing untuk melakukan pra-pemrosesan data terdistribusi dengan Spark, lihat Pemrosesan Terdistribusi (Spark)
Untuk petunjuk tentang cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan sampel ini, lihat. SageMaker Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab SageMaker Contoh untuk melihat daftar semua SageMaker sampel. Untuk membuka buku catatan, pilih tab Use dan pilih Create copy.
Pantau Pekerjaan SageMaker Pemrosesan Amazon dengan CloudWatch Log dan Metrik
Amazon SageMaker Processing menyediakan CloudWatch log dan metrik Amazon untuk memantau pekerjaan pemrosesan. CloudWatch menyediakanCPU,GPU, memori, GPU memori, dan metrik disk, dan pencatatan peristiwa. Untuk informasi selengkapnya, silakan lihat Metrik untuk memantau Amazon SageMaker dengan Amazon CloudWatch dan Grup log dan aliran yang SageMaker dikirimkan Amazon ke Amazon CloudWatch Logs.