Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Setelah mengubah data dalam aliran data, Anda dapat mengekspor transformasi ke alur kerja pembelajaran mesin Anda. Saat Anda mengekspor transformasi Anda, SageMaker Canvas membuat notebook Jupyter. Anda harus menjalankan notebook dalam Amazon SageMaker Studio Classic. Untuk informasi tentang memulai Studio Classic, hubungi administrator Anda.
Otomatiskan persiapan data menggunakan Pipelines
Saat ingin membangun dan menerapkan alur kerja machine learning (ML) skala besar, Anda dapat menggunakan Pipelines untuk membuat alur kerja yang mengelola dan menerapkan pekerjaan AI. SageMaker Dengan Pipelines, Anda dapat membangun alur kerja yang mengelola persiapan data SageMaker AI, pelatihan model, dan memodelkan pekerjaan penerapan. Anda dapat menggunakan algoritme pihak pertama yang ditawarkan SageMaker AI dengan menggunakan Pipelines. Untuk informasi lebih lanjut tentang Pipelines, lihat SageMaker Pipelines.
Saat Anda mengekspor satu atau beberapa langkah dari aliran data ke Pipelines, Data Wrangler akan membuat buku catatan Jupyter yang dapat Anda gunakan untuk menentukan, membuat instance, menjalankan, dan mengelola pipeline.
Menggunakan Notebook Jupyter untuk Membuat Pipeline
Gunakan prosedur berikut untuk membuat notebook Jupyter untuk mengekspor aliran Data Wrangler Anda ke Pipelines.
Gunakan prosedur berikut untuk membuat notebook Jupyter dan menjalankannya untuk mengekspor aliran Data Wrangler Anda ke Pipelines.
-
Pilih + di sebelah simpul yang ingin Anda ekspor.
-
Pilih Ekspor aliran data.
-
Pilih Pipelines (melalui Jupyter Notebook).
-
Unduh notebook Jupyter atau salin ke lokasi Amazon S3. Kami merekomendasikan untuk menyalinnya ke lokasi Amazon S3 yang dapat Anda akses dalam Studio Classic. Hubungi administrator Anda jika Anda memerlukan panduan tentang lokasi yang sesuai.
-
Jalankan notebook Jupyter.
Anda dapat menggunakan notebook Jupyter yang dihasilkan Data Wrangler untuk menentukan pipeline. Pipeline mencakup langkah-langkah pemrosesan data yang ditentukan oleh alur Data Wrangler Anda.
Anda dapat menambahkan langkah tambahan ke pipeline dengan menambahkan langkah-langkah ke steps
daftar dalam kode berikut di buku catatan:
pipeline = Pipeline(
name=pipeline_name,
parameters=[instance_type, instance_count],
steps=[step_process], #Add more steps to this list to run in your Pipeline
)
Untuk informasi selengkapnya tentang mendefinisikan pipeline, lihat Mendefinisikan Pipeline SageMaker AI.
Mengotomatiskan persiapan data menggunakan titik akhir inferensi
Gunakan alur Data Wrangler Anda untuk memproses data pada saat inferensi dengan membuat pipeline inferensi serial SageMaker AI dari alur Data Wrangler Anda. Pipa inferensi adalah serangkaian langkah yang menghasilkan model terlatih yang membuat prediksi pada data baru. Pipa inferensi serial dalam Data Wrangler mengubah data mentah dan menyediakannya ke model pembelajaran mesin untuk prediksi. Anda membuat, menjalankan, dan mengelola pipeline inferensi dari notebook Jupyter dalam Studio Classic. Untuk informasi selengkapnya tentang mengakses buku catatan, lihatGunakan buku catatan Jupyter untuk membuat titik akhir inferensi.
Di dalam buku catatan, Anda dapat melatih model pembelajaran mesin atau menentukan model yang sudah Anda latih. Anda dapat menggunakan Amazon SageMaker Autopilot atau XGBoost untuk melatih model menggunakan data yang telah diubah dalam alur Data Wrangler Anda.
Pipeline menyediakan kemampuan untuk melakukan inferensi batch atau real-time. Anda juga dapat menambahkan aliran Data Wrangler ke SageMaker Model Registry. Untuk informasi selengkapnya tentang model hosting, lihatTitik akhir multi-model.
penting
Anda tidak dapat mengekspor aliran Data Wrangler ke titik akhir inferensi jika memiliki transformasi berikut:
-
Join
-
Gabungan
-
Grup oleh
Jika Anda harus menggunakan transformasi sebelumnya untuk menyiapkan data Anda, gunakan prosedur berikut.
Untuk mempersiapkan data Anda untuk inferensi dengan transformasi yang tidak didukung
-
Buat alur Data Wrangler.
-
Terapkan transformasi sebelumnya yang tidak didukung.
-
Ekspor data ke bucket Amazon S3.
-
Buat alur Data Wrangler terpisah.
-
Impor data yang telah Anda ekspor dari alur sebelumnya.
-
Terapkan transformasi yang tersisa.
-
Buat pipeline inferensi serial menggunakan notebook Jupyter yang kami sediakan.
Untuk informasi tentang mengekspor data ke bucket Amazon S3, lihat. Ekspor data Untuk informasi tentang membuka notebook Jupyter yang digunakan untuk membuat pipeline inferensi serial, lihat. Gunakan buku catatan Jupyter untuk membuat titik akhir inferensi
Data Wrangler mengabaikan transformasi yang menghapus data pada saat inferensi. Misalnya, Data Wrangler mengabaikan Tangani Nilai yang Hilang transformasi jika Anda menggunakan konfigurasi Drop missing.
Jika Anda telah mereparasi transformasi ke seluruh kumpulan data Anda, transformasi terbawa ke saluran inferensi Anda. Misalnya, jika Anda menggunakan nilai median untuk mengimputasi nilai yang hilang, nilai median dari refitting transformasi diterapkan ke permintaan inferensi Anda. Anda dapat mereparasi transformasi dari alur Data Wrangler saat menggunakan notebook Jupyter atau saat mengekspor data ke pipeline inferensi.
Pipa inferensi serial mendukung tipe data berikut untuk string input dan output. Setiap tipe data memiliki seperangkat persyaratan.
Tipe data yang didukung
-
text/csv
— tipe data untuk string CSV-
String tidak dapat memiliki header.
-
Fitur yang digunakan untuk pipa inferensi harus dalam urutan yang sama dengan fitur dalam kumpulan data pelatihan.
-
Harus ada pembatas koma antara fitur.
-
Catatan harus dibatasi oleh karakter baris baru.
Berikut ini adalah contoh string CSV yang diformat secara valid yang dapat Anda berikan dalam permintaan inferensi.
abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890
-
-
application/json
— tipe data untuk string JSON-
Fitur yang digunakan dalam kumpulan data untuk pipa inferensi harus dalam urutan yang sama dengan fitur dalam kumpulan data pelatihan.
-
Data harus memiliki skema tertentu. Anda mendefinisikan skema sebagai
instances
objek tunggal yang memiliki satu set.features
Setiapfeatures
objek mewakili pengamatan.
Berikut ini adalah contoh string JSON yang diformat secara valid yang dapat Anda berikan dalam permintaan inferensi.
{ "instances": [ { "features": ["abc", 0.0, "Doe, John", 12345] }, { "features": ["def", 1.1, "Doe, Jane", 67890] } ] }
-
Gunakan buku catatan Jupyter untuk membuat titik akhir inferensi
Gunakan prosedur berikut untuk mengekspor alur Data Wrangler Anda untuk membuat pipeline inferensi.
Untuk membuat pipeline inferensi menggunakan notebook Jupyter, lakukan hal berikut.
-
Pilih + di sebelah simpul yang ingin Anda ekspor.
-
Pilih Ekspor aliran data.
-
Pilih SageMaker AI Inference Pipeline (melalui Jupyter Notebook).
-
Unduh notebook Jupyter atau salin ke lokasi Amazon S3. Kami merekomendasikan untuk menyalinnya ke lokasi Amazon S3 yang dapat Anda akses dalam Studio Classic. Hubungi administrator Anda jika Anda memerlukan panduan tentang lokasi yang sesuai.
-
Jalankan notebook Jupyter.
Saat Anda menjalankan notebook Jupyter, itu menciptakan artefak aliran inferensi. Artefak aliran inferensi adalah file aliran Data Wrangler dengan metadata tambahan yang digunakan untuk membuat pipeline inferensi serial. Node yang Anda ekspor mencakup semua transformasi dari node sebelumnya.
penting
Data Wrangler membutuhkan artefak aliran inferensi untuk menjalankan pipa inferensi. Anda tidak dapat menggunakan file aliran Anda sendiri sebagai artefak. Anda harus membuatnya dengan menggunakan prosedur sebelumnya.
Mengotomatiskan persiapan data menggunakan Kode Python
Untuk mengekspor semua langkah dalam aliran data Anda ke file Python yang dapat Anda integrasikan secara manual ke dalam alur kerja pemrosesan data apa pun, gunakan prosedur berikut.
Gunakan prosedur berikut untuk menghasilkan notebook Jupyter dan menjalankannya untuk mengekspor aliran Data Wrangler Anda ke kode Python.
-
Pilih + di sebelah simpul yang ingin Anda ekspor.
-
Pilih Ekspor aliran data.
-
Pilih Kode Python.
-
Unduh notebook Jupyter atau salin ke lokasi Amazon S3. Kami merekomendasikan untuk menyalinnya ke lokasi Amazon S3 yang dapat Anda akses dalam Studio Classic. Hubungi administrator Anda jika Anda memerlukan panduan tentang lokasi yang sesuai.
-
Jalankan notebook Jupyter.
Anda mungkin perlu mengonfigurasi skrip Python untuk membuatnya berjalan di pipeline Anda. Misalnya, jika Anda menjalankan lingkungan Spark, pastikan Anda menjalankan skrip dari lingkungan yang memiliki izin untuk mengakses AWS sumber daya.