Pemrosesan Fitur dengan Spark ML dan Scikit-learn - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pemrosesan Fitur dengan Spark ML dan Scikit-learn

Sebelum melatih model dengan algoritme SageMaker bawaan Amazon atau algoritme khusus, Anda dapat menggunakan praprosesor Spark dan scikit-learn untuk mengubah data dan fitur insinyur Anda.

Pemrosesan Fitur dengan Spark Ml

Anda dapat menjalankan pekerjaan Spark ML dengan AWS Glue, layanan tanpa server ETL (ekstrak, transformasi, muat), dari notebook Anda. SageMaker Anda juga dapat terhubung ke EMR cluster yang ada untuk menjalankan pekerjaan Spark ML dengan Amazon. EMR Untuk melakukan ini, Anda memerlukan peran AWS Identity and Access Management (IAM) yang memberikan izin untuk melakukan panggilan dari SageMaker buku catatan Anda ke AWS Glue.

catatan

Untuk melihat versi Python dan Spark mana yang AWS Glue mendukung, lihat AWS Glue Release Notes.

Setelah fitur rekayasa, Anda mengemas dan membuat serial pekerjaan Spark ML MLeap ke dalam MLeap wadah yang dapat Anda tambahkan ke pipeline inferensi. Anda tidak perlu menggunakan cluster Spark yang dikelola secara eksternal. Dengan pendekatan ini, Anda dapat menskalakan dengan mulus dari sampel baris ke terabyte data. Transformator yang sama bekerja untuk pelatihan dan inferensi, jadi Anda tidak perlu menduplikasi preprocessing dan fitur logika rekayasa atau mengembangkan solusi satu kali untuk membuat model bertahan. Dengan pipeline inferensi, Anda tidak perlu memelihara infrastruktur luar, dan Anda dapat membuat prediksi langsung dari input data.

Saat Anda menjalankan pekerjaan Spark ML AWS Glue, pipeline Spark ML diserialisasikan ke dalam format. MLeap Kemudian, Anda dapat menggunakan pekerjaan dengan SparkMl Model Serving Container di SageMaker Inference Pipeline. MLeapadalah format serialisasi dan mesin eksekusi untuk pipa pembelajaran mesin. Ini mendukung Spark, Scikit-learn, dan TensorFlow untuk melatih jaringan pipa dan mengekspornya ke pipa serial yang disebut Bundel. MLeap Anda dapat melakukan deserialisasi Bundel kembali ke Spark untuk penilaian mode batch atau ke runtime untuk memberi daya pada layanan waktu nyata. MLeap API

Untuk contoh yang menunjukkan cara menampilkan proses dengan Spark ML, lihat Melatih Model ML menggunakan Apache Spark di Amazon EMR dan terapkan di notebook contoh. SageMaker

Pemrosesan Fitur dengan Scikit-Learn

Anda dapat menjalankan dan mengemas pekerjaan scikit-learn ke dalam kontainer langsung di Amazon. SageMaker Untuk contoh kode Python untuk membangun model featurizer scikit-learn yang melatih kumpulan data bunga Iris Fisher dan memprediksi spesies Iris berdasarkan pengukuran morfologi, lihat Pelatihan dan Prediksi dengan Sagemaker Scikit-learn. IRIS