Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pemrosesan Fitur dengan Spark ML dan Scikit-learn
Sebelum melatih model dengan algoritme SageMaker bawaan Amazon atau algoritme khusus, Anda dapat menggunakan praprosesor Spark dan scikit-learn untuk mengubah data dan fitur insinyur Anda.
Pemrosesan Fitur dengan Spark Ml
Anda dapat menjalankan pekerjaan Spark ML dengan AWS Glue, layanan tanpa server ETL (ekstrak, transformasi, muat), dari notebook Anda. SageMaker Anda juga dapat terhubung ke EMR cluster yang ada untuk menjalankan pekerjaan Spark ML dengan Amazon. EMR Untuk melakukan ini, Anda memerlukan peran AWS Identity and Access Management (IAM) yang memberikan izin untuk melakukan panggilan dari SageMaker buku catatan Anda ke AWS Glue.
catatan
Untuk melihat versi Python dan Spark mana yang AWS Glue mendukung, lihat AWS Glue Release Notes.
Setelah fitur rekayasa, Anda mengemas dan membuat serial pekerjaan Spark ML MLeap ke dalam MLeap wadah yang dapat Anda tambahkan ke pipeline inferensi. Anda tidak perlu menggunakan cluster Spark yang dikelola secara eksternal. Dengan pendekatan ini, Anda dapat menskalakan dengan mulus dari sampel baris ke terabyte data. Transformator yang sama bekerja untuk pelatihan dan inferensi, jadi Anda tidak perlu menduplikasi preprocessing dan fitur logika rekayasa atau mengembangkan solusi satu kali untuk membuat model bertahan. Dengan pipeline inferensi, Anda tidak perlu memelihara infrastruktur luar, dan Anda dapat membuat prediksi langsung dari input data.
Saat Anda menjalankan pekerjaan Spark ML AWS Glue, pipeline Spark ML diserialisasikan ke dalam format. MLeap
Untuk contoh yang menunjukkan cara menampilkan proses dengan Spark ML, lihat Melatih Model ML menggunakan Apache Spark di Amazon EMR dan terapkan di
Pemrosesan Fitur dengan Scikit-Learn
Anda dapat menjalankan dan mengemas pekerjaan scikit-learn ke dalam kontainer langsung di Amazon. SageMaker Untuk contoh kode Python untuk membangun model featurizer scikit-learn yang melatih kumpulan data bunga Iris Fisher dan memprediksi spesies Iris berdasarkan pengukuran morfologi