Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Apache Spark dengan Amazon SageMaker
Amazon SageMaker Spark adalah pustaka Spark open source yang membantu Anda membangun pipeline machine learning (ML) Spark. SageMaker Ini menyederhanakan integrasi tahap Spark ML dengan SageMaker tahapan, seperti pelatihan model dan hosting. Untuk informasi tentang SageMaker Spark, lihat repositori SageMaker Spark
Perpustakaan SageMaker Spark tersedia dalam Python dan Scala. Anda dapat menggunakan SageMaker Spark untuk melatih model dalam SageMaker menggunakan bingkai org.apache.spark.sql.DataFrame
data di cluster Spark Anda. Setelah pelatihan model, Anda juga dapat meng-host model menggunakan layanan SageMaker hosting.
Perpustakaan SageMaker Spark,com.amazonaws.services.sagemaker.sparksdk
, menyediakan kelas-kelas berikut, antara lain:
-
SageMakerEstimator
—Memperluas antarmuka.org.apache.spark.ml.Estimator
Anda dapat menggunakan estimator ini untuk pelatihan model di SageMaker. -
KMeansSageMakerEstimator
,PCASageMakerEstimator
, danXGBoostSageMakerEstimator
—MemperpanjangSageMakerEstimator
kelas. -
SageMakerModel
Memperluas kelas.org.apache.spark.ml.Model
Anda dapat menggunakan iniSageMakerModel
untuk hosting model dan mendapatkan kesimpulan. SageMaker
Untuk instalasi dan contoh perpustakaan SageMaker Spark, lihat SageMaker Spark untuk contoh Scala atauSumber daya untuk menggunakan SageMaker contoh Spark untuk Python PySpark ().
Jika Anda menggunakan EMR Amazon AWS untuk mengelola cluster Spark, lihat Apache
Topik
Integrasikan aplikasi Apache Spark Anda dengan SageMaker
Berikut ini adalah ringkasan tingkat tinggi dari langkah-langkah untuk mengintegrasikan aplikasi Apache Spark Anda. SageMaker
-
Lanjutkan preprocessing data menggunakan pustaka Apache Spark yang Anda kenal. Dataset Anda tetap berada
DataFrame
di cluster Spark Anda. Muat data Anda ke dalam fileDataFrame
. Pra-proses sehingga Anda memilikifeatures
kolom denganorg.apache.spark.ml.linalg.Vector
dariDoubles
, danlabel
kolom opsional dengan nilaiDouble
tipe. -
Gunakan estimator di perpustakaan SageMaker Spark untuk melatih model Anda. Misalnya, jika Anda memilih algoritma k-means yang disediakan oleh SageMaker untuk pelatihan model, panggil
KMeansSageMakerEstimator.fit
metode.Berikan Anda
DataFrame
sebagai masukan. Estimator mengembalikanSageMakerModel
objek.catatan
SageMakerModel
memperluas.org.apache.spark.ml.Model
fit
Metode ini melakukan hal berikut:-
Mengkonversi input
DataFrame
ke format protobuf. Ia melakukannya dengan memilihlabel
kolomfeatures
dan dari inputDataFrame
. Kemudian mengunggah data protobuf ke bucket Amazon S3. Format protobuf efisien untuk pelatihan model di. SageMaker -
Memulai pelatihan model SageMaker dengan mengirimkan SageMaker
CreateTrainingJob
permintaan. Setelah pelatihan model selesai, SageMaker simpan artefak model ke ember S3.SageMaker mengasumsikan IAM peran yang Anda tentukan untuk pelatihan model untuk melakukan tugas atas nama Anda. Misalnya, ia menggunakan peran untuk membaca data pelatihan dari bucket S3 dan menulis artefak model ke ember.
-
Menciptakan dan mengembalikan
SageMakerModel
objek. Konstruktor melakukan tugas-tugas berikut, yang terkait dengan penerapan model Anda. SageMaker-
Mengirim
CreateModel
permintaan ke SageMaker. -
Mengirim
CreateEndpointConfig
permintaan ke SageMaker. -
Mengirim
CreateEndpoint
permintaan ke SageMaker, yang kemudian meluncurkan sumber daya yang ditentukan, dan menghosting model pada mereka.
-
-
-
Anda bisa mendapatkan kesimpulan dari model Anda yang di-host SageMaker dengan.
SageMakerModel.transform
Berikan masukan
DataFrame
dengan fitur sebagai input.transform
Metode mengubahnya menjadi kesimpulan yangDataFrame
mengandung. Secara internal,transform
metode mengirimkan permintaan keInvokeEndpoint
SageMaker APIuntuk mendapatkan kesimpulan.transform
Metode ini menambahkan kesimpulan ke input.DataFrame