Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Apache Spark dengan Amazon AI SageMaker
Amazon SageMaker AI Spark adalah pustaka Spark open source yang membantu Anda membangun pipeline machine learning (ML) Spark dengan AI. SageMaker Ini menyederhanakan integrasi tahap Spark ML dengan tahapan SageMaker AI, seperti pelatihan model dan hosting. Untuk informasi tentang SageMaker AI Spark, lihat repositori SageMaker AI Spark
Pustaka SageMaker AI Spark tersedia dalam Python dan Scala. Anda dapat menggunakan SageMaker AI Spark untuk melatih model dalam SageMaker AI menggunakan bingkai org.apache.spark.sql.DataFrame
data di cluster Spark Anda. Setelah pelatihan model, Anda juga dapat meng-host model menggunakan layanan hosting SageMaker AI.
Perpustakaan SageMaker AI Spark,com.amazonaws.services.sagemaker.sparksdk
, menyediakan kelas-kelas berikut, antara lain:
-
SageMakerEstimator
—Memperluas antarmuka.org.apache.spark.ml.Estimator
Anda dapat menggunakan estimator ini untuk pelatihan model dalam SageMaker AI. -
KMeansSageMakerEstimator
,PCASageMakerEstimator
, danXGBoostSageMakerEstimator
—MemperpanjangSageMakerEstimator
kelas. -
SageMakerModel
Memperluas kelas.org.apache.spark.ml.Model
Anda dapat menggunakan iniSageMakerModel
untuk hosting model dan mendapatkan kesimpulan dalam SageMaker AI.
Untuk instalasi dan contoh perpustakaan SageMaker AI Spark, lihat SageMaker AI Spark untuk contoh Scala atauSumber daya untuk menggunakan SageMaker AI Spark untuk contoh Python PySpark ().
Jika Anda menggunakan Amazon EMR AWS untuk mengelola cluster Spark, lihat Apache Spark.
Topik
Integrasikan aplikasi Apache Spark Anda dengan AI SageMaker
Berikut ini adalah ringkasan tingkat tinggi dari langkah-langkah untuk mengintegrasikan aplikasi Apache Spark Anda dengan AI. SageMaker
-
Lanjutkan preprocessing data menggunakan pustaka Apache Spark yang Anda kenal. Dataset Anda tetap berada
DataFrame
di cluster Spark Anda. Muat data Anda ke dalam fileDataFrame
. Pra-proses sehingga Anda memilikifeatures
kolom denganorg.apache.spark.ml.linalg.Vector
dariDoubles
, danlabel
kolom opsional dengan nilaiDouble
tipe. -
Gunakan estimator di perpustakaan SageMaker AI Spark untuk melatih model Anda. Misalnya, jika Anda memilih algoritma k-means yang disediakan oleh SageMaker AI untuk pelatihan model, hubungi
KMeansSageMakerEstimator.fit
metode tersebut.Berikan Anda
DataFrame
sebagai masukan. Estimator mengembalikanSageMakerModel
objek.catatan
SageMakerModel
memperluas.org.apache.spark.ml.Model
fit
Metode ini melakukan hal berikut:-
Mengkonversi input
DataFrame
ke format protobuf. Ia melakukannya dengan memilihlabel
kolomfeatures
dan dari inputDataFrame
. Kemudian mengunggah data protobuf ke bucket Amazon S3. Format protobuf efisien untuk pelatihan model dalam SageMaker AI. -
Memulai pelatihan model dalam SageMaker AI dengan mengirimkan
CreateTrainingJob
permintaan SageMaker AI. Setelah pelatihan model selesai, SageMaker AI menyimpan artefak model ke ember S3.SageMaker AI mengasumsikan peran IAM yang Anda tentukan untuk pelatihan model untuk melakukan tugas atas nama Anda. Misalnya, ia menggunakan peran untuk membaca data pelatihan dari bucket S3 dan menulis artefak model ke ember.
-
Menciptakan dan mengembalikan
SageMakerModel
objek. Konstruktor melakukan tugas-tugas berikut, yang terkait dengan penerapan model Anda ke SageMaker AI.-
Mengirim
CreateModel
permintaan ke SageMaker AI. -
Mengirim
CreateEndpointConfig
permintaan ke SageMaker AI. -
Mengirim
CreateEndpoint
permintaan ke SageMaker AI, yang kemudian meluncurkan sumber daya yang ditentukan, dan menghosting model pada mereka.
-
-
-
Anda bisa mendapatkan kesimpulan dari model Anda yang dihosting di SageMaker AI dengan.
SageMakerModel.transform
Berikan masukan
DataFrame
dengan fitur sebagai input.transform
Metode mengubahnya menjadi kesimpulan yangDataFrame
mengandung. Secara internal,transform
metode mengirimkan permintaan keInvokeEndpoint
SageMaker API untuk mendapatkan kesimpulan.transform
Metode ini menambahkan kesimpulan ke input.DataFrame