Apache Spark dengan Amazon AI SageMaker - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Apache Spark dengan Amazon AI SageMaker

Amazon SageMaker AI Spark adalah pustaka Spark open source yang membantu Anda membangun pipeline machine learning (ML) Spark dengan AI. SageMaker Ini menyederhanakan integrasi tahap Spark ML dengan tahapan SageMaker AI, seperti pelatihan model dan hosting. Untuk informasi tentang SageMaker AI Spark, lihat repositori SageMaker AI Spark GitHub . Topik berikut memberikan informasi untuk mempelajari cara menggunakan Apache Spark dengan SageMaker AI.

Pustaka SageMaker AI Spark tersedia dalam Python dan Scala. Anda dapat menggunakan SageMaker AI Spark untuk melatih model dalam SageMaker AI menggunakan bingkai org.apache.spark.sql.DataFrame data di cluster Spark Anda. Setelah pelatihan model, Anda juga dapat meng-host model menggunakan layanan hosting SageMaker AI.

Perpustakaan SageMaker AI Spark,com.amazonaws.services.sagemaker.sparksdk, menyediakan kelas-kelas berikut, antara lain:

  • SageMakerEstimator—Memperluas antarmuka. org.apache.spark.ml.Estimator Anda dapat menggunakan estimator ini untuk pelatihan model dalam SageMaker AI.

  • KMeansSageMakerEstimator,PCASageMakerEstimator, dan XGBoostSageMakerEstimator —Memperpanjang SageMakerEstimator kelas.

  • SageMakerModelMemperluas kelas. org.apache.spark.ml.Model Anda dapat menggunakan ini SageMakerModel untuk hosting model dan mendapatkan kesimpulan dalam SageMaker AI.

Anda dapat mengunduh kode sumber untuk pustaka Python Spark (PySpark) dan Scala dari repositori AI Spark. SageMaker GitHub

Untuk instalasi dan contoh perpustakaan SageMaker AI Spark, lihat SageMaker AI Spark untuk contoh Scala atauSumber daya untuk menggunakan SageMaker AI Spark untuk contoh Python PySpark ().

Jika Anda menggunakan Amazon EMR AWS untuk mengelola cluster Spark, lihat Apache Spark. Untuk informasi selengkapnya tentang penggunaan Amazon EMR di SageMaker AI, lihat. Persiapan data menggunakan Amazon EMR

Integrasikan aplikasi Apache Spark Anda dengan AI SageMaker

Berikut ini adalah ringkasan tingkat tinggi dari langkah-langkah untuk mengintegrasikan aplikasi Apache Spark Anda dengan AI. SageMaker

  1. Lanjutkan preprocessing data menggunakan pustaka Apache Spark yang Anda kenal. Dataset Anda tetap berada DataFrame di cluster Spark Anda. Muat data Anda ke dalam fileDataFrame. Pra-proses sehingga Anda memiliki features kolom dengan org.apache.spark.ml.linalg.Vector dariDoubles, dan label kolom opsional dengan nilai Double tipe.

  2. Gunakan estimator di perpustakaan SageMaker AI Spark untuk melatih model Anda. Misalnya, jika Anda memilih algoritma k-means yang disediakan oleh SageMaker AI untuk pelatihan model, hubungi KMeansSageMakerEstimator.fit metode tersebut.

    Berikan Anda DataFrame sebagai masukan. Estimator mengembalikan SageMakerModel objek.

    catatan

    SageMakerModelmemperluas. org.apache.spark.ml.Model

    fitMetode ini melakukan hal berikut:

    1. Mengkonversi input DataFrame ke format protobuf. Ia melakukannya dengan memilih label kolom features dan dari inputDataFrame. Kemudian mengunggah data protobuf ke bucket Amazon S3. Format protobuf efisien untuk pelatihan model dalam SageMaker AI.

    2. Memulai pelatihan model dalam SageMaker AI dengan mengirimkan CreateTrainingJobpermintaan SageMaker AI. Setelah pelatihan model selesai, SageMaker AI menyimpan artefak model ke ember S3.

      SageMaker AI mengasumsikan peran IAM yang Anda tentukan untuk pelatihan model untuk melakukan tugas atas nama Anda. Misalnya, ia menggunakan peran untuk membaca data pelatihan dari bucket S3 dan menulis artefak model ke ember.

    3. Menciptakan dan mengembalikan SageMakerModel objek. Konstruktor melakukan tugas-tugas berikut, yang terkait dengan penerapan model Anda ke SageMaker AI.

      1. Mengirim CreateModelpermintaan ke SageMaker AI.

      2. Mengirim CreateEndpointConfigpermintaan ke SageMaker AI.

      3. Mengirim CreateEndpointpermintaan ke SageMaker AI, yang kemudian meluncurkan sumber daya yang ditentukan, dan menghosting model pada mereka.

  3. Anda bisa mendapatkan kesimpulan dari model Anda yang dihosting di SageMaker AI dengan. SageMakerModel.transform

    Berikan masukan DataFrame dengan fitur sebagai input. transformMetode mengubahnya menjadi kesimpulan yang DataFrame mengandung. Secara internal, transform metode mengirimkan permintaan ke InvokeEndpoint SageMaker API untuk mendapatkan kesimpulan. transformMetode ini menambahkan kesimpulan ke input. DataFrame