

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Apache Spark dengan Amazon AI SageMaker
<a name="apache-spark"></a>

Amazon SageMaker AI Spark adalah pustaka Spark open source yang membantu Anda membangun pipeline machine learning (ML) Spark dengan AI. SageMaker Ini menyederhanakan integrasi tahap Spark ML dengan tahapan SageMaker AI, seperti pelatihan model dan hosting. Untuk informasi tentang SageMaker AI Spark, lihat repositori [SageMaker AI Spark](https://github.com/aws/sagemaker-spark) GitHub . Topik berikut memberikan informasi untuk mempelajari cara menggunakan Apache Spark dengan SageMaker AI.

Pustaka SageMaker AI Spark tersedia dalam Python dan Scala. Anda dapat menggunakan SageMaker AI Spark untuk melatih model dalam SageMaker AI menggunakan bingkai `org.apache.spark.sql.DataFrame` data di cluster Spark Anda. Setelah pelatihan model, Anda juga dapat meng-host model menggunakan layanan hosting SageMaker AI. 

Perpustakaan SageMaker AI Spark,`com.amazonaws.services.sagemaker.sparksdk`, menyediakan kelas-kelas berikut, antara lain:
+ `SageMakerEstimator`—Memperluas antarmuka. `org.apache.spark.ml.Estimator` Anda dapat menggunakan estimator ini untuk pelatihan model dalam SageMaker AI.
+ `KMeansSageMakerEstimator`,`PCASageMakerEstimator`, dan `XGBoostSageMakerEstimator` —Memperpanjang `SageMakerEstimator` kelas. 
+ `SageMakerModel`Memperluas kelas. `org.apache.spark.ml.Model` Anda dapat menggunakan ini `SageMakerModel` untuk hosting model dan mendapatkan kesimpulan dalam SageMaker AI.

[Anda dapat mengunduh kode sumber untuk pustaka Python Spark (PySpark) dan Scala dari repositori AI Spark. SageMaker ](https://github.com/aws/sagemaker-spark) GitHub

Untuk instalasi dan contoh perpustakaan SageMaker AI Spark, lihat [SageMaker AI Spark untuk contoh Scala](apache-spark-example1.md) atau[Sumber daya untuk menggunakan SageMaker AI Spark untuk contoh Python PySpark ()](apache-spark-additional-examples.md).

[Jika Anda menggunakan Amazon EMR AWS untuk mengelola cluster Spark, lihat Apache Spark.](https://aws.amazon.com/emr/features/spark/) Untuk informasi selengkapnya tentang penggunaan Amazon EMR di SageMaker AI, lihat. [Persiapan data menggunakan Amazon EMR](studio-notebooks-emr-cluster.md)

**Topics**
+ [Integrasikan aplikasi Apache Spark Anda dengan AI SageMaker](#spark-sdk-common-process)
+ [SageMaker AI Spark untuk contoh Scala](apache-spark-example1.md)
+ [Sumber daya untuk menggunakan SageMaker AI Spark untuk contoh Python PySpark ()](apache-spark-additional-examples.md)

## Integrasikan aplikasi Apache Spark Anda dengan AI SageMaker
<a name="spark-sdk-common-process"></a>

Berikut ini adalah ringkasan tingkat tinggi dari langkah-langkah untuk mengintegrasikan aplikasi Apache Spark Anda dengan AI. SageMaker 

1. Lanjutkan preprocessing data menggunakan pustaka Apache Spark yang Anda kenal. Dataset Anda tetap berada `DataFrame` di cluster Spark Anda. Muat data Anda ke dalam file`DataFrame`. Pra-proses sehingga Anda memiliki `features` kolom dengan `org.apache.spark.ml.linalg.Vector` dari`Doubles`, dan `label` kolom opsional dengan nilai `Double` tipe.

1. Gunakan estimator di perpustakaan SageMaker AI Spark untuk melatih model Anda. Misalnya, jika Anda memilih algoritma k-means yang disediakan oleh SageMaker AI untuk pelatihan model, hubungi `KMeansSageMakerEstimator.fit` metode tersebut. 

   Berikan Anda `DataFrame` sebagai masukan. Estimator mengembalikan `SageMakerModel` objek. 
**catatan**  
`SageMakerModel`memperluas. `org.apache.spark.ml.Model`

   `fit`Metode ini melakukan hal berikut: 

   1. Mengkonversi input `DataFrame` ke format protobuf. Ia melakukannya dengan memilih `label` kolom `features` dan dari input`DataFrame`. Kemudian mengunggah data protobuf ke bucket Amazon S3. Format protobuf efisien untuk pelatihan model dalam SageMaker AI.

   1. Memulai pelatihan model dalam SageMaker AI dengan mengirimkan [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html)permintaan SageMaker AI. Setelah pelatihan model selesai, SageMaker AI menyimpan artefak model ke ember S3. 

      SageMaker AI mengasumsikan peran IAM yang Anda tentukan untuk pelatihan model untuk melakukan tugas atas nama Anda. Misalnya, ia menggunakan peran untuk membaca data pelatihan dari bucket S3 dan menulis artefak model ke ember. 

   1. Menciptakan dan mengembalikan `SageMakerModel` objek. Konstruktor melakukan tugas-tugas berikut, yang terkait dengan penerapan model Anda ke SageMaker AI. 

      1. Mengirim [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)permintaan ke SageMaker AI. 

      1. Mengirim [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html)permintaan ke SageMaker AI.

      1. Mengirim [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html)permintaan ke SageMaker AI, yang kemudian meluncurkan sumber daya yang ditentukan, dan menghosting model pada mereka. 

1. Anda bisa mendapatkan kesimpulan dari model Anda yang dihosting di SageMaker AI dengan. `SageMakerModel.transform` 

   Berikan masukan `DataFrame` dengan fitur sebagai input. `transform`Metode mengubahnya menjadi kesimpulan yang `DataFrame` mengandung. Secara internal, `transform` metode mengirimkan permintaan ke [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) SageMaker API untuk mendapatkan kesimpulan. `transform`Metode ini menambahkan kesimpulan ke input. `DataFrame`