

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Apache Spark mit Amazon SageMaker AI
<a name="apache-spark"></a>

Amazon SageMaker AI Spark ist eine Open-Source-Spark-Bibliothek, mit der Sie Spark-Pipelines für maschinelles Lernen (ML) mit SageMaker KI erstellen können. Dies vereinfacht die Integration von Spark-ML-Phasen in SageMaker KI-Phasen wie Modelltraining und Hosting. Informationen zu SageMaker AI Spark finden Sie im [SageMaker AI GitHub Spark-Repository](https://github.com/aws/sagemaker-spark). Die folgenden Themen enthalten Informationen zur Verwendung von Apache Spark mit SageMaker KI.

Die SageMaker AI Spark-Bibliothek ist in Python und Scala verfügbar. Sie können SageMaker AI Spark verwenden, um Modelle in SageMaker KI mithilfe von `org.apache.spark.sql.DataFrame` Datenrahmen in Ihren Spark-Clustern zu trainieren. Nach dem Modelltraining können Sie das Modell auch mithilfe von SageMaker KI-Hosting-Diensten hosten. 

Die SageMaker AI Spark-Bibliothek bietet unter anderem die folgenden Klassen: `com.amazonaws.services.sagemaker.sparksdk`
+ `SageMakerEstimator` – Erweitert die `org.apache.spark.ml.Estimator` Schnittstelle. Sie können diesen Schätzer für das Modelltraining in SageMaker KI verwenden.
+ `KMeansSageMakerEstimator`, `PCASageMakerEstimator`, und `XGBoostSageMakerEstimator` – Erweitert die `SageMakerEstimator` Klasse. 
+ `SageMakerModel` – Erweitert `org.apache.spark.ml.Model` Klasse. Sie können ihn verwenden, um Modelle `SageMakerModel` zu hosten und Rückschlüsse in SageMaker KI zu ziehen.

Sie können den Quellcode für die Bibliotheken Python Spark (PySpark) und Scala aus dem [SageMaker AI GitHub Spark-Repository](https://github.com/aws/sagemaker-spark) herunterladen.

Die Installation und Beispiele der SageMaker AI Spark-Bibliothek finden Sie unter [SageMaker Beispiele für AI Spark für Scala](apache-spark-example1.md) oder[Ressourcen für die Verwendung von SageMaker AI Spark for Python (PySpark) — Beispiele](apache-spark-additional-examples.md).

Wenn Sie Amazon EMR on AWS zur Verwaltung von Spark-Clustern verwenden, finden Sie weitere Informationen unter [Apache Spark](https://aws.amazon.com/emr/features/spark/). Weitere Informationen zur Verwendung von Amazon EMR in SageMaker KI finden Sie unter[Datenaufbereitung mit Amazon EMR](studio-notebooks-emr-cluster.md).

**Topics**
+ [Integrieren Sie Ihre Apache Spark-Anwendung mit KI SageMaker](#spark-sdk-common-process)
+ [SageMaker Beispiele für AI Spark für Scala](apache-spark-example1.md)
+ [Ressourcen für die Verwendung von SageMaker AI Spark for Python (PySpark) — Beispiele](apache-spark-additional-examples.md)

## Integrieren Sie Ihre Apache Spark-Anwendung mit KI SageMaker
<a name="spark-sdk-common-process"></a>

Im Folgenden finden Sie eine allgemeine Zusammenfassung der Schritte zur Integration Ihrer Apache Spark-Anwendung mit SageMaker KI.

1. Setzen Sie die Datenvorverarbeitung mithilfe der Apache Spark-Bibliothek fort, mit der Sie vertraut sind. Ihr Datensatz bleibt ein `DataFrame` in Ihrem Spark-Cluster. Laden Sie Ihre Daten in eine`DataFrame`. Verarbeiten Sie sie so vor, dass Sie eine `features`-Spalte mit `org.apache.spark.ml.linalg.Vector` vom Typ `Doubles` und eine optionale `label`-Spalte mit Werten vom Typ `Double` erhalten.

1. Verwenden Sie den Schätzer in der SageMaker AI Spark-Bibliothek, um Ihr Modell zu trainieren. Wenn Sie beispielsweise den von SageMaker KI bereitgestellten K-Means-Algorithmus für das Modelltraining wählen, rufen Sie die `KMeansSageMakerEstimator.fit` Methode auf. 

   Geben Sie Ihren `DataFrame` als Eingabe an. Von der Schätzfunktion wird ein `SageMakerModel`-Objekt zurückgegeben. 
**Anmerkung**  
`SageMakerModel` ist eine Erweiterung von `org.apache.spark.ml.Model`.

   Von der `fit`-Methode werden folgende Schritte ausgeführt: 

   1. Konvertiert die Eingabe `DataFrame` in das Protobuf-Format. Dazu werden die `label` Spalten `features` und aus der Eingabe ausgewählt. `DataFrame` Anschließend werden die Protobuf-Daten in einen Amazon-S3-Bucket hochgeladen. Das Protobuf-Format ist effizient für das Modelltraining in KI. SageMaker 

   1. Startet das Modelltraining in SageMaker KI durch Senden einer SageMaker [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html)AI-Anfrage. Nach Abschluss des Modelltrainings speichert SageMaker KI die Modellartefakte in einem S3-Bucket. 

      SageMaker KI übernimmt die IAM-Rolle, die Sie für das Modelltraining angegeben haben, um Aufgaben in Ihrem Namen auszuführen. Beispielsweise wird die Rolle zum Lesen von Trainingsdaten aus einem S3-Bucket und zum Schreiben von Modellartefakten in einen Bucket verwendet. 

   1. Ein `SageMakerModel`-Objekt wird erstellt und zurückgegeben. Der Konstruktor führt die folgenden Aufgaben aus, die sich auf die Bereitstellung Ihres Modells in KI beziehen. SageMaker 

      1. Sendet eine [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)Anfrage an SageMaker AI. 

      1. Sendet eine [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html)Anfrage an SageMaker KI.

      1. Sendet eine [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html)Anfrage an SageMaker KI, die dann die angegebenen Ressourcen startet und das Modell auf ihnen hostet. 

1. Mit dem können Sie Rückschlüsse aus Ihrem in SageMaker KI gehosteten Modell ziehen. `SageMakerModel.transform` 

   Stellen Sie einen `DataFrame` mit Merkmalen als Eingabe bereit. Die `transform`-Methode transformiert dies in einen `DataFrame`, der Inferenzen enthält. Intern sendet die `transform` Methode eine Anfrage an die [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) SageMaker API, um Rückschlüsse zu erhalten. Die `transform`-Methode hängt die Inferenzen an den Eingabe-`DataFrame` an.