Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Apache Spark con Amazon AI SageMaker
Amazon SageMaker AI Spark è una libreria Spark open source che ti aiuta a creare pipeline di machine learning (ML) Spark con l'intelligenza artificiale. SageMaker Ciò semplifica l'integrazione delle fasi di Spark ML con le fasi di SageMaker intelligenza artificiale, come la formazione e l'hosting dei modelli. Per informazioni su SageMaker AI Spark, consulta il repository SageMaker AI
La libreria SageMaker AI Spark è disponibile in Python e Scala. Puoi usare SageMaker AI Spark per addestrare modelli nell' SageMaker intelligenza artificiale utilizzando i frame di org.apache.spark.sql.DataFrame
dati nei tuoi cluster Spark. Dopo l'addestramento del modello, puoi anche ospitare il modello utilizzando i servizi di hosting SageMaker AI.
La libreria SageMaker AI Spark forniscecom.amazonaws.services.sagemaker.sparksdk
, tra le altre, le seguenti classi:
-
SageMakerEstimator
: estende l'interfacciaorg.apache.spark.ml.Estimator
. Puoi usare questo stimatore per l'addestramento dei modelli nell' SageMaker intelligenza artificiale. -
KMeansSageMakerEstimator
,PCASageMakerEstimator
eXGBoostSageMakerEstimator
: estendono la classeSageMakerEstimator
. -
SageMakerModel
: estende la classeorg.apache.spark.ml.Model
. Puoi usarloSageMakerModel
per l'hosting di modelli e ottenere inferenze nell' SageMaker intelligenza artificiale.
Puoi scaricare il codice sorgente per entrambe le librerie Python Spark (PySpark) e Scala dal repository SageMaker AI
Per l'installazione ed esempi della libreria SageMaker AI Spark, consulta o. SageMaker Esempi di AI Spark per Scala Risorse per l'utilizzo di esempi di SageMaker AI Spark for Python (PySpark)
Se usi Amazon EMR AWS per gestire i cluster Spark, consulta Apache Spark.
Argomenti
Integra la tua applicazione Apache Spark con l'intelligenza artificiale SageMaker
Di seguito è riportato un riepilogo di alto livello dei passaggi per l'integrazione dell'applicazione Apache Spark con l'intelligenza artificiale. SageMaker
-
Continua con la preelaborazione dei dati utilizzando la libreria Apache Spark con cui hai familiarità. Il set di dati rimane un
DataFrame
nel tuo cluster Spark. Carica i tuoi dati in un.DataFrame
Preelaboralo in modo da avere unafeatures
colonna conorg.apache.spark.ml.linalg.Vector
ofDoubles
e unalabel
colonna opzionale con valori diDouble
tipo. -
Usa lo stimatore nella libreria SageMaker AI Spark per addestrare il tuo modello. Ad esempio, se scegli l'algoritmo k-means fornito dall' SageMaker IA per l'addestramento dei modelli, chiama il metodo.
KMeansSageMakerEstimator.fit
Come input fornisci il tuo
DataFrame
. Lo strumento di valutazione restituisce un oggettoSageMakerModel
.Nota
SageMakerModel
estendeorg.apache.spark.ml.Model
.Il metodo
fit
esegue quanto segue:-
Converte l'input nel formato
DataFrame
protobuf. Lo fa selezionando lelabel
colonnefeatures
e dall'input.DataFrame
Quindi carica i dati protobuf in un bucket Amazon S3. Il formato protobuf è efficiente per l'addestramento dei modelli nell'intelligenza artificiale. SageMaker -
Avvia l'addestramento dei modelli in SageMaker intelligenza artificiale inviando una richiesta di SageMaker intelligenza artificiale
CreateTrainingJob
. Una volta completato l'addestramento del modello, l' SageMaker intelligenza artificiale salva gli artefatti del modello in un bucket S3.SageMaker L'IA assume il ruolo IAM che hai specificato per la formazione dei modelli per eseguire attività per tuo conto. Ad esempio, utilizza il ruolo per leggere i dati di addestramento da un bucket S3 e scrivere artefatti del modello in un bucket.
-
Crea e restituisce un oggetto
SageMakerModel
. Il costruttore svolge le seguenti attività, correlate all'implementazione del modello nell'IA. SageMaker-
Invia una
CreateModel
richiesta all'IA. SageMaker -
Invia una
CreateEndpointConfig
richiesta all' SageMaker IA. -
Invia una
CreateEndpoint
richiesta all' SageMaker IA, che quindi avvia le risorse specificate e ospita il modello su di esse.
-
-
-
Puoi ottenere inferenze dal tuo modello ospitato in SageMaker AI con.
SageMakerModel.transform
Fornisci un input
DataFrame
con caratteristiche come input. Il metodotransform
lo converte in unDataFrame
contenente inferenze. Internamente, iltransform
metodo invia una richiesta all'InvokeEndpoint
SageMaker API per ottenere inferenze. Il metodotransform
collega le inferenze all'inputDataFrame
.