As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Apache Spark com a Amazon SageMaker
O Amazon SageMaker Spark é uma biblioteca Spark de código aberto que ajuda você a criar pipelines de aprendizado de máquina (ML) do Spark com. SageMaker Isso simplifica a integração dos estágios do Spark ML com os SageMaker estágios, como treinamento e hospedagem de modelos. Para obter informações sobre o SageMaker Spark, consulte o repositório do SageMaker Spark
A biblioteca SageMaker Spark está disponível em Python e Scala. Você pode usar o SageMaker Spark para treinar modelos no SageMaker uso de quadros de org.apache.spark.sql.DataFrame
dados em seus clusters do Spark. Após o treinamento do modelo, você também pode hospedar o modelo usando serviços de SageMaker hospedagem.
A biblioteca SageMaker Spark,com.amazonaws.services.sagemaker.sparksdk
, fornece as seguintes classes, entre outras:
-
SageMakerEstimator
—Estende a interfaceorg.apache.spark.ml.Estimator
. Você pode usar esse estimador para treinamento de modelos em. SageMaker -
KMeansSageMakerEstimator
,PCASageMakerEstimator
eXGBoostSageMakerEstimator
—Estendem a classeSageMakerEstimator
. -
SageMakerModel
—Estende a classeorg.apache.spark.ml.Model
. Você pode usar issoSageMakerModel
para hospedar modelos e obter inferências. SageMaker
Para instalação e exemplos da biblioteca SageMaker Spark, consulte SageMaker Exemplos do Spark para Scala ouRecursos para usar o SageMaker Spark para exemplos de Python (PySpark).
Se você usa o Amazon EMR on AWS para gerenciar clusters do Spark, consulte Apache
Tópicos
Integre seu aplicativo Apache Spark com SageMaker
A seguir está um resumo de alto nível das etapas para integrar seu aplicativo Apache Spark com. SageMaker
-
Continue o pré-processamento de dados usando a biblioteca Apache Spark que você já conhece. O conjunto de dados permanece como um
DataFrame
no seu cluster do Spark. Carregue seus dados em umDataFrame
. Pré-processe-o para que você tenha umafeatures
coluna comorg.apache.spark.ml.linalg.Vector
Doubles
de e umalabel
coluna opcional com valores doDouble
tipo. -
Use o estimador na biblioteca do SageMaker Spark para treinar seu modelo. Por exemplo, se você escolher o algoritmo k-means fornecido pelo SageMaker para o treinamento do modelo, chame o
KMeansSageMakerEstimator.fit
método.Forneça seu
DataFrame
como entrada. O estimador retorna um objetoSageMakerModel
.nota
SageMakerModel
estende oorg.apache.spark.ml.Model
.O método
fit
faz o seguinte:-
Converte a entrada
DataFrame
para o formato protobuf. Isso é feito selecionando aslabel
colunasfeatures
e da entradaDataFrame
. Em seguida, ele carrega os dados do protobuf em um bucket do Amazon S3. O formato protobuf é eficiente para treinamento de modelos em. SageMaker -
Inicia o treinamento do modelo SageMaker enviando uma SageMaker
CreateTrainingJob
solicitação. Após a conclusão do treinamento do modelo, SageMaker salva os artefatos do modelo em um bucket do S3.SageMaker assume a IAM função que você especificou para o treinamento de modelos para realizar tarefas em seu nome. Por exemplo, para ler dados de treinamento de um bucket do S3 e gravar artefatos de modelo em um bucket.
-
Cria e retorna um objeto
SageMakerModel
. O construtor executa as seguintes tarefas, que estão relacionadas à implantação do seu modelo no. SageMaker-
Envia uma
CreateModel
solicitação para SageMaker. -
Envia uma solicitação
CreateEndpointConfig
ao SageMaker. -
Envia uma
CreateEndpoint
solicitação para SageMaker, que então inicia os recursos especificados e hospeda o modelo neles.
-
-
-
Você pode obter inferências do seu modelo hospedado SageMaker com o.
SageMakerModel.transform
Forneça uma entrada
DataFrame
com recursos como entrada. O métodotransform
transforma-a em umDataFrame
que contém inferências. Internamente, otransform
método envia uma solicitação aoInvokeEndpoint
SageMaker APIpara obter inferências. O métodotransform
anexa as inferências à entradaDataFrame
.