As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O Amazon SageMaker AI Spark é uma biblioteca Spark de código aberto que ajuda você a criar pipelines de aprendizado de máquina (ML) do Spark com IA. SageMaker Isso simplifica a integração dos estágios do Spark ML com os estágios de SageMaker IA, como treinamento e hospedagem de modelos. Para obter informações sobre o SageMaker AI Spark, consulte o repositório do SageMaker AI Spark
A biblioteca SageMaker AI Spark está disponível em Python e Scala. Você pode usar o SageMaker AI Spark para treinar modelos em SageMaker IA usando quadros de org.apache.spark.sql.DataFrame
dados em seus clusters do Spark. Após o treinamento do modelo, você também pode hospedar o modelo usando serviços de hospedagem de SageMaker IA.
A biblioteca SageMaker AI Spark,com.amazonaws.services.sagemaker.sparksdk
, fornece as seguintes classes, entre outras:
-
SageMakerEstimator
: Estende a interfaceorg.apache.spark.ml.Estimator
. Você pode usar esse estimador para treinamento de modelos em SageMaker IA. -
KMeansSageMakerEstimator
,PCASageMakerEstimator
eXGBoostSageMakerEstimator
: Estendem a classeSageMakerEstimator
. -
SageMakerModel
: Estende a classeorg.apache.spark.ml.Model
. Você pode usar issoSageMakerModel
para hospedar modelos e obter inferências em SageMaker IA.
Para instalação e exemplos da biblioteca SageMaker AI Spark, consulte SageMaker Exemplos do AI Spark para Scala ouRecursos para usar exemplos do SageMaker AI Spark para Python (PySpark).
Se você usa o Amazon EMR AWS para gerenciar clusters do Spark, consulte Apache Spark.
Tópicos
Integre seu aplicativo Apache Spark com IA SageMaker
A seguir, um resumo de alto nível das etapas para integrar seu aplicativo Apache Spark com a IA. SageMaker
-
Continue o pré-processamento de dados usando a biblioteca Apache Spark que você já conhece. O conjunto de dados permanece como um
DataFrame
no seu cluster do Spark. Carregue seus dados em umDataFrame
. Faça o pré-processamento deles para ter uma colunafeatures
comorg.apache.spark.ml.linalg.Vector
deDoubles
e uma colunalabel
opcional com valores do tipoDouble
. -
Use o estimador na biblioteca do SageMaker AI Spark para treinar seu modelo. Por exemplo, se você escolher o algoritmo k-means fornecido pela SageMaker IA para treinamento de modelos, chame o
KMeansSageMakerEstimator.fit
método.Forneça seu
DataFrame
como entrada. O estimador retorna um objetoSageMakerModel
.nota
SageMakerModel
estende oorg.apache.spark.ml.Model
.O método
fit
faz o seguinte:-
Converte a entrada
DataFrame
para o formato protobuf. Isso é feito selecionando as colunasfeatures
elabel
da entradaDataFrame
. Em seguida, ele carrega upload dos dados do protobuf em um bucket do Amazon S3. O formato protobuf é eficiente para treinamento de modelos em SageMaker IA. -
Inicia o treinamento de modelos em SageMaker IA enviando uma
CreateTrainingJob
solicitação de SageMaker IA. Após a conclusão do treinamento do modelo, a SageMaker IA salva os artefatos do modelo em um bucket S3.SageMaker A IA assume a função do IAM que você especificou para o treinamento de modelos para realizar tarefas em seu nome. Por exemplo, para ler dados de treinamento de um bucket do S3 e gravar artefatos de modelo em um bucket.
-
Cria e retorna um objeto
SageMakerModel
. O construtor executa as tarefas a seguir, relacionadas à implantação do seu modelo na IA. SageMaker-
Envia uma
CreateModel
solicitação para a SageMaker IA. -
Envia uma
CreateEndpointConfig
solicitação para a SageMaker IA. -
Envia uma
CreateEndpoint
solicitação para a SageMaker IA, que então inicia os recursos especificados e hospeda o modelo neles.
-
-
-
Você pode obter inferências do seu modelo hospedado na SageMaker IA com o.
SageMakerModel.transform
Forneça uma entrada
DataFrame
com atributos como entrada. O métodotransform
transforma-a em umDataFrame
que contém inferências. Internamente, otransform
método envia uma solicitação àInvokeEndpoint
SageMaker API para obter inferências. O métodotransform
anexa as inferências à entradaDataFrame
.