Integre seu aplicativo Apache Spark com IA SageMaker

Apache Spark com Amazon AI SageMaker

O Amazon SageMaker AI Spark é uma biblioteca Spark de código aberto que ajuda você a criar pipelines de aprendizado de máquina (ML) do Spark com IA. SageMaker Isso simplifica a integração dos estágios do Spark ML com os estágios de SageMaker IA, como treinamento e hospedagem de modelos. Para obter informações sobre o SageMaker AI Spark, consulte o repositório do SageMaker AI Spark GitHub . Os tópicos a seguir fornecem informações para aprender a usar o Apache Spark com SageMaker IA.

A biblioteca SageMaker AI Spark está disponível em Python e Scala. Você pode usar o SageMaker AI Spark para treinar modelos em SageMaker IA usando quadros de org.apache.spark.sql.DataFrame dados em seus clusters do Spark. Após o treinamento do modelo, você também pode hospedar o modelo usando serviços de hospedagem de SageMaker IA.

A biblioteca SageMaker AI Spark,com.amazonaws.services.sagemaker.sparksdk, fornece as seguintes classes, entre outras:

SageMakerEstimator: Estende a interface org.apache.spark.ml.Estimator. Você pode usar esse estimador para treinamento de modelos em SageMaker IA.
KMeansSageMakerEstimator, PCASageMakerEstimator e XGBoostSageMakerEstimator: Estendem a classe SageMakerEstimator.
SageMakerModel: Estende a classe org.apache.spark.ml.Model. Você pode usar isso SageMakerModel para hospedar modelos e obter inferências em SageMaker IA.

Você pode baixar o código-fonte das bibliotecas Python Spark (PySpark) e Scala no repositório AI Spark. SageMaker GitHub

Para instalação e exemplos da biblioteca SageMaker AI Spark, consulte SageMaker Exemplos do AI Spark para Scala ouRecursos para usar exemplos do SageMaker AI Spark para Python (PySpark).

Se você usa o Amazon EMR AWS para gerenciar clusters do Spark, consulte Apache Spark. Para obter mais informações sobre o uso do Amazon EMR em SageMaker IA, consulte. Preparação de dados usando o Amazon EMR

Tópicos

Integre seu aplicativo Apache Spark com IA SageMaker

A seguir, um resumo de alto nível das etapas para integrar seu aplicativo Apache Spark com a IA. SageMaker

Continue o pré-processamento de dados usando a biblioteca Apache Spark que você já conhece. O conjunto de dados permanece como um DataFrame no seu cluster do Spark. Carregue seus dados em um DataFrame. Faça o pré-processamento deles para ter uma coluna features com org.apache.spark.ml.linalg.Vector de Doubles e uma coluna label opcional com valores do tipo Double.
Use o estimador na biblioteca do SageMaker AI Spark para treinar seu modelo. Por exemplo, se você escolher o algoritmo k-means fornecido pela SageMaker IA para treinamento de modelos, chame o KMeansSageMakerEstimator.fit método.

Forneça seu DataFrame como entrada. O estimador retorna um objeto SageMakerModel.

nota
SageMakerModel estende o org.apache.spark.ml.Model.

O método fit faz o seguinte:
1. Converte a entrada DataFrame para o formato protobuf. Isso é feito selecionando as colunas features e label da entrada DataFrame. Em seguida, ele carrega upload dos dados do protobuf em um bucket do Amazon S3. O formato protobuf é eficiente para treinamento de modelos em SageMaker IA.
2. Inicia o treinamento de modelos em SageMaker IA enviando uma CreateTrainingJobsolicitação de SageMaker IA. Após a conclusão do treinamento do modelo, a SageMaker IA salva os artefatos do modelo em um bucket S3.
  
  SageMaker A IA assume a função do IAM que você especificou para o treinamento de modelos para realizar tarefas em seu nome. Por exemplo, para ler dados de treinamento de um bucket do S3 e gravar artefatos de modelo em um bucket.
3. Cria e retorna um objeto SageMakerModel. O construtor executa as tarefas a seguir, relacionadas à implantação do seu modelo na IA. SageMaker
  1. Envia uma CreateModelsolicitação para a SageMaker IA.
  2. Envia uma CreateEndpointConfigsolicitação para a SageMaker IA.
  3. Envia uma CreateEndpointsolicitação para a SageMaker IA, que então inicia os recursos especificados e hospeda o modelo neles.
Você pode obter inferências do seu modelo hospedado na SageMaker IA com o. SageMakerModel.transform

Forneça uma entrada DataFrame com atributos como entrada. O método transform transforma-a em um DataFrame que contém inferências. Internamente, o transform método envia uma solicitação à InvokeEndpoint SageMaker API para obter inferências. O método transform anexa as inferências à entrada DataFrame.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Apache MXNet

SageMaker Exemplos do AI Spark para Scala

Apache Spark com Amazon AI SageMaker

Tópicos

Integre seu aplicativo Apache Spark com IA SageMaker

nota