

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Apache Spark com Amazon AI SageMaker
<a name="apache-spark"></a>

O Amazon SageMaker AI Spark é uma biblioteca Spark de código aberto que ajuda você a criar pipelines de aprendizado de máquina (ML) do Spark com IA. SageMaker Isso simplifica a integração dos estágios do Spark ML com os estágios de SageMaker IA, como treinamento e hospedagem de modelos. Para obter informações sobre o SageMaker AI Spark, consulte o repositório do [SageMaker AI Spark](https://github.com/aws/sagemaker-spark) GitHub . Os tópicos a seguir fornecem informações para aprender a usar o Apache Spark com SageMaker IA.

A biblioteca SageMaker AI Spark está disponível em Python e Scala. Você pode usar o SageMaker AI Spark para treinar modelos em SageMaker IA usando quadros de `org.apache.spark.sql.DataFrame` dados em seus clusters do Spark. Após o treinamento do modelo, você também pode hospedar o modelo usando serviços de hospedagem de SageMaker IA. 

A biblioteca SageMaker AI Spark,`com.amazonaws.services.sagemaker.sparksdk`, fornece as seguintes classes, entre outras:
+ `SageMakerEstimator`: Estende a interface `org.apache.spark.ml.Estimator`. Você pode usar esse estimador para treinamento de modelos em SageMaker IA.
+ `KMeansSageMakerEstimator`, `PCASageMakerEstimator` e `XGBoostSageMakerEstimator`: Estendem a classe `SageMakerEstimator`. 
+ `SageMakerModel`: Estende a classe `org.apache.spark.ml.Model`. Você pode usar isso `SageMakerModel` para hospedar modelos e obter inferências em SageMaker IA.

[Você pode baixar o código-fonte das bibliotecas Python Spark (PySpark) e Scala no repositório AI Spark. SageMaker ](https://github.com/aws/sagemaker-spark) GitHub

Para instalação e exemplos da biblioteca SageMaker AI Spark, consulte [SageMaker Exemplos do AI Spark para Scala](apache-spark-example1.md) ou[Recursos para usar exemplos do SageMaker AI Spark para Python (PySpark)](apache-spark-additional-examples.md).

[Se você usa o Amazon EMR AWS para gerenciar clusters do Spark, consulte Apache Spark.](https://aws.amazon.com/emr/features/spark/) Para obter mais informações sobre o uso do Amazon EMR em SageMaker IA, consulte. [Preparação de dados usando o Amazon EMR](studio-notebooks-emr-cluster.md)

**Topics**
+ [Integre seu aplicativo Apache Spark com a IA SageMaker](#spark-sdk-common-process)
+ [SageMaker Exemplos do AI Spark para Scala](apache-spark-example1.md)
+ [Recursos para usar exemplos do SageMaker AI Spark para Python (PySpark)](apache-spark-additional-examples.md)

## Integre seu aplicativo Apache Spark com a IA SageMaker
<a name="spark-sdk-common-process"></a>

A seguir, um resumo de alto nível das etapas para integrar seu aplicativo Apache Spark com a IA. SageMaker 

1. Continue o pré-processamento de dados usando a biblioteca Apache Spark que você já conhece. O conjunto de dados permanece como um `DataFrame` no seu cluster do Spark. Carregue seus dados em um `DataFrame`. Faça o pré-processamento deles para ter uma coluna `features` com `org.apache.spark.ml.linalg.Vector` de `Doubles` e uma coluna `label` opcional com valores do tipo `Double`.

1. Use o estimador na biblioteca do SageMaker AI Spark para treinar seu modelo. Por exemplo, se você escolher o algoritmo k-means fornecido pela SageMaker IA para treinamento de modelos, chame o `KMeansSageMakerEstimator.fit` método. 

   Forneça seu `DataFrame` como entrada. O estimador retorna um objeto `SageMakerModel`. 
**nota**  
`SageMakerModel` estende o `org.apache.spark.ml.Model`.

   O método `fit` faz o seguinte: 

   1. Converte a entrada `DataFrame` para o formato protobuf. Isso é feito selecionando as colunas `features` e `label` da entrada `DataFrame`. Em seguida, ele carrega upload dos dados do protobuf em um bucket do Amazon S3. O formato protobuf é eficiente para treinamento de modelos em SageMaker IA.

   1. Inicia o treinamento de modelos em SageMaker IA enviando uma [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html)solicitação de SageMaker IA. Após a conclusão do treinamento do modelo, a SageMaker IA salva os artefatos do modelo em um bucket S3. 

      SageMaker A IA assume a função do IAM que você especificou para o treinamento de modelos para realizar tarefas em seu nome. Por exemplo, para ler dados de treinamento de um bucket do S3 e gravar artefatos de modelo em um bucket. 

   1. Cria e retorna um objeto `SageMakerModel`. O construtor executa as tarefas a seguir, relacionadas à implantação do seu modelo na IA. SageMaker 

      1. Envia uma [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)solicitação para a SageMaker IA. 

      1. Envia uma [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html)solicitação para a SageMaker IA.

      1. Envia uma [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html)solicitação para a SageMaker IA, que então inicia os recursos especificados e hospeda o modelo neles. 

1. Você pode obter inferências do seu modelo hospedado na SageMaker IA com o. `SageMakerModel.transform` 

   Forneça uma entrada `DataFrame` com atributos como entrada. O método `transform` transforma-a em um `DataFrame` que contém inferências. Internamente, o `transform` método envia uma solicitação à [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) SageMaker API para obter inferências. O método `transform` anexa as inferências à entrada `DataFrame`.