Processamento de recursos com SparkML e Scikit-learn - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Processamento de recursos com SparkML e Scikit-learn

Antes de treinar um modelo com algoritmos SageMaker integrados da Amazon ou algoritmos personalizados, você pode usar os pré-processadores Spark e scikit-learn para transformar seus dados e criar recursos.

Processamento de recursos com o SparkML

Você pode executar trabalhos de ML do Spark com o AWS Glue, um serviço sem servidor ETL (extrair, transformar, carregar), a partir do seu notebook. SageMaker Você também pode se conectar a EMR clusters existentes para executar trabalhos de ML do Spark com a Amazon EMR. Para fazer isso, você precisa de uma função AWS Identity and Access Management (IAM) que conceda permissão para fazer chamadas do seu SageMaker notebook para AWS Glue o.

nota

Para ver quais versões do Python e do Spark são AWS Glue compatíveis, consulte as notas de lançamento do AWS Glue.

Depois dos recursos de engenharia, você empacota e serializa os trabalhos de ML do Spark MLeap em MLeap contêineres que podem ser adicionados a um pipeline de inferência. Você não precisa usar clusters do Spark gerenciados externamente. Com essa abordagem, você pode dimensionar sem problemas de uma amostra de linhas a terabytes de dados. Como os mesmos transformadores funcionam tanto para treinamento quanto para inferência, você não precisa duplicar a lógica de pré-processamento e engenharia de recursos ou desenvolver uma solução única para fazer os modelos persistirem. Com os pipelines de inferência, você não precisa manter a infraestrutura externa e pode fazer previsões diretamente das entradas de dados.

Quando você executa uma tarefa do Spark ML no AWS Glue, um pipeline do Spark ML é serializado em formato. MLeap Em seguida, você pode usar o trabalho com o SparkML Model Serving Container em SageMaker um pipeline de inferência. MLeapé um formato de serialização e mecanismo de execução para pipelines de aprendizado de máquina. Ele é compatível com Spark, Scikit-learn e TensorFlow para treinar pipelines e exportá-los para um pipeline serializado chamado Bundle. MLeap Você pode desserializar os pacotes de volta ao Spark para pontuação em lote ou para o tempo de execução para alimentar serviços em tempo real. MLeap API

Para ver um exemplo que mostra como criar recursos de processo com o Spark ML, consulte Treinar um modelo de ML usando o Apache Spark na Amazon EMR e implante-o em um notebook de amostra. SageMaker

Processamento de atributos com Scikit-Learn

Você pode executar e empacotar trabalhos do scikit-learn em contêineres diretamente na Amazon. SageMaker Para ver um exemplo de código Python para criar um modelo de caracterização do scikit-learn que treina no conjunto de dados de flores de íris de Fisher e prevê as espécies de íris com base em medidas morfológicas, consulte Treinamento e previsão com o Sagemaker Scikit-learn. IRIS