As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Processamento de recursos com SparkML e Scikit-learn
Antes de treinar um modelo com algoritmos SageMaker integrados da Amazon ou algoritmos personalizados, você pode usar os pré-processadores Spark e scikit-learn para transformar seus dados e criar recursos.
Processamento de recursos com o SparkML
Você pode executar trabalhos de ML do Spark com o AWS Glue, um serviço sem servidor ETL (extrair, transformar, carregar), a partir do seu notebook. SageMaker Você também pode se conectar a EMR clusters existentes para executar trabalhos de ML do Spark com a Amazon EMR. Para fazer isso, você precisa de uma função AWS Identity and Access Management (IAM) que conceda permissão para fazer chamadas do seu SageMaker notebook para AWS Glue o.
nota
Para ver quais versões do Python e do Spark são AWS Glue compatíveis, consulte as notas de lançamento do AWS Glue.
Depois dos recursos de engenharia, você empacota e serializa os trabalhos de ML do Spark MLeap em MLeap contêineres que podem ser adicionados a um pipeline de inferência. Você não precisa usar clusters do Spark gerenciados externamente. Com essa abordagem, você pode dimensionar sem problemas de uma amostra de linhas a terabytes de dados. Como os mesmos transformadores funcionam tanto para treinamento quanto para inferência, você não precisa duplicar a lógica de pré-processamento e engenharia de recursos ou desenvolver uma solução única para fazer os modelos persistirem. Com os pipelines de inferência, você não precisa manter a infraestrutura externa e pode fazer previsões diretamente das entradas de dados.
Quando você executa uma tarefa do Spark ML no AWS Glue, um pipeline do Spark ML é serializado em formato. MLeap
Para ver um exemplo que mostra como criar recursos de processo com o Spark ML, consulte Treinar um modelo de ML usando o Apache Spark na Amazon EMR e implante-o em
Processamento de atributos com Scikit-Learn
Você pode executar e empacotar trabalhos do scikit-learn em contêineres diretamente na Amazon. SageMaker Para ver um exemplo de código Python para criar um modelo de caracterização do scikit-learn que treina no conjunto de dados de flores de íris de Fisher e prevê as espécies de íris