Recomendaciones para elegir la herramienta de preparación de datos adecuada en SageMaker - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Recomendaciones para elegir la herramienta de preparación de datos adecuada en SageMaker

La preparación de datos en el aprendizaje automático se refiere al proceso de recopilación, preprocesamiento y organización de datos sin procesar para que sean adecuados para el análisis y el modelado. Este paso garantiza que los datos estén en un formato que los algoritmos de aprendizaje automático puedan aprender de forma eficaz. Las tareas de preparación de datos pueden incluir gestionar los valores ausentes, eliminar valores atípicos, escalar características, codificar variables categóricas, evaluar los posibles sesgos y tomar medidas para mitigarlos, dividir los datos en conjuntos de entrenamiento y pruebas, etiquetarlos y otras transformaciones necesarias para optimizar la calidad y la usabilidad de los datos para las siguientes tareas de aprendizaje automático.

Elija una función

Existen tres casos de uso principales para la preparación de datos con Amazon SageMaker. Elija el caso de uso que se ajuste a sus requisitos y, a continuación, consulte la función recomendada correspondiente.

Casos de uso

Los siguientes son los principales casos de uso al realizar la preparación de datos para Machine Learning.

  • Caso de uso 1: para aquellos que prefieren una interfaz visual, SageMaker proporciona formas de explorar, preparar y diseñar funciones para el entrenamiento de modelos a través de un point-and-click entorno.

  • Caso de uso 2: Para los usuarios familiarizados con la programación y que desean más flexibilidad y control sobre la preparación de los datos, SageMaker integra herramientas en sus entornos de codificación para la exploración, las transformaciones y la ingeniería de funciones.

  • Caso de uso 3: Para los usuarios que se centran en la preparación de datos escalable, SageMaker ofrece funciones sin servidor que aprovechan el ecosistema Hadoop/Spark para el procesamiento distribuido de macrodatos.

En la siguiente tabla se describen las principales consideraciones y desventajas de las SageMaker funciones relacionadas con cada caso de uso de preparación de datos para el aprendizaje automático. Para empezar, identifique el caso de uso que se ajuste a sus requisitos y navegue hasta la función recomendada. SageMaker

Caso de uso 1 Caso de uso 2 Caso de uso 3
SageMaker característica Data Wrangler en Amazon Canvas SageMaker Prepare los datos con In Studio SQL Prepare los datos con EMR Serverlessaplicaciones en Studio
Descripción SageMaker Canvas es un entorno visual de bajo código para crear, entrenar e implementar modelos de aprendizaje automático. SageMaker Su herramienta Data Wrangler integrada permite a los usuarios combinar, transformar y limpiar conjuntos de datos mediante interacciones. point-and-click La SQL extensión de Studio permite a los usuarios conectarse a Amazon Redshift, Snowflake, Athena y Amazon S3 para crear consultas ad hoc y previsualizar los SQL resultados en libretas. JupyterLab El resultado de estas consultas se puede manipular mediante Python y Pandas para un procesamiento, visualización y transformación adicionales en formatos utilizables para el desarrollo de modelos de aprendizaje automático. La integración entre EMR Serverless y Amazon SageMaker Studio proporciona un entorno escalable sin servidor para la preparación de datos a gran escala para el aprendizaje automático mediante marcos de código abierto como Apache Spark y Apache Hive. Los usuarios pueden acceder directamente a las aplicaciones y los datos EMR sin servidor desde sus portátiles Studio para realizar sus tareas de preparación de datos a gran escala.
Optimizado para Mediante una interfaz visual en la que puede:

Optimizado para tareas de datos tabulares, como el manejo de valores faltantes, la codificación de variables categóricas y la aplicación de transformaciones de datos.

Para los usuarios cuyos datos se encuentran en Amazon Redshift, Snowflake, Athena o Amazon S3 y desean combinar datos exploratorios y SQL Python para el análisis y la preparación de datos sin necesidad de aprender Spark. Para los usuarios que prefieren una experiencia sin servidores con aprovisionamiento y finalización automáticos de los recursos para escalar cargas de trabajo interactivas intermitentes o de corta duración que giran en torno a Apache Spark y, al mismo tiempo, aprovechar las capacidades de aprendizaje automático de las que dispone. SageMaker
Consideraciones
  • Puede que no sea la mejor opción si tu equipo ya tiene experiencia en Python, Spark u otros lenguajes.

  • Puede que no sea la más adecuada si necesita una flexibilidad total para personalizar las transformaciones y añadir una lógica empresarial compleja o si necesita un control total sobre su entorno de procesamiento de datos.

  • Esta función está diseñada únicamente para datos estructurados que residen en Amazon Redshift, Snowflake, Athena o Amazon S3.

  • Si el tamaño de los resultados de la consulta supera la memoria de la SageMaker instancia, el siguiente cuaderno puede guiarlo sobre cómo empezar a utilizar Athena para preparar los datos para que los ingiera un algoritmo. SageMaker

  • La curva de aprendizaje para los usuarios que no están familiarizados con las aplicaciones EMR sin servidor y las herramientas basadas en Spark puede resultar difícil.

  • Esta función es más adecuada para las tareas de preparación de datos interactivas y puede no ser tan eficiente como EMR los clústeres de Amazon para requisitos de procesamiento de datos complejos, de larga duración o a gran escala que implican cantidades masivas de datos, una amplia integración con otros servicios, aplicaciones personalizadas o diversos marcos de procesamiento de datos distribuidos más allá de Apache Spark.

  • Si bien la computación sin servidor puede ser rentable para tareas de corta duración, es esencial monitorear y administrar los costos cuidadosamente, especialmente en el caso de cargas de trabajo de larga duración o que requieren muchos recursos.

Entorno recomendado Cómo empezar a usar SageMaker Canvas Iniciar Studio Iniciar Studio

Opciones adicionales

SageMaker ofrece las siguientes opciones adicionales para preparar los datos para su uso en modelos de aprendizaje automático.

  • Preparación de datos con Amazon EMR: Para tareas de procesamiento de datos a gran escala, de larga duración y con uso intensivo de cómputo, considere la posibilidad de utilizar los EMR clústeres de Amazon de Studio. SageMaker Los EMR clústeres de Amazon están diseñados para gestionar una paralelización masiva y pueden escalarse a cientos o miles de nodos, lo que los hace ideales para cargas de trabajo de big data que requieren marcos como Apache Spark, Hadoop, Hive y Presto. La integración de Amazon EMR con SageMaker Studio le permite aprovechar la escalabilidad y el rendimiento de Amazon y, al mismo tiempoEMR, centralizar y gestionar toda la experimentación con el aprendizaje automático, el entrenamiento y la implementación de modelos en el entorno de SageMaker Studio.

  • Prepare los datos mediante sesiones interactivas de Glue: puede utilizar el motor sin servidor basado en Apache Spark a partir de sesiones AWS Glue interactivas para agregar, transformar y preparar datos de múltiples fuentes en Studio. SageMaker

  • Identifique sesgos en los datos de entrenamiento mediante los trabajos SageMaker de procesamiento de Amazon SageMaker Clarify: Clarify analiza sus datos y detecta posibles sesgos en múltiples facetas. Por ejemplo, puede usar Clarify API en Studio para detectar si sus datos de entrenamiento contienen representaciones desequilibradas o sesgos de etiquetado entre grupos, como el género, la raza o la edad. Clarify puede ayudarte a identificar estos sesgos antes de entrenar un modelo para evitar que se propaguen sesgos en las predicciones del modelo.

  • Crea, almacena y comparte funciones: Amazon SageMaker Feature Store optimiza el descubrimiento y la reutilización de funciones seleccionadas para el aprendizaje automático. Proporciona un repositorio centralizado para almacenar datos de características que se pueden buscar y recuperar para el entrenamiento de modelos. El almacenamiento de las funciones en un formato estandarizado permite su reutilización en proyectos de aprendizaje automático. La tienda de funciones gestiona todo el ciclo de vida de las funciones, incluido el seguimiento del linaje, las estadísticas y los registros de auditoría para una ingeniería de funciones de aprendizaje automático escalable y regulada.

  • Etiquete los datos con una human-in-the-loop: puede utilizar SageMaker Ground Truth para gestionar los flujos de trabajo de etiquetado de datos de sus conjuntos de datos de entrenamiento.

  • Utilice el SageMaker procesamiento API: después de realizar un análisis exploratorio de los datos y crear los pasos de transformación de los datos, puede producir el código de transformación mediante SageMakerProcessing Jobs y automatizar el flujo de trabajo de preparación mediante Model Building Pipelines. SageMaker