Recomendaciones para elegir la herramienta de preparación de datos adecuada en SageMaker IA

La preparación de datos en machine learning se refiere al proceso de recopilación, preprocesamiento y organización de datos sin procesar para que hacer que sean adecuados para el análisis y el modelado. Este paso garantiza que los datos estén en un formato que los algoritmos de machine learning puedan aprender de forma eficaz. Las tareas de preparación de datos pueden incluir la gestión de los valores que faltan, la eliminación de valores atípicos, el escalado de características, la codificación de variables categóricas, la evaluación de posibles sesgos y la adopción de medidas para mitigarlos, la división de los datos en conjuntos de entrenamiento y pruebas, el etiquetado y otras transformaciones necesarias para optimizar la calidad y la usabilidad de los datos para las tareas posteriores de machine learning.

Elección de una característica

Existen tres casos de uso principales para la preparación de datos con Amazon SageMaker AI. Elija el caso de uso que se ajuste a sus requisitos y, a continuación, consulte la característica recomendada correspondiente.

Casos de uso

Estos son los principales casos de uso al realizar la preparación de datos para machine learning.

Caso de uso 1: Para aquellos que prefieren una interfaz visual, la SageMaker IA ofrece formas de explorar, preparar y diseñar funciones para el entrenamiento de modelos mediante un entorno sencillo.
Caso de uso 2: Para los usuarios familiarizados con la programación y que desean más flexibilidad y control sobre la preparación de los datos, la SageMaker IA integra herramientas en sus entornos de codificación para la exploración, las transformaciones y la ingeniería de funciones.
Caso de uso 3: Para los usuarios que se centran en la preparación de datos escalable, la SageMaker IA ofrece funciones sin servidor que aprovechan el Hadoop/Spark ecosistema para el procesamiento distribuido de macrodatos.

Características recomendadas

En la siguiente tabla se describen las principales consideraciones y desventajas de las funciones de SageMaker IA relacionadas con cada caso de uso de la preparación de datos para el aprendizaje automático. Para empezar, identifica el caso de uso que se ajuste a tus requisitos y navega hasta la función de IA recomendada SageMaker .

Descriptor	Caso de uso 1	Caso de uso 2	Caso de uso 3
SageMaker Función de IA	Data Wrangler en Amazon Canvas SageMaker	Preparación de los datos con SQL en Studio	Aplicaciones Preparación de los datos con EMR sin servidor de Studio
Description (Descripción)	SageMaker Canvas es un entorno visual de bajo código para crear, entrenar e implementar modelos de aprendizaje automático en IA. SageMaker La herramienta Data Wrangler integrada permite a los usuarios combinar, transformar y limpiar conjuntos de datos mediante interacciones de apuntar y hacer clic.	La extensión SQL de Studio permite a los usuarios conectarse a Amazon Redshift, Snowflake, Athena y Amazon S3 para crear consultas SQL ad hoc y previsualizar los resultados en libretas. JupyterLab El resultado de estas consultas se puede manipular mediante Python y Pandas para el procesamiento, la visualización y la transformación adicionales en formatos utilizables para el desarrollo de modelos de machine learning.	La integración entre EMR Serverless y Amazon SageMaker Studio proporciona un entorno escalable sin servidor para la preparación de datos a gran escala para el aprendizaje automático mediante marcos de código abierto como Apache Spark y Apache Hive. Los usuarios pueden acceder directamente a las aplicaciones y los datos de EMR sin servidor desde sus cuadernos de Studio para realizar sus tareas de preparación de datos a gran escala.
Optimizado para	Uso de una interfaz visual en la que puede: Crear canalizaciones de preparación de datos Realizar análisis de datos Transformar los datos mediante transformaciones integradas Utilice instrucciones de lenguaje AI-powered natural de última generación para las transformaciones de datos Optimizado para tareas de datos tabulares, como el tratamiento de valores que faltan, la codificación de variables categóricas y la aplicación de transformaciones de datos.	Para usuarios cuyos datos se encuentran en Amazon Redshift, Snowflake, Athena o Amazon S3 y desean combinar el SQL exploratorio con Python para el análisis y la preparación de datos sin necesidad de conocer Spark.	Para los usuarios que prefieren una experiencia sin servidores con aprovisionamiento y terminación automáticos de los recursos para escalar cargas de trabajo interactivas intermitentes o de corta duración que giran en torno a Apache Spark y, al mismo tiempo, aprovechar las capacidades de aprendizaje automático de la SageMaker IA.
Consideraciones	Puede que no sea la mejor opción si su equipo ya tiene experiencia en Python, Spark u otros lenguajes. Puede que no sea la opción más adecuada si necesita una flexibilidad total para personalizar las transformaciones para añadir una lógica empresarial compleja o si necesita un control total sobre su entorno de procesamiento de datos.	Esta característica está diseñada únicamente para datos estructurados que residen en Amazon Redshift, Snowflake, Athena o Amazon S3. Si el tamaño de los resultados de la consulta supera la memoria de la instancia de SageMaker IA, el siguiente cuaderno puede guiarlo sobre cómo empezar a utilizar Athena para preparar los datos para que los ingiera un SageMaker algoritmo de IA.	La curva de aprendizaje para los usuarios que no están familiarizados con las aplicaciones y Spark-based herramientas EMR Serverless puede ser un desafío. Esta característica es más adecuada para las tareas de preparación de datos interactivas y puede que no sea tan eficaz como los clústeres de Amazon EMR para requisitos de procesamiento de datos complejos, de larga duración o a gran escala que implican cantidades masivas de datos, una amplia integración con otros servicios, aplicaciones personalizadas o diversos marcos de procesamiento de datos distribuidos más allá de Apache Spark. Si bien la computación sin servidor puede ser rentable para tareas de corta duración, es esencial supervisar y administrar los costos cuidadosamente, especialmente en el caso de cargas de trabajo prolongadas o que consumen muchos recursos.
Entorno recomendado	Cómo empezar a usar Canvas SageMaker	Iniciar Studio	Iniciar Studio

Opciones adicionales

SageMaker La IA ofrece las siguientes opciones adicionales para preparar sus datos para su uso en modelos de aprendizaje automático.

Preparación de datos con Amazon EMR: Para tareas de procesamiento de datos a gran escala, de larga duración y con uso intensivo de cálculos, considere la posibilidad de utilizar clústeres de Amazon EMR de Studio. SageMaker Los clústeres de Amazon EMR están diseñados para gestionar una paralelización masiva y pueden escalarse a cientos o miles de nodos, por lo que son ideales para cargas de trabajo de macrodatos que requieren marcos como Apache Spark, Hadoop, Hive y Presto. La integración de Amazon EMR con SageMaker Studio le permite aprovechar la escalabilidad y el rendimiento de Amazon EMR y, al mismo tiempo, centralizar y gestionar toda la experimentación con el aprendizaje automático, el entrenamiento y la implementación de modelos en el entorno de Studio. SageMaker
Prepare los datos mediante sesiones interactivas adhesivas: puede utilizar el motor Apache Spark-based sin servidor en sesiones AWS Glue interactivas para agregar, transformar y preparar datos de varias fuentes en Studio. SageMaker
Identifique sesgos en los datos de entrenamiento mediante los trabajos SageMaker de procesamiento de Amazon SageMaker Clarify: Clarify analiza sus datos y detecta posibles sesgos en múltiples facetas. Por ejemplo, puede usar la API de Clarify en Studio para detectar si sus datos de entrenamiento contienen representaciones desequilibradas o sesgos de etiquetado entre grupos, como el sexo, la raza o la edad. Clarify puede servir de ayuda para identificar estos sesgos antes de entrenar un modelo para evitar que se propaguen sesgos en las predicciones del modelo.
Crea, almacena y comparte funciones: Amazon SageMaker Feature Store optimiza el descubrimiento y la reutilización de funciones seleccionadas para el aprendizaje automático. Proporciona un repositorio centralizado para almacenar datos de características que se pueden buscar y recuperar para el entrenamiento del modelo. El almacenamiento de las características en un formato estandarizado permite reutilizarlas en proyectos de ML. El Almacén de características administra todo el ciclo de vida de las características, incluido el seguimiento del linaje, las estadísticas y los registros de auditoría para una ingeniería de características de machine learning escalable y regulada.
Etiquete los datos con una persona al tanto: puede utilizar SageMaker Ground Truth para gestionar los flujos de trabajo de etiquetado de datos de sus conjuntos de datos de entrenamiento.
Utilice la API de SageMaker procesamiento : después de realizar un análisis exploratorio de los datos y crear los pasos de transformación de los datos, puede producir el código de transformación mediante tareas de procesamiento de SageMaker IA y automatizar el flujo de trabajo de preparación mediante Model Building Pipelines. SageMaker

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Referencias de la API

Preparación de los datos con SQL en Studio