Preparación de datos

nota

Anteriormente, Amazon SageMaker Data Wrangler formaba parte de la experiencia SageMaker Studio Classic. Ahora, si se actualiza para usar la nueva experiencia de Studio, debe usar SageMaker Canvas para acceder a Data Wrangler y recibir las últimas actualizaciones de funciones. Si ha estado utilizando Data Wrangler en Studio Classic hasta ahora y desea migrar a Data Wrangler en Canvas, es posible que tenga que conceder permisos adicionales para crear y usar una aplicación de Canvas. Para obtener más información, consulte (Opcional) Migre de Data Wrangler en Studio Classic a Canvas SageMaker.

Para obtener información sobre cómo migrar flujos de datos desde Data Wrangler en Studio Classic, consulte (Opcional) Migración de datos de Studio Classic a Studio.

Utilice Amazon SageMaker Data Wrangler en Amazon SageMaker Canvas para preparar, caracterizar y analizar sus datos. Puede integrar un flujo de preparación de datos de Data Wrangler en sus flujos de trabajo de machine learning (ML) a fin de simplificar y agilizar el preprocesamiento de datos y la ingeniería de características sin apenas codificación. También puede añadir sus propios scripts y transformaciones de Python para personalizar flujos de trabajo.

Flujo de datos: cree un flujo de datos para definir una serie de pasos de preparación de datos para el ML. Puede usar un flujo para combinar conjuntos de datos de diferentes orígenes, identificar el número y los tipos de transformaciones que desea aplicar a los conjuntos de datos y definir un flujo de trabajo de preparación de datos que se pueda integrar en una canalización de ML.
Transformación: limpie y transforme su conjunto de datos mediante transformaciones estándar, como herramientas de formato para datos numéricos, vectoriales y de cadenas. Personalice sus datos mediante transformaciones como texto, incrustación y codificación categórica. date/time
Generación de información sobre los datos: verifique automáticamente la calidad de los datos y detecte anomalías en estos con el informe de información y calidad de datos de Data Wrangler.
Análisis: analice las características de su conjunto de datos en cualquier punto del flujo. Data Wrangler incluye herramientas integradas de visualización de datos, como diagramas de dispersión e histogramas; también dispone de herramientas para el análisis de datos, como el análisis de fuga de objetivos y el modelado rápido para comprender la correlación de características.
Exportación: exporte su flujo de trabajo de preparación de datos a una ubicación distinta. A continuación, se muestran algunos ejemplos de ubicaciones.
- Bucket de Amazon Simple Storage Service (Amazon S3)
- Amazon SageMaker Feature Store: almacene las funciones y sus datos en una tienda centralizada.
Automatización de la preparación de datos: cree flujos de trabajo de machine learning a partir de un flujo de datos.
- Amazon SageMaker Pipelines: cree flujos de trabajo que gestionen la preparación de datos de SageMaker IA, el entrenamiento de modelos y los trabajos de implementación de modelos.
- Canalización de inferencia en serie: cree una canalización de inferencia en serie a partir de su flujo de datos. Utilícela para hacer predicciones sobre datos nuevos.
- Script de Python. Almacene los datos y sus transformaciones en un script de Python para sus flujos de trabajo personalizados.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Re-import un conjunto de datos de muestra eliminado

Creación de un flujo de datos