Preparación de datos de machine learning con Amazon SageMaker Data Wrangler
importante
Amazon SageMaker Data Wrangler se ha integrado en Amazon SageMaker Canvas. En la nueva experiencia de Data Wrangler en SageMaker Canvas, además de la interfaz visual, puede utilizar una interfaz de lenguaje natural para explorar y transformar sus datos. Para obtener más información sobre Data Wrangler en SageMaker Canvas, consulte Preparación de datos.
Amazon SageMaker Data Wrangler (Data Wrangler) es una característica de Amazon SageMaker Studio Classic que proporciona una solución integral para importar, preparar, transformar, caracterizar y analizar datos. Puede integrar un flujo de preparación de datos de Data Wrangler en sus flujos de trabajo de machine learning (ML) a fin de simplificar y agilizar el preprocesamiento de datos y la ingeniería de características sin apenas codificación. También puede añadir sus propios scripts y transformaciones de Python para personalizar flujos de trabajo.
Data Wrangler proporciona las siguientes funcionalidades principales para ayudarle a analizar y preparar los datos para las aplicaciones de machine learning.
-
Importación: conéctese a datos desde Amazon Simple Storage Service (Amazon S3), Amazon Athena (Athena), Amazon Redshift, Snowflake y Databricks, e importe datos desde estos.
-
Flujo de datos: cree un flujo de datos para definir una serie de pasos de preparación de datos para el ML. Puede usar un flujo para combinar conjuntos de datos de diferentes orígenes, identificar el número y los tipos de transformaciones que desea aplicar a los conjuntos de datos y definir un flujo de trabajo de preparación de datos que se pueda integrar en una canalización de ML.
-
Transformación: limpie y transforme su conjunto de datos mediante transformaciones estándar, como herramientas de formato para datos numéricos, vectoriales y de cadenas. Aporte características para sus datos mediante transformaciones, como la incrustación de texto y fecha/hora y la codificación categórica.
-
Generación de información sobre los datos: verifique automáticamente la calidad de los datos y detecte anomalías en estos con Data Wrangler Data Insights y Quality Report.
-
Análisis: analice las características de su conjunto de datos en cualquier punto del flujo. Data Wrangler incluye herramientas integradas de visualización de datos, como diagramas de dispersión e histogramas; también dispone de herramientas para el análisis de datos, como el análisis de fuga de objetivos y el modelado rápido para comprender la correlación de características.
-
Exportación: exporte su flujo de trabajo de preparación de datos a una ubicación distinta. A continuación, se muestran algunos ejemplos de ubicaciones.
-
Bucket de Amazon Simple Storage Service (Amazon S3)
-
Canalizaciones de Amazon SageMaker: utilice Canalizaciones para automatizar la implementación de los modelos. Puede exportar los datos que ha transformado directamente en las canalizaciones.
-
Almacén de características de Amazon SageMaker. Guarde las características y sus datos en un almacén centralizado.
-
Script de Python. Almacene los datos y sus transformaciones en un script de Python para sus flujos de trabajo personalizados.
-
Para empezar a utilizar Data Wrangler, consulte Introducción a Data Wrangler.
importante
Data Wrangler ya no es compatible con la versión 1 de Jupyter Lab (JL1). Para acceder a las últimas características y mejoras, actualice a la versión 3 de Jupyter Lab. Para obtener más información acerca de la actualización, consulte Visualización y actualización de la versión de JupyterLab de una aplicación desde la consola.
importante
La información y los procedimientos de esta guía utilizan la versión más reciente de Amazon SageMaker Studio Classic. Para obtener más información sobre cómo actualizar Studio Classic a la última versión, consulte Descripción general de la IU de Amazon SageMaker Studio Classic.
Debe utilizar la versión 1.3.0 de Studio Classic o posteriores. Utilice el siguiente procedimiento para abrir Amazon SageMaker Studio Classic y ver qué versión está ejecutando.
Para abrir Studio Classic y comprobar su versión, consulte el siguiente procedimiento.
-
Siga los pasos de Requisitos previos para acceder a Data Wrangler a través de Amazon SageMaker Studio Classic.
-
Junto al usuario que desee utilizar para inicializar Studio Classic, seleccione Lanzar aplicación.
-
Elija Studio.
-
Cuando Studio Classic se cargue, seleccione Archivo, Nuevo y, por último, Terminal.
-
Tras iniciar Studio Classic, seleccione Archivo, Nuevo y, por último, Terminal.
-
Introduzca
cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@"
para imprimir la versión de su instancia de Studio Classic. Para utilizar Snowflake, debe tener la versión 1.3.0 de Studio Classic.
Puede actualizar Amazon SageMaker Studio Classic desde la AWS Management Console. Para obtener más información sobre la actualización de Studio Classic, consulte Descripción general de la IU de Amazon SageMaker Studio Classic.
Temas
- Introducción a Data Wrangler
- Importación
- Creación y uso de un flujo de Data Wrangler
- Información sobre los datos y la calidad de los datos
- Entrenamiento automático de modelos en su flujo de datos
- Datos de transformación
- Análisis y visualización
- Reutilización de flujos de datos para diferentes conjuntos de datos
- Exportar
- Uso de un widget interactivo de preparación de datos en un cuaderno de Amazon SageMaker Studio Classic para obtener información sobre los datos
- Seguridad y permisos
- Notas de la versión
- Solucionar problemas
- Aumentar el límite de instancias de Amazon EC2
- Actualización de Data Wrangler
- Apagado de Data Wrangler