Realización de análisis de datos exploratorio (EDA)

Modo de enfoque

Realización de análisis de datos exploratorio (EDA) - Amazon SageMaker AI

Obtención de información sobre los datos y la calidad de los datos Informe de sesgo Histograma Gráfico de dispersión Resumen de la tabla Modelo rápido Fuga de objetivos Multicolinealidad Detección de anomalías en los datos de serie temporal Descomposición de tendencias estacionales en datos de serie temporal Creación de visualizaciones personalizadas

Data Wrangler incluye análisis integrados que le ayudan a generar visualizaciones y análisis de datos con unos pocos clics. También puede crear análisis personalizados con su propio código.

Para agregar un análisis a un marco de datos, seleccione un paso del flujo de datos y, a continuación, elija Agregar análisis. Para acceder a un análisis que haya creado, seleccione el paso que contiene el análisis y seleccione el análisis.

Los análisis se generan con una muestra de hasta 200 000 filas del conjunto de datos y puede configurar el tamaño de la muestra. Para obtener más información acerca del cambio del tamaño de muestra del flujo de datos, consulte Edición de la configuración de muestreo del flujo de datos.

nota

Los análisis están optimizados para datos con 1000 columnas o menos. Es posible que experimente cierta latencia al generar análisis de datos con columnas adicionales.

Puede agregar los análisis siguientes a un marco de datos:

Visualizaciones de datos, incluidos histogramas y gráficos de dispersión.
Un resumen rápido del conjunto de datos, que incluye el número de entradas, los valores mínimo y máximo (para los datos numéricos) y las categorías más y menos frecuentes (para los datos categóricos).
Un modelo rápido del conjunto de datos, que se puede utilizar para generar una puntuación de importancia para cada característica.
Un informe de fuga de objetivos, que puede utilizar para determinar si una o más características están estrechamente correlacionadas con la característica objetivo.
Una visualización personalizada con su propio código.

Utilice las siguientes secciones para obtener más información sobre estas opciones.

Obtención de información sobre los datos y la calidad de los datos

Utilice el Informe de información y calidad de los datos para realizar un análisis de los datos que ha importado a Data Wrangler. Se recomienda crear el informe después de importar el conjunto de datos. Puede utilizar informe como ayuda para limpiar y procesar los datos. Le proporciona información como el número de valores ausentes y el número de valores atípicos. Si tiene problemas con los datos, como una fuga de objetivos o un desequilibrio, el informe de información puede indicarle esos problemas.

Utilice el siguiente procedimiento para crear un informe de información y calidad de los datos. Se supone que ya ha importado un conjunto de datos a su flujo de Data Wrangler.

Para crear un informe de información y calidad de datos

Elija el icono de puntos suspensivos junto a un nodo del flujo de Data Wrangler.
Seleccione Obtener información sobre los datos.
En Tipo de análisis, elija Informe de información y calidad de los datos.
En Nombre del análisis, especifique un nombre para el informe de información.
En Tipo de problema, especifique Regresión o Clasificación.
En Columna de destino, especifique la columna de destino.
Para Tamaño de los datos, especifique uno de los siguientes valores:
- Conjunto de datos muestreado: utiliza la muestra interactiva del flujo de datos, que puede contener hasta 200 000 filas del conjunto de datos. Para obtener información acerca de cómo editar el tamaño de la muestra, consulte Edición de la configuración de muestreo del flujo de datos.
- Conjunto de datos completo: utiliza el conjunto de datos completo del origen de datos para crear el informe.
nota
Para crear un informe de información y calidad de los datos sobre el conjunto de datos completo se utiliza un trabajo SageMaker de procesamiento de Amazon. Un trabajo de SageMaker procesamiento proporciona los recursos informáticos adicionales necesarios para obtener información sobre todos sus datos. Para obtener más información sobre los trabajos de SageMaker procesamiento, consulteCargas de trabajo de transformación de datos con procesamiento SageMaker .
Seleccione Crear.

Los siguientes temas muestran las secciones del informe:

Puede descargar el informe o verlo en línea. Para descargar el informe, pulse el botón de descarga en la esquina superior derecha de la pantalla.

Resumen

El informe de análisis contiene un breve resumen de los datos que incluye información general, como valores ausentes, valores no válidos, tipos de características, recuentos de valores atípicos, etc. También puede incluir advertencias de alta gravedad que indiquen posibles problemas con los datos. Se recomienda investigar las advertencias.

Columna objetivo

Cuando crea el informe de información y calidad de los datos, Data Wrangler le ofrece la opción de seleccionar una columna de destino. La columna objetivo es una columna que intenta predecir. Cuando se elige una columna objetivo, Data Wrangler crea automáticamente un análisis de la columna objetivo. También clasifica las características en el orden de su poder predictivo. Al seleccionar una columna objetivo, debe especificar si va a intentar resolver un problema de regresión o de clasificación.

Para la clasificación, Data Wrangler muestra una tabla y un histograma de las clases más frecuentes. Una clase es una categoría. También presenta observaciones, o filas, con un valor objetivo que falta o que no es válido.

Para la regresión, Data Wrangler muestra un histograma de todos los valores de la columna objetivo. También presenta observaciones, o filas, con un valor objetivo que falta, que no es válido o que es atípico.

Modelo rápido

El Modelo rápido proporciona una estimación de la calidad prevista de un modelo que se entrena con sus datos.

Data Wrangler divide los datos en pliegues de entrenamiento y validación. Utiliza el 80 % de las muestras para el entrenamiento y el 20 % de los valores para la validación. Para la clasificación, la muestra se divide estratificadamente. Para una división estratificada, cada partición de datos tiene la misma proporción de etiquetas. En lo que se refiere a los problemas de clasificación, es importante tener la misma proporción de etiquetas entre los pliegues de entrenamiento y de clasificación. Data Wrangler entrena el XGBoost modelo con los hiperparámetros predeterminados. Aplica una parada temprana a los datos de validación y realiza un preprocesamiento mínimo de la característica.

En el caso de los modelos de clasificación, Data Wrangler devuelve un resumen del modelo y una matriz de confusión.

Para obtener más información sobre la información que devuelve el resumen del modelo de clasificación, consulte Definiciones.

Una matriz de confusión le ofrece la siguiente información:

El número de veces que la etiqueta predicha coincide con la etiqueta verdadera.
El número de veces que la etiqueta predicha no coincide con la etiqueta verdadera.

La etiqueta verdadera representa una observación real de los datos. Por ejemplo, si utiliza un modelo para detectar transacciones fraudulentas, la etiqueta verdadera representa una transacción que en realidad es fraudulenta o no fraudulenta. La etiqueta predicha representa la etiqueta que el modelo asigna a los datos.

Puede usar la matriz de confusión para ver lo bien que predice el modelo la presencia o ausencia de una condición. Si predice transacciones fraudulentas, puede utilizar la matriz de confusión para hacerse una idea de la sensibilidad y la especificidad del modelo. La sensibilidad se refiere a la capacidad del modelo de detectar transacciones fraudulentas. La especificidad se refiere a la capacidad del modelo de evitar detectar transacciones no fraudulentas como fraudulentas.

Resumen de características

Al especificar una columna objetivo, Data Wrangler ordena las características por su poder de predicción. El poder de predicción se mide en los datos después de dividirlos en un 80 % de pliegues de entrenamiento y un 20 % de pliegues de validación. Data Wrangler encaja un modelo para cada característica independiente en el pliegue de entrenamiento. Aplica un preprocesamiento mínimo de la característica y mide el rendimiento de la predicción en los datos de validación.

Normaliza las puntuaciones al rango [0,1]. Las puntuaciones de predicción más altas indican columnas que son más útiles para predecir el objetivo por sí mismas. Las puntuaciones más bajas apuntan a columnas que no predicen la columna objetivo.

No es habitual que una columna que no sea predictiva por sí sola lo sea cuando se usa junto con otras columnas. Puede utilizar con confianza las puntuaciones de predicción para determinar si una característica de su conjunto de datos es predictiva.

Una puntuación baja suele indicar que la característica es redundante. Una puntuación de 1 implica una capacidad predictiva perfecta, lo que a menudo es señal de una fuga de objetivos. La fuga de objetivos suele producirse cuando el conjunto de datos contiene una columna que no está disponible en el momento de la predicción. Por ejemplo, podría ser un duplicado de la columna objetivo.

Muestras

Data Wrangler proporciona información sobre si sus muestras son anómalas o si hay duplicados en el conjunto de datos.

Data Wrangler detecta muestras anómalas mediante el algoritmo de bosque de aislamiento. El bosque de aislamiento asocia una puntuación de anomalía a cada muestra (fila) del conjunto de datos. Las puntuaciones de anomalías bajas indican muestras anómalas. Las puntuaciones altas se asocian a muestras no anómalas. Las muestras con una puntuación de anomalía negativa suelen considerarse anómalas y las muestras con una puntuación de anomalía positiva se consideran no anómalas.

Al observar una muestra que podría ser anómala, se recomienda prestar atención a los valores inusuales. Por ejemplo, es posible que tenga valores anómalos que se deban a errores en la recopilación y el procesamiento de los datos. El siguiente es un ejemplo de las muestras más anómalas según la implementación del algoritmo de bosque de aislamiento de Data Wrangler. Se recomienda utilizar el conocimiento del dominio y la lógica empresarial al examinar las muestras anómalas.

Data Wrangler detecta filas duplicadas y calcula la proporción de filas duplicadas en los datos. Algunos orígenes de datos pueden incluir duplicados válidos. Otros orígenes de datos pueden tener duplicados que indiquen problemas en la recopilación de los datos. Las muestras duplicadas que resultan de una recopilación de datos defectuosa podrían interferir con los procesos de machine learning, que se basan en dividir los datos en grupos independientes de entrenamiento y validación.

Los siguientes son los elementos del informe de información que pueden verse afectados por la duplicación de muestras:

Modelo rápido
Estimación de la potencia predictiva
Ajuste automático de hiperparámetros

Puede eliminar las muestras duplicadas del conjunto de datos mediante la transformación Eliminar duplicados en Administrar filas. Data Wrangler le muestra las filas que se duplican con más frecuencia.

Definiciones

A continuación, se muestran las definiciones de los términos técnicos que se utilizan en el informe de información de datos.

Feature types

Las siguientes son las definiciones de cada uno de los tipos de características:

Numérica: los valores numéricos pueden ser flotantes o enteros, como la edad o los ingresos. Los modelos de machine learning suponen que los valores numéricos están ordenados y que se define una distancia sobre ellos. Por ejemplo, 3 está más cerca de 4 que de 10 y 3 < 4 < 10.
Categórica: las entradas de la columna pertenecen a un conjunto de valores únicos, que suele ser mucho menor que el número de entradas de la columna. Por ejemplo, una columna de longitud 100 podría contener los valores únicos Dog, Cat y Mouse. Los valores pueden ser numéricos, de texto o una combinación de ambos. Horse, House, 8, Love y 3.1 serían todos valores válidos y podrían encontrarse en la misma columna categórica. El modelo de machine learning no supone el orden ni la distancia en los valores de las características categóricas, a diferencia de las características numéricas, incluso cuando todos los valores son números.
Binaria: las características binarias son un tipo de característica categórica especial en la que la cardinalidad del conjunto de valores únicos es 2.
Texto: una columna de texto contiene muchos valores únicos no numéricos. En casos extremos, todos los elementos de la columna son únicos. En un caso extremo, no hay dos entradas iguales.
Fecha y hora: una columna de fecha y hora contiene información sobre la fecha o la hora. Puede contener información tanto de la fecha como de la hora.

Feature statistics

Las siguientes son definiciones para cada una de las estadísticas de la característica:

Potencia predictiva: la potencia predictiva mide la utilidad de la columna para predecir el objetivo.
Valores atípicos (en columnas numéricas): Data Wrangler detecta los valores atípicos mediante dos estadísticas que son resistentes a los valores atípicos: la mediana y la desviación estándar robusta (RSTD). La RSTD se obtiene al recortar los valores de las características al rango [percentil 5, percentil 95] y calcular la desviación estándar del vector recortado. Todos los valores superiores a la mediana +5 * RSTD o inferiores a la mediana -5 * RSTD se consideran valores atípicos.
Sesgo (en columnas numéricas): el sesgo mide la simetría de la distribución y se define como el tercer momento de la distribución dividido por la tercera potencia de la desviación estándar. La asimetría de la distribución normal o de cualquier otra distribución simétrica es cero. Los valores positivos implican que la cola derecha de la distribución es más larga que la cola izquierda. Los valores negativos implican que la cola izquierda de la distribución es más larga que la cola derecha. Como regla general, una distribución se considera asimétrica cuando el valor absoluto de la asimetría es superior a 3.
Curtosis (en columnas numéricas): la curtosis de Pearson mide el peso de la cola de la distribución. Se define como el cuarto momento de la distribución dividido por el cuadrado del segundo momento. La curtosis de la distribución normal es 3. Los valores de curtosis inferiores a 3 implican que la distribución se concentra alrededor de la media y que las colas son más ligeras que las colas de la distribución normal. Los valores de curtosis superiores a 3 implican colas con más peso o valores atípicos.
Valores ausentes: los objetos de tipo nulo, las cadenas vacías y las cadenas compuestas únicamente por espacios en blanco se consideran valores ausentes.
Valores válidos para las características numéricas o el objetivo de regresión: todos los valores que se pueden convertir en flotantes finitos son válidos. Los valores ausentes no son válidos.
Valores válidos para características categóricas, binarias o de texto, o para el objetivo de clasificación: todos los valores que no faltan son válidos.
Características de fecha y hora: todos los valores que puede convertir en un objeto de fecha y hora son válidos. Los valores ausentes no son válidos.
Valores no válidos: valores ausentes o que no se pueden convertir correctamente. Por ejemplo, en una columna numérica, no puede convertir la cadena "six" o un valor nulo.

Quick model metrics for regression

Las siguientes son las definiciones de las métricas del modelo rápido:

R2 (o coeficiente de determinación): R2 es la proporción de la variación en el objetivo que predice el modelo. R2 está en el rango de [-inft, 1]. 1 es la puntuación del modelo que predice el objetivo a la perfección y 0 es la puntuación del modelo trivial que siempre predice la media objetivo.
MSE o error cuadrático medio: MSE está en el rango [0, infty]. 0 es la puntuación del modelo que predice perfectamente el objetivo.
MAE o error absoluto medio: el MAE se encuentra en el rango [0, infty] donde 0 es la puntuación del modelo que predice perfectamente el objetivo.
RMSE o raíz del error cuadrático medio: la RMSE se encuentra en el rango [0, infty] donde 0 es la puntuación del modelo que predice perfectamente el objetivo.
Error máximo: el valor absoluto máximo del error en el conjunto de datos. El error máximo se encuentra en el rango [0, infty] donde 0 es la puntuación del modelo que predice perfectamente el objetivo.
Mediana del error absoluto: la mediana del error absoluto se encuentra en el rango [0, infty] donde 0 es la puntuación del modelo que predice perfectamente el objetivo.

Quick model metrics for classification

Las siguientes son las definiciones de las métricas del modelo rápido:

Precisión: la precisión es la proporción de muestras que se predicen con precisión. La precisión está en el rango [0, 1]. 0 es la puntuación del modelo que predice todas las muestras de forma incorrecta y 1 es la puntuación del modelo perfecto.
Precisión equilibrada: la precisión equilibrada es la proporción de muestras que se predicen con precisión cuando se ajustan las ponderaciones de las clases para equilibrar los datos. Se les da la misma importancia a todas las clases, independientemente de su frecuencia. La precisión equilibrada se encuentra en el rango [0, 1]. 0 es la puntuación del modelo que predice erróneamente todas las muestras. 1 es la puntuación del modelo perfecto.
AUC (clasificación binaria): es el área bajo la curva característica de funcionamiento del receptor. El AUC se encuentra en el rango [0, 1] en el que un modelo aleatorio arroja una puntuación de 0,5 y el modelo perfecto devuelve una puntuación de 1.
AUC (OVR): en la clasificación multiclase, se trata del área bajo la curva característica de funcionamiento del receptor, que se calcula por separado para cada etiqueta, utilizando uno frente al resto. Data Wrangler informa del promedio de las áreas. El AUC se encuentra en el rango [0, 1] en el que un modelo aleatorio arroja una puntuación de 0,5 y el modelo perfecto devuelve una puntuación de 1.
Precisión: la precisión se define para una clase específica. La precisión es la fracción de positivos verdaderos de todas las instancias en las que el modelo clasificó como esa clase. La precisión está en el rango [0, 1]. 1 es la puntuación del modelo que no tiene falsos positivos para la clase. Para la clasificación binaria, Data Wrangler informa de la precisión de la clase positiva.
Recuperación: la recuperación se define para una clase específica. La recuperación es la fracción de las instancias de clase pertinentes que se recuperan correctamente. La recuperación está en el rango [0, 1]. 1 es la puntuación del modelo que clasifica correctamente todas las instancias de la clase. Para la clasificación binaria, Data Wrangler informa de la recuperación de la clase positiva.
F1: F1 se define para una clase específica. Es la media armónica entre la precisión y la recuperación. F1 está en el rango [0, 1]. 1 es la puntuación del modelo perfecto. Para la clasificación binaria, Data Wrangler indica la F1 para las clases con valores positivos.

Textual patterns

Los patrones describen el formato textual de una cadena utilizando un formato fácil de leer. A continuación se muestran ejemplos de patrones de texto:

“{digits:4-7}” describe una secuencia de dígitos que tienen una longitud entre 4 y 7.
“{alnum:5}” describe una cadena alfanumérica con una longitud exacta de 5.

Data Wrangler infiere los patrones observando muestras de cadenas no vacías a partir de sus datos. Puede describir muchos de los patrones más utilizados. La confianza expresada como porcentaje indica qué cantidad de datos se estima que coincide con el patrón. Con el patrón textual, puede ver qué filas de los datos tiene que corregir o eliminar.

A continuación se describen los patrones que Data Wrangler puede reconocer:

Patrón	Formato textual
{alnum}	Cadenas alfanuméricas
{any}	Cualquier cadena de caracteres de palabra
{digits}	Una secuencia de dígitos
{lower}	Una palabra en minúscula
{mixed}	Una palabra con mayúsculas y minúsculas
{name}	Una palabra que comienza por una letra mayúscula
{upper}	Una palabra mayúscula
{whitespace}	Caracteres de espacio en blanco

Un carácter de palabra es un carácter de subrayado o un carácter que puede aparecer en una palabra en cualquier idioma. Por ejemplo, las cadenas 'Hello_word' y 'écoute' están compuestas por caracteres de palabra. Tanto la “H” como la “é” son ejemplos de caracteres de palabra.

anchor anchor anchor anchor anchor

Las siguientes son las definiciones de cada uno de los tipos de características:

Numérica: los valores numéricos pueden ser flotantes o enteros, como la edad o los ingresos. Los modelos de machine learning suponen que los valores numéricos están ordenados y que se define una distancia sobre ellos. Por ejemplo, 3 está más cerca de 4 que de 10 y 3 < 4 < 10.
Categórica: las entradas de la columna pertenecen a un conjunto de valores únicos, que suele ser mucho menor que el número de entradas de la columna. Por ejemplo, una columna de longitud 100 podría contener los valores únicos Dog, Cat y Mouse. Los valores pueden ser numéricos, de texto o una combinación de ambos. Horse, House, 8, Love y 3.1 serían todos valores válidos y podrían encontrarse en la misma columna categórica. El modelo de machine learning no supone el orden ni la distancia en los valores de las características categóricas, a diferencia de las características numéricas, incluso cuando todos los valores son números.
Binaria: las características binarias son un tipo de característica categórica especial en la que la cardinalidad del conjunto de valores únicos es 2.
Texto: una columna de texto contiene muchos valores únicos no numéricos. En casos extremos, todos los elementos de la columna son únicos. En un caso extremo, no hay dos entradas iguales.
Fecha y hora: una columna de fecha y hora contiene información sobre la fecha o la hora. Puede contener información tanto de la fecha como de la hora.

Informe de sesgo

SageMaker Canvas proporciona el informe de sesgo en Data Wrangler para ayudar a descubrir posibles sesgos en sus datos. El informe de sesgo analiza la relación entre la columna de destino (etiqueta) y una columna que usted crea que puede contener un sesgo (variable de faceta). Por ejemplo, si intenta predecir la conversión de clientes, la variable de faceta podría ser la edad del cliente. El informe de sesgo puede ayudarlo a determinar si los datos están sesgados hacia un grupo de edad determinado.

Para generar un informe de sesgo en Canvas, haga lo siguiente:

En el flujo de datos de Data Wrangler, elija el icono de Más opciones ( ) situado junto a un nodo del flujo.
En el menú contextual, seleccione Obtener información sobre los datos.
Se abre el panel lateral Crear análisis. En el menú desplegable Tipo de análisis, seleccione Informe de sesgo.
En el campo Nombre del análisis, introduzca un nombre para el informe de sesgo.
En el menú desplegable Seleccione la columna que predice el modelo (destino), seleccione la columna de destino.
En ¿La columna predicha es un valor o un umbral?, seleccione Valor si la columna de destino tiene valores categóricos o Umbral si tiene valores numéricos.
En Valor predicho (o Umbral pronosticado, según lo que haya seleccionado en el paso anterior), introduzca el valor o los valores de la columna de destino que correspondan a un resultado positivo. Por ejemplo, si predice la conversión de clientes, el valor podría ser yes para indicar que un cliente se ha convertido.
En el menú desplegable Columna analizada para detectar sesgos, seleccione la columna que crea que puede contener sesgos, también conocida como variable de faceta.
En ¿La columna es un valor o un umbral?, seleccione Valor si la variable de faceta tiene valores categóricos o Umbral si tiene valores numéricos.
En Valores de columna analizados para detectar sesgo (o Umbral de columna analizado para detectar sesgo, según lo que haya seleccionado en el paso anterior), introduzca el valor o los valores que desea analizar para detectar posible sesgo. Por ejemplo, si está comprobando si hay sesgo contra clientes mayores de cierta edad, utilice el principio de ese rango de edad como umbral.
En Elegir métricas de sesgo, seleccione las métricas de sesgo que desee incluir en el informe de sesgo. Pase el cursor sobre los iconos de información para obtener más información sobre cada métrica.
(Opcional) Cuando aparezca la opción ¿Desea analizar métricas adicionales?, seleccione Sí para ver e incluir más métricas de sesgo.
Cuando esté listo para crear el informe de sesgo, elija Agregar.

Una vez generado, el informe le ofrece una visión general de las métricas de sesgo que ha seleccionado. Puede ver el informe de sesgo en cualquier momento desde la pestaña Análisis del flujo de datos.

Histograma

Utilice los histogramas para ver los recuentos de los valores de las características de una característica específica. Puede examinar las relaciones entre las características mediante la opción Colorear por.

Puede usar la característica Facetas para crear histogramas de una columna para cada valor de otra columna.

Gráfico de dispersión

Use la característica Gráfico de dispersión para examinar la relación entre las características. Para crear un gráfico de dispersión, seleccione una característica para representarla en el eje X y el eje Y. Ambas columnas deben ser columnas de tipo numérico.

Puede colorear los gráficos de dispersión mediante una columna adicional.

Además, puede ordenar los gráficos de dispersión por características.

Resumen de la tabla

Utilice el análisis Resumen de la tabla para resumir rápidamente los datos.

Para las columnas con datos numéricos, incluidos los logarítmicos y datos flotantes, el resumen de la tabla indica el número de entradas (recuento), mínimo (mín.), máximo (máx.), media y desviación estándar (DE) de cada columna.

Para las columnas con datos no numéricos, incluidas las columnas con datos de cadena, booleanos o de fecha y hora, el resumen de la tabla indica el número de entradas (recuento), el valor menos frecuente (mín.) y el valor más frecuente (máx.).

Modelo rápido

Utilice la visualización Modelo rápido para evaluar rápidamente los datos y generar puntuaciones de importancia para cada característica. Una Puntuación de importancia de la característica indica la utilidad de una característica para predecir una etiqueta objetivo. La puntuación de importancia de la característica está entre [0, 1] y un número más alto indica que la característica es más importante para todo el conjunto de datos. En la parte superior del gráfico de modelo rápido, hay una puntuación del modelo. Un problema de clasificación muestra una puntuación de F1. Un problema de regresión tiene una puntuación de error cuadrático medio (MSE).

Cuando crea un gráfico de modelo rápido, selecciona el conjunto de datos que desea evaluar y una etiqueta objetivo con la que desea comparar la importancia de las características. Data Wrangler hace lo siguiente:

Infiere los tipos de datos de la etiqueta objetivo y de cada característica del conjunto de datos seleccionado.
Determina el tipo de problema. En función del número de valores distintos de la columna de etiquetas, Data Wrangler determina si se trata de un problema de regresión o clasificación. Data Wrangler establece un umbral categórico en 100. Si hay más de 100 valores distintos en la columna de etiquetas, Data Wrangler lo clasifica como un problema de regresión; de lo contrario, se clasifica como un problema de clasificación.
Preprocesa las características y etiqueta los datos para el entrenamiento. El algoritmo utilizado requiere codificar las características con un tipo vectorial y codificar las etiquetas con un tipo doble.
Entrena un algoritmo de bosque aleatorio con un 70 % de datos. El de Spark RandomForestRegressorse usa para entrenar un modelo para problemas de regresión. RandomForestClassifierSe usa para entrenar un modelo para problemas de clasificación.
Evalúa un modelo de bosque aleatorio con el 30 % restante de los datos. Data Wrangler evalúa los modelos de clasificación con una puntuación F1 y evalúa los modelos de regresión con una puntuación MSE.
Calcula la importancia de cada característica mediante el método de importancia de Gini.

Fuga de objetivos

La fuga de objetivos se produce cuando hay datos en un conjunto de datos de entrenamiento de machine learning que están estrechamente correlacionados con la etiqueta objetivo, pero que no están disponibles en los datos de la vida real. Por ejemplo, es posible que tenga una columna en su conjunto de datos que sirva como proxy de la columna que desea predecir con su modelo.

Al utilizar el análisis Fuga de objetivos, especifica lo siguiente:

Objetivo: esta es la característica sobre la que desea que su modelo de machine learning pueda realizar predicciones.
Tipo de problema: este es el tipo de problema de machine learning en el que está trabajando. El tipo de problema puede ser de clasificación o regresión.
(Opcional) Características máximas: es la cantidad máxima de características que se pueden presentar en la visualización, que muestra las características clasificadas según su riesgo de convertirse en una fuga de objetivos.

Para la clasificación, el análisis de fuga de objetivos utiliza el área bajo la curva de la característica operativa de receptor, o curva AUC-ROC para cada columna, hasta las Características máximas. Para la regresión, utiliza un coeficiente de determinación o métrica R2.

La curva AUC-ROC proporciona una métrica predictiva, calculada individualmente para cada columna mediante la validación cruzada, en una muestra de hasta 1000 filas aproximadamente. Una puntuación de 1 indica una capacidad predictiva perfecta, lo que a menudo es señal de una fuga de objetivos. Una puntuación igual o inferior a 0,5 indica que la información de la columna no puede proporcionar, por sí sola, ninguna información útil para predecir el objetivo. Aunque puede ocurrir que una columna no sea informativa por sí sola, pero que sea útil para predecir el objetivo cuando se utiliza junto con otras características, una puntuación baja podría indicar que la característica es redundante.

Multicolinealidad

La multicolinealidad es una circunstancia en la que dos o más variables predictoras están relacionadas entre sí. Las variables predictoras son características del conjunto de datos que se utilizan para predecir una variable objetivo. Cuando tiene multicolinealidad, las variables predictoras no solo predicen la variable objetivo, sino que también se predicen entre sí.

Puede utilizar el factor de inflación de la varianza (VIF), el análisis de componentes principales (PCA) o la selección de características Lasso como medidas de la multicolinealidad de los datos. Para obtener más información, consulte lo siguiente.

Variance Inflation Factor (VIF)

El factor de inflación de la varianza (VIF) es una medida de la colinealidad entre pares de variables. Data Wrangler devuelve una puntuación de VIF como una medida de lo estrechamente que están relacionadas las variables entre sí. Una puntuación de VIF es un número positivo que es mayor o igual a 1.

Una puntuación de 1 significa que la variable no está correlacionada con las demás variables. Las puntuaciones superiores a 1 indican una correlación más alta.

En teoría, puede tener una puntuación VIF con un valor de infinito. Data Wrangler reduce las puntuaciones altas a 50. Si tiene una puntuación de VIF superior a 50, Data Wrangler establece la puntuación en 50.

Puede utilizar las siguientes pautas para interpretar las puntuaciones de VIF:

Una puntuación de VIF inferior o igual a 5 indica que las variables están moderadamente correlacionadas con las demás variables.
Una puntuación de VIF mayor o igual a 5 indica que las variables están altamente correlacionadas con las demás variables.

Principle Component Analysis (PCA)

El análisis de componentes principales (PCA) mide la varianza de los datos en diferentes direcciones en el espacio de características. El espacio de características consta de todas las variables predictoras que se utilizan para predecir la variable objetivo en el conjunto de datos.

Por ejemplo, si intenta predecir quién sobrevivió en el RMS Titanic tras chocar contra un iceberg, su espacio de características puede incluir la edad, el sexo y la tarifa que pagaron los pasajeros.

Desde el espacio de características, el PCA genera una lista ordenada de varianzas. Estas varianzas también se conocen como valores singulares. Los valores de la lista de varianzas son mayores o iguales a 0. Podemos usarlos para determinar cuánta multicolinealidad hay en nuestros datos.

Cuando los números son aproximadamente uniformes, los datos tienen muy pocas instancias de multicolinealidad. Cuando hay mucha variabilidad entre los valores, tenemos muchas instancias de multicolinealidad. Antes de realizar el PCA, Data Wrangler normaliza cada característica para que tenga una media de 0 y una desviación estándar de 1.

nota

En esta circunstancia, el PCA también puede denominarse descomposición en valores singulares (SVD).

Lasso feature selection

La selección de características Lasso utiliza la técnica de regularización L1 para incluir solo las características más predictivas en el conjunto de datos.

Tanto para la clasificación como para la regresión, la técnica de regularización genera un coeficiente para cada característica. El valor absoluto del coeficiente proporciona una puntuación de importancia para la característica. Una puntuación de importancia más alta indica que es más predictiva de la variable objetivo. Un método habitual de selección de características consiste en utilizar todas las características que tienen un coeficiente lasso distinto de cero.

anchor anchor anchor

Una puntuación de 1 significa que la variable no está correlacionada con las demás variables. Las puntuaciones superiores a 1 indican una correlación más alta.

Puede utilizar las siguientes pautas para interpretar las puntuaciones de VIF:

Una puntuación de VIF inferior o igual a 5 indica que las variables están moderadamente correlacionadas con las demás variables.
Una puntuación de VIF mayor o igual a 5 indica que las variables están altamente correlacionadas con las demás variables.

Detección de anomalías en los datos de serie temporal

Puede utilizar la visualización de la detección de anomalías para ver los valores atípicos en los datos de serie temporal. Para entender qué es lo que determina una anomalía, debe entender que descomponemos la serie temporal en un término predicho y un término de error. La estacionalidad y la tendencia de la serie temporal se consideran el término predicho. Los residuos se tratan como el término de error.

Para el término de error, se especifica un umbral como el número de desviaciones estándar que el residuo puede alejarse de la media para que se considere una anomalía. Por ejemplo, puede especificar un umbral de 3 desviaciones estándar. Cualquier residuo que esté a más de 3 desviaciones estándar de la media es una anomalía.

Puede utilizar el siguiente procedimiento para realizar un análisis de Detección de anomalías.

Abra el flujo de datos de Data Wrangler.
En el flujo de datos, en Tipos de datos, elija el signo + y seleccione Agregar análisis.
En Tipo de análisis, elija Serie temporal.
En Visualización, elija Detección de anomalías.
En Umbral de anomalía, elija el umbral para que un valor se considera una anomalía.
Elija Vista previa para generar una vista previa del análisis.
Elija Agregar para agregar la transformación al flujo de datos de Data Wrangler.

Descomposición de tendencias estacionales en datos de serie temporal

Puede determinar si hay estacionalidad en sus datos de serie temporal mediante la visualización de la descomposición de tendencias estacionales. Para realizar la descomposición, se usa el método STL (descomposición de tendencias estacionales mediante LOESS). La serie temporal se descompone en sus componentes estacionales, tendenciales y residuales. La tendencia refleja la progresión a largo plazo de la serie. El componente estacional es una señal que se repite en un período de tiempo. Tras eliminar los componentes estacionales y tendenciales de la serie temporal, se obtiene el residuo.

Puede utilizar el siguiente procedimiento para realizar un análisis de descomposición de la tendencia estacional.

Abra el flujo de datos de Data Wrangler.
En el flujo de datos, en Tipos de datos, elija el signo + y seleccione Agregar análisis.
En Tipo de análisis, elija Serie temporal.
En Visualización, elija Descomposición de tendencias estacionales.
En Umbral de anomalía, elija el umbral para que un valor se considera una anomalía.
Elija Vista previa para generar una vista previa del análisis.
Elija Agregar para agregar la transformación al flujo de datos de Data Wrangler.

Creación de visualizaciones personalizadas

Puede agregar un análisis al flujo de Data Wrangler para crear una visualización personalizada. Su conjunto de datos, con todas las transformaciones que ha aplicado, está disponible como Pandas DataFrame. Data Wrangler usa la variable df para almacenar el marco de datos. Para acceder al marco de datos, debe llamar a la variable.

Debe proporcionar la variable de salida, chart, para almacenar un gráfico de salida de Altair. Por ejemplo, puede utilizar el bloque de código siguiente para crear un histograma personalizado con el conjunto de datos del Titanic.


import altair as alt
df = df.iloc[:30]
df = df.rename(columns={"Age": "value"})
df = df.assign(count=df.groupby('value').value.transform('count'))
df = df[["value", "count"]]
base = alt.Chart(df)
bar = base.mark_bar().encode(x=alt.X('value', bin=True, axis=None), y=alt.Y('count'))
rule = base.mark_rule(color='red').encode(
    x='mean(value):Q',
    size=alt.value(5))
chart = bar + rule

Para crear una visualización personalizada:

Junto al nodo que contiene la transformación que quiere visualizar, elija el signo +.
Elija Agregar análisis.
En Tipo de análisis, elija Visualización personalizada.
En Nombre del análisis, especifique un nombre.
Introduzca el código en el cuadro de códigos.
Elija Vista previa para obtener una vista previa de la visualización.
Elija Guardar para agregar la visualización.

Si no sabe cómo usar el paquete de visualización de Altair en Python, puede usar fragmentos de código personalizados para ayudarle a empezar.

Data Wrangler tiene una colección de fragmentos de visualización con capacidad de búsqueda. Para utilizar un fragmento de visualización, elija Buscar fragmentos de ejemplo y especifique una consulta en la barra de búsqueda.

En el siguiente ejemplo, se utiliza el fragmento de código Gráfico de dispersión discretizado. Traza un histograma para 2 dimensiones.

Los fragmentos incluyen comentarios para ayudarle a entender los cambios que debe realizar en el código. Por lo general, es necesario especificar los nombres de las columnas del conjunto de datos en el código.



import altair as alt

# Specify the number of top rows for plotting
rows_number = 1000
df = df.head(rows_number)  
# You can also choose bottom rows or randomly sampled rows
# df = df.tail(rows_number)
# df = df.sample(rows_number)


chart = (
    alt.Chart(df)
    .mark_circle()
    .encode(
        # Specify the column names for binning and number of bins for X and Y axis
        x=alt.X("col1:Q", bin=alt.Bin(maxbins=20)),
        y=alt.Y("col2:Q", bin=alt.Bin(maxbins=20)),
        size="count()",
    )
)

# :Q specifies that label column has quantitative type.
# For more details on Altair typing refer to
# https://altair-viz.github.io/user_guide/encoding.html#encoding-data-types

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Eliminación de un paso del flujo de datos

Transformación de datos

En esta página

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Realización de análisis de datos exploratorio (EDA)

nota

Obtención de información sobre los datos y la calidad de los datos

Para crear un informe de información y calidad de datos

nota

Temas

Resumen

Columna objetivo

Modelo rápido

Resumen de características

Muestras

Definiciones

Informe de sesgo

Histograma

Gráfico de dispersión

Resumen de la tabla

Modelo rápido

Fuga de objetivos

Multicolinealidad

nota

Detección de anomalías en los datos de serie temporal

Descomposición de tendencias estacionales en datos de serie temporal

Creación de visualizaciones personalizadas

Para crear una visualización personalizada:

En esta página

Related resources

¿Le ha servido de ayuda esta página?

Related resources

Tema siguiente:

Tema anterior:

¿Necesita ayuda?