Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Realice un análisis exploratorio de datos () EDA
Data Wrangler incluye análisis integrados que le ayudan a generar visualizaciones y análisis de datos con unos pocos clics. También puede crear análisis personalizados con su propio código.
Para agregar un análisis a un marco de datos, seleccione un paso del flujo de datos y, a continuación, elija Agregar análisis. Para acceder a un análisis que haya creado, seleccione el paso que contiene el análisis y seleccione el análisis.
Los análisis se generan con una muestra de hasta 200 000 filas de su conjunto de datos, y usted puede configurar el tamaño de la muestra. Para obtener más información sobre cómo cambiar el tamaño de la muestra del flujo de datos, consulteEdite la configuración de muestreo del flujo de datos.
nota
Los análisis están optimizados para datos con 1000 columnas o menos. Es posible que experimente cierta latencia al generar análisis de datos con columnas adicionales.
Puede agregar los análisis siguientes a un marco de datos:
-
Visualizaciones de datos, incluidos histogramas y gráficos de dispersión.
-
Un resumen rápido del conjunto de datos, que incluye el número de entradas, los valores mínimo y máximo (para los datos numéricos) y las categorías más y menos frecuentes (para los datos categóricos).
-
Un modelo rápido del conjunto de datos, que se puede utilizar para generar una puntuación de importancia para cada característica.
-
Un informe de fuga de objetivos, que puede utilizar para determinar si una o más características están estrechamente correlacionadas con la característica objetivo.
-
Una visualización personalizada con su propio código.
Utilice las siguientes secciones para obtener más información sobre estas opciones.
Obtenga información sobre los datos y su calidad
Utilice el Informe de información y calidad de los datos para realizar un análisis de los datos que ha importado a Data Wrangler. Se recomienda crear el informe después de importar el conjunto de datos. Puede utilizar informe como ayuda para limpiar y procesar los datos. Le proporciona información como el número de valores ausentes y el número de valores atípicos. Si tiene problemas con los datos, como una fuga de objetivos o un desequilibrio, el informe de información puede indicarle esos problemas.
Utilice el siguiente procedimiento para crear un informe de información y calidad de los datos. Se supone que ya ha importado un conjunto de datos a su flujo de Data Wrangler.
Para crear un informe de información y calidad de datos
-
Elija el icono de puntos suspensivos situado junto a un nodo de su flujo de Data Wrangler.
-
Seleccione Obtener información sobre los datos.
-
Para el tipo de análisis, selecciona Informe de información y calidad de los datos.
-
En Nombre del análisis, especifique un nombre para el informe de información.
-
En Tipo de problema, especifique Regresión o Clasificación.
-
En la columna de destino, especifique la columna de destino.
-
Para Tamaño de los datos, especifique uno de los siguientes valores:
-
Conjunto de datos muestreado: utiliza la muestra interactiva del flujo de datos, que puede contener hasta 200 000 filas del conjunto de datos. Para obtener información sobre cómo editar el tamaño de la muestra, consulteEdite la configuración de muestreo del flujo de datos.
-
Conjunto de datos completo: utiliza el conjunto de datos completo de la fuente de datos para crear el informe.
nota
Para crear un informe de información y calidad de los datos sobre el conjunto de datos completo se utiliza un trabajo SageMaker de procesamiento de Amazon. Un trabajo de SageMaker procesamiento proporciona los recursos informáticos adicionales necesarios para obtener información sobre todos sus datos. Para obtener más información sobre los trabajos de SageMaker procesamiento, consulteCargas de trabajo de transformación de datos con procesamiento SageMaker .
-
-
Seleccione Crear.
Los siguientes temas muestran las secciones del informe:
Puede descargar el informe o verlo en línea. Para descargar el informe, pulse el botón de descarga en la esquina superior derecha de la pantalla.
Resumen
El informe de análisis contiene un breve resumen de los datos que incluye información general, como valores ausentes, valores no válidos, tipos de características, recuentos de valores atípicos, etc. También puede incluir advertencias de alta gravedad que indiquen posibles problemas con los datos. Se recomienda investigar las advertencias.
Columna objetivo
Al crear el informe de información y calidad de los datos, Data Wrangler le ofrece la opción de seleccionar una columna de destino. La columna objetivo es una columna que intenta predecir. Cuando se elige una columna objetivo, Data Wrangler crea automáticamente un análisis de la columna objetivo. También clasifica las características en el orden de su poder predictivo. Al seleccionar una columna objetivo, debe especificar si va a intentar resolver un problema de regresión o de clasificación.
Para la clasificación, Data Wrangler muestra una tabla y un histograma de las clases más frecuentes. Una clase es una categoría. También presenta observaciones, o filas, con un valor objetivo que falta o que no es válido.
Para la regresión, Data Wrangler muestra un histograma de todos los valores de la columna objetivo. También presenta observaciones, o filas, con un valor objetivo que falta, que no es válido o que es atípico.
Modelo rápido
El Modelo rápido proporciona una estimación de la calidad prevista de un modelo que se entrena con sus datos.
Data Wrangler divide los datos en pliegues de entrenamiento y validación. Utiliza el 80 % de las muestras para el entrenamiento y el 20 % de los valores para la validación. Para la clasificación, la muestra se divide estratificadamente. Para una división estratificada, cada partición de datos tiene la misma proporción de etiquetas. En lo que se refiere a los problemas de clasificación, es importante tener la misma proporción de etiquetas entre los pliegues de entrenamiento y de clasificación. Data Wrangler entrena el XGBoost modelo con los hiperparámetros predeterminados. Aplica una parada temprana a los datos de validación y realiza un preprocesamiento mínimo de la característica.
En el caso de los modelos de clasificación, Data Wrangler devuelve un resumen del modelo y una matriz de confusión.
Para obtener más información sobre la información que devuelve el resumen del modelo de clasificación, consulte. Definiciones
Una matriz de confusión le ofrece la siguiente información:
-
El número de veces que la etiqueta predicha coincide con la etiqueta verdadera.
-
El número de veces que la etiqueta predicha no coincide con la etiqueta verdadera.
La etiqueta verdadera representa una observación real de los datos. Por ejemplo, si utiliza un modelo para detectar transacciones fraudulentas, la etiqueta verdadera representa una transacción que en realidad es fraudulenta o no fraudulenta. La etiqueta predicha representa la etiqueta que el modelo asigna a los datos.
Puede usar la matriz de confusión para ver lo bien que predice el modelo la presencia o ausencia de una condición. Si predice transacciones fraudulentas, puede utilizar la matriz de confusión para hacerse una idea de la sensibilidad y la especificidad del modelo. La sensibilidad se refiere a la capacidad del modelo de detectar transacciones fraudulentas. La especificidad se refiere a la capacidad del modelo de evitar detectar transacciones no fraudulentas como fraudulentas.
Resumen de características
Al especificar una columna objetivo, Data Wrangler ordena las características por su poder de predicción. La potencia de predicción se mide en los datos después de dividirlos en un 80% de entrenamiento y un 20% de pliegues de validación. Data Wrangler encaja un modelo para cada característica independiente en el pliegue de entrenamiento. Aplica un preprocesamiento mínimo de la característica y mide el rendimiento de la predicción en los datos de validación.
Normaliza las puntuaciones al rango [0,1]. Las puntuaciones de predicción más altas indican columnas que son más útiles para predecir el objetivo por sí mismas. Las puntuaciones más bajas apuntan a columnas que no predicen la columna objetivo.
No es habitual que una columna que no sea predictiva por sí sola lo sea cuando se usa junto con otras columnas. Puede utilizar con confianza las puntuaciones de predicción para determinar si una característica de su conjunto de datos es predictiva.
Una puntuación baja suele indicar que la característica es redundante. Una puntuación de 1 implica una capacidad predictiva perfecta, lo que a menudo es señal de una fuga de objetivos. La fuga de objetivos suele producirse cuando el conjunto de datos contiene una columna que no está disponible en el momento de la predicción. Por ejemplo, podría ser un duplicado de la columna objetivo.
Muestras
Data Wrangler proporciona información sobre si sus muestras son anómalas o si hay duplicados en el conjunto de datos.
Data Wrangler detecta muestras anómalas mediante el algoritmo de bosque de aislamiento. El bosque de aislamiento asocia una puntuación de anomalía a cada muestra (fila) del conjunto de datos. Las puntuaciones de anomalías bajas indican muestras anómalas. Las puntuaciones altas se asocian a muestras no anómalas. Las muestras con una puntuación de anomalía negativa suelen considerarse anómalas y las muestras con una puntuación de anomalía positiva se consideran no anómalas.
Al observar una muestra que podría ser anómala, se recomienda prestar atención a los valores inusuales. Por ejemplo, es posible que tenga valores anómalos que se deban a errores en la recopilación y el procesamiento de los datos. El siguiente es un ejemplo de las muestras más anómalas según la implementación del algoritmo de bosque de aislamiento de Data Wrangler. Se recomienda utilizar el conocimiento del dominio y la lógica empresarial al examinar las muestras anómalas.
Data Wrangler detecta filas duplicadas y calcula la proporción de filas duplicadas en los datos. Algunos orígenes de datos pueden incluir duplicados válidos. Otros orígenes de datos pueden tener duplicados que indiquen problemas en la recopilación de los datos. Las muestras duplicadas que resultan de una recopilación de datos defectuosa podrían interferir con los procesos de machine learning, que se basan en dividir los datos en grupos independientes de entrenamiento y validación.
Los siguientes son los elementos del informe de información que pueden verse afectados por la duplicación de muestras:
-
Modelo rápido
-
Estimación de la potencia predictiva
-
Ajuste automático de hiperparámetros
Puede eliminar las muestras duplicadas del conjunto de datos mediante la transformación Eliminar duplicados en Administrar filas. Data Wrangler le muestra las filas que se duplican con más frecuencia.
Definiciones
A continuación, se muestran las definiciones de los términos técnicos que se utilizan en el informe de información de datos.
Informe de sesgo
SageMaker Canvas proporciona el informe de sesgo en Data Wrangler para ayudar a descubrir posibles sesgos en sus datos. El informe de sesgo analiza la relación entre la columna objetivo (etiqueta) y una columna que usted cree que podría contener sesgos (variable de faceta). Por ejemplo, si intenta predecir la conversión de clientes, la variable faceta puede ser la edad del cliente. El informe de sesgo puede ayudarte a determinar si tus datos están sesgados o no hacia un grupo de edad determinado.
Para generar un informe de sesgo en Canvas, haga lo siguiente:
En su flujo de datos en Data Wrangler, elija el icono Más opciones ( ) situado junto a un nodo del flujo.
En el menú contextual, selecciona Obtener información sobre los datos.
Se abre el panel lateral Crear análisis. En el menú desplegable Tipo de análisis, seleccione Informe de sesgo.
En el campo Nombre del análisis, introduzca un nombre para el informe de sesgo.
En el menú desplegable Seleccione la columna que su modelo predice (objetivo), seleccione su columna objetivo.
En ¿La columna pronosticada es un valor o un umbral? , seleccione Valor si la columna de destino tiene valores categóricos o Umbral si tiene valores numéricos.
En Valor previsto (o Umbral previsto, según lo que haya seleccionado en el paso anterior), introduzca el valor o los valores de la columna objetivo que correspondan a un resultado positivo. Por ejemplo, si predice la conversión de clientes, su valor podría
yes
indicar que un cliente se convirtió.En el menú desplegable Seleccione la columna que desea analizar para detectar sesgos, seleccione la columna que crea que podría contener sesgos, también conocida como variable faceta.
En ¿Su columna es un valor o un umbral? , seleccione Valor si la variable de faceta tiene valores categóricos o Umbral si tiene valores numéricos.
En los valores de columna para analizar el sesgo (o en el umbral de la columna para analizar el sesgo, según lo que haya seleccionado en el paso anterior), introduzca el valor o los valores que desee analizar para detectar un posible sesgo. Por ejemplo, si estás comprobando si hay prejuicios en contra de los clientes mayores de cierta edad, utiliza el principio de ese rango de edad como límite.
En Elige métricas de sesgo, selecciona las métricas de sesgo que te gustaría incluir en tu informe de sesgo. Coloca el cursor sobre los íconos de información para obtener más información sobre cada métrica.
(Opcional) Cuando aparezca la opción ¿Desea analizar métricas adicionales? , seleccione Sí para ver e incluir más métricas de sesgo.
Cuando esté listo para crear el informe de sesgo, elija Agregar.
Una vez generado, el informe le ofrece una visión general de las métricas de sesgo que ha seleccionado. Puede ver el informe de sesgo en cualquier momento desde la pestaña Análisis de su flujo de datos.
Histograma
Utilice los histogramas para ver los recuentos de los valores de las características de una característica específica. Puede examinar las relaciones entre las características mediante la opción Colorear por.
Puede usar la característica Facetas para crear histogramas de una columna para cada valor de otra columna.
Gráfico de dispersión
Use la característica Gráfico de dispersión para examinar la relación entre las características. Para crear un gráfico de dispersión, seleccione una característica para representarla en el eje X y el eje Y. Ambas columnas deben ser columnas de tipo numérico.
Puede colorear los gráficos de dispersión mediante una columna adicional.
Además, puede ordenar los gráficos de dispersión por características.
Resumen de la tabla
Utilice el análisis Resumen de la tabla para resumir rápidamente los datos.
Para las columnas con datos numéricos, incluidos los logarítmicos y datos flotantes, el resumen de la tabla indica el número de entradas (recuento), mínimo (mín.), máximo (máx.), media y desviación estándar (DE) de cada columna.
Para las columnas con datos no numéricos, incluidas las columnas con datos de cadena, booleanos o de fecha y hora, el resumen de la tabla indica el número de entradas (recuento), el valor menos frecuente (mín.) y el valor más frecuente (máx.).
Modelo rápido
Utilice la visualización Modelo rápido para evaluar rápidamente los datos y generar puntuaciones de importancia para cada característica. Una Puntuación de importancia de la característica
Cuando crea un gráfico de modelo rápido, selecciona el conjunto de datos que desea evaluar y una etiqueta objetivo con la que desea comparar la importancia de las características. Data Wrangler hace lo siguiente:
-
Infiere los tipos de datos de la etiqueta objetivo y de cada característica del conjunto de datos seleccionado.
-
Determina el tipo de problema. En función del número de valores distintos de la columna de etiquetas, Data Wrangler determina si se trata de un problema de regresión o clasificación. Data Wrangler establece un umbral categórico en 100. Si hay más de 100 valores distintos en la columna de etiquetas, Data Wrangler lo clasifica como un problema de regresión; de lo contrario, se clasifica como un problema de clasificación.
-
Preprocesa las características y etiqueta los datos para el entrenamiento. El algoritmo utilizado requiere codificar las características con un tipo vectorial y codificar las etiquetas con un tipo doble.
-
Entrena un algoritmo de bosque aleatorio con un 70 % de datos. La de Spark RandomForestRegressor
se usa para entrenar un modelo para problemas de regresión. RandomForestClassifier Se usa para entrenar un modelo para problemas de clasificación. -
Evalúa un modelo de bosque aleatorio con el 30 % restante de los datos. Data Wrangler evalúa los modelos de clasificación mediante una puntuación F1 y evalúa los modelos de regresión mediante una puntuación. MSE
-
Calcula la importancia de cada característica mediante el método de importancia de Gini.
Fuga objetivo
La fuga de objetivos se produce cuando hay datos en un conjunto de datos de entrenamiento de machine learning que están estrechamente correlacionados con la etiqueta objetivo, pero que no están disponibles en los datos de la vida real. Por ejemplo, es posible que tenga una columna en su conjunto de datos que sirva como proxy de la columna que desea predecir con su modelo.
Al utilizar el análisis Fuga de objetivos, especifica lo siguiente:
-
Objetivo: esta es la característica sobre la que desea que su modelo de machine learning pueda realizar predicciones.
-
Tipo de problema: este es el tipo de problema de machine learning en el que está trabajando. El tipo de problema puede ser de clasificación o regresión.
-
(Opcional) Características máximas: es la cantidad máxima de características que se pueden presentar en la visualización, que muestra las características clasificadas según su riesgo de convertirse en una fuga de objetivos.
Para la clasificación, el análisis de fugas objetivo utiliza el área por debajo de la característica operativa del receptorAUC, o ROC curva para cada columna, hasta las características máximas. Para la regresión, utiliza un coeficiente de determinación o métrica R2.
La ROC curva AUC - proporciona una métrica predictiva, calculada individualmente para cada columna mediante la validación cruzada, en una muestra de hasta 1000 filas aproximadamente. Una puntuación de 1 indica una capacidad predictiva perfecta, lo que a menudo es señal de una fuga de objetivos. Una puntuación igual o inferior a 0,5 indica que la información de la columna no puede proporcionar, por sí sola, ninguna información útil para predecir el objetivo. Aunque puede ocurrir que una columna no sea informativa por sí sola, pero que sea útil para predecir el objetivo cuando se utiliza junto con otras características, una puntuación baja podría indicar que la característica es redundante.
Multicolinealidad
La multicolinealidad es una circunstancia en la que dos o más variables predictoras están relacionadas entre sí. Las variables predictoras son características del conjunto de datos que se utilizan para predecir una variable objetivo. Cuando tiene multicolinealidad, las variables predictoras no solo predicen la variable objetivo, sino que también se predicen entre sí.
Puede utilizar el factor de inflación de la varianza (VIF), el análisis de componentes principales (PCA) o la selección de funciones Lasso como medidas de la multicolinealidad de los datos. Para obtener más información, consulte lo siguiente.
Detecta anomalías en los datos de series temporales
Puede utilizar la visualización de la detección de anomalías para ver los valores atípicos en los datos de serie temporal. Para entender qué es lo que determina una anomalía, debe entender que descomponemos la serie temporal en un término predicho y un término de error. La estacionalidad y la tendencia de la serie temporal se consideran el término predicho. Los residuos se tratan como el término de error.
Para el término de error, se especifica un umbral como el número de desviaciones estándar que el residuo puede alejarse de la media para que se considere una anomalía. Por ejemplo, puede especificar un umbral de 3 desviaciones estándar. Cualquier residuo que esté a más de 3 desviaciones estándar de la media es una anomalía.
Puede utilizar el siguiente procedimiento para realizar un análisis de Detección de anomalías.
-
Abra el flujo de datos de Data Wrangler.
-
En el flujo de datos, en Tipos de datos, elija el signo + y seleccione Agregar análisis.
-
En Tipo de análisis, elija Serie temporal.
-
En Visualización, elija Detección de anomalías.
-
En Umbral de anomalía, elija el umbral para que un valor se considera una anomalía.
-
Elija Vista previa para generar una vista previa del análisis.
-
Elija Agregar para agregar la transformación al flujo de datos de Data Wrangler.
Descomposición de tendencias estacionales en los datos de series temporales
Puede determinar si hay estacionalidad en sus datos de serie temporal mediante la visualización de la descomposición de tendencias estacionales. Usamos el método STL (descomposición por tendencias estacionalesLOESS) para realizar la descomposición. La serie temporal se descompone en sus componentes estacionales, tendenciales y residuales. La tendencia refleja la progresión a largo plazo de la serie. El componente estacional es una señal que se repite en un período de tiempo. Tras eliminar los componentes estacionales y tendenciales de la serie temporal, se obtiene el residuo.
Puede utilizar el siguiente procedimiento para realizar un análisis de descomposición de la tendencia estacional.
-
Abra el flujo de datos de Data Wrangler.
-
En el flujo de datos, en Tipos de datos, elija el signo + y seleccione Agregar análisis.
-
En Tipo de análisis, elija Serie temporal.
-
En Visualización, elija Descomposición de tendencias estacionales.
-
En Umbral de anomalía, elija el umbral para que un valor se considera una anomalía.
-
Elija Vista previa para generar una vista previa del análisis.
-
Elija Agregar para agregar la transformación al flujo de datos de Data Wrangler.
Crea visualizaciones personalizadas
Puede agregar un análisis al flujo de Data Wrangler para crear una visualización personalizada. Tu conjunto de datos, con todas las transformaciones que has aplicado, está disponible como DataFramePandasdf
para almacenar el marco de datos. Para acceder al marco de datos, debe llamar a la variable.
Debe proporcionar la variable de salida, chart
, para almacenar un gráfico de salida de Altair
import altair as alt df = df.iloc[:30] df = df.rename(columns={"Age": "value"}) df = df.assign(count=df.groupby('value').value.transform('count')) df = df[["value", "count"]] base = alt.Chart(df) bar = base.mark_bar().encode(x=alt.X('value', bin=True, axis=None), y=alt.Y('count')) rule = base.mark_rule(color='red').encode( x='mean(value):Q', size=alt.value(5)) chart = bar + rule
Para crear una visualización personalizada:
-
Junto al nodo que contiene la transformación que quiere visualizar, elija el signo +.
-
Elija Agregar análisis.
-
En Tipo de análisis, elija Visualización personalizada.
-
En Nombre del análisis, especifique un nombre.
-
Introduzca el código en el cuadro de códigos.
-
Elija Vista previa para obtener una vista previa de la visualización.
-
Elija Guardar para agregar la visualización.
Si no sabe cómo usar el paquete de visualización de Altair en Python, puede usar fragmentos de código personalizados para ayudarle a empezar.
Data Wrangler tiene una colección de fragmentos de visualización con capacidad de búsqueda. Para utilizar un fragmento de visualización, elija Buscar fragmentos de ejemplo y especifique una consulta en la barra de búsqueda.
En el siguiente ejemplo, se utiliza el fragmento de código Gráfico de dispersión discretizado. Traza un histograma para 2 dimensiones.
Los fragmentos incluyen comentarios para ayudarle a entender los cambios que debe realizar en el código. Por lo general, es necesario especificar los nombres de las columnas del conjunto de datos en el código.
import altair as alt # Specify the number of top rows for plotting rows_number = 1000 df = df.head(rows_number) # You can also choose bottom rows or randomly sampled rows # df = df.tail(rows_number) # df = df.sample(rows_number) chart = ( alt.Chart(df) .mark_circle() .encode( # Specify the column names for binning and number of bins for X and Y axis x=alt.X("col1:Q", bin=alt.Bin(maxbins=20)), y=alt.Y("col2:Q", bin=alt.Bin(maxbins=20)), size="count()", ) ) # :Q specifies that label column has quantitative type. # For more details on Altair typing refer to # https://altair-viz.github.io/user_guide/encoding.html#encoding-data-types