Prepare los datos para la creación de modelos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prepare los datos para la creación de modelos

nota

Ahora puede realizar una preparación avanzada de datos en SageMaker Canvas con Data Wrangler, que le proporciona una interfaz de lenguaje natural y más de 300 transformaciones integradas. Para obtener más información, consulte Preparación de los datos.

Es posible que su conjunto de datos de machine learning requiera la preparación de los datos antes de crear el modelo. Es posible que quiera limpiar los datos debido a varios problemas, entre los que se pueden incluir valores faltantes o valores atípicos, y realizar ingeniería de características para mejorar la precisión del modelo. Amazon SageMaker Canvas proporciona transformaciones de datos de aprendizaje automático con las que puede limpiar, transformar y preparar los datos para la creación de modelos. Puede utilizar estas transformaciones en sus conjuntos de datos sin necesidad de código. SageMaker Canvas agrega las transformaciones que usa a la receta del modelo, que es un registro de la preparación de datos realizada con los datos antes de crear el modelo. Cualquier transformación de datos que utilice solo modifica los datos de entrada para la creación del modelo y no modifica el origen de datos original.

La vista previa de su conjunto de datos muestra las primeras 100 filas del conjunto de datos. Si su conjunto de datos tiene más de 20 000 filas, Canvas toma una muestra aleatoria de 20 000 filas y obtiene una vista previa de las 100 primeras filas de esa muestra. Solo puede buscar y especificar valores de las filas previsualizadas, y la funcionalidad de filtrado solo filtra las filas previsualizadas y no todo el conjunto de datos.

Las siguientes transformaciones están disponibles en SageMaker Canvas para que pueda preparar los datos para la construcción.

nota

Solo puede usar transformaciones avanzadas para modelos basados en conjuntos de datos tabulares. También se excluyen los modelos de predicción de texto de varias categorías.

Exclusión de columnas

Puede excluir una columna de la compilación del modelo colocándola en la pestaña Construir de la aplicación SageMaker Canvas. Deseleccione la columna que quiera excluir y no se incluirá al crear el modelo.

nota

Si elimina columnas y, a continuación, hace predicciones por lotes con su modelo, SageMaker Canvas vuelve a agregar las columnas eliminadas al conjunto de datos de salida disponible para su descarga. Sin embargo, SageMaker Canvas no vuelve a agregar las columnas desplegadas para los modelos de series temporales.

Filtrado de filas

La funcionalidad de filtrado filtra las filas previsualizadas (las 100 primeras filas del conjunto de datos) según las condiciones que especifique. El filtrado de filas crea una vista previa temporal de los datos y no afecta a la creación del modelo. Puede filtrar para obtener una vista previa de las filas a las que les falten valores, contengan valores atípicos o cumplan condiciones personalizadas en la columna que elija.

Filtrado de filas por valores faltantes

Los valores faltantes son frecuentes en los conjuntos de datos de machine learning. Si tiene filas con valores nulos o vacíos en determinadas columnas, puede que desee filtrarlas y obtener una vista previa de esas filas.

Para filtrar los valores faltantes de los datos de la vista previa, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, elija Filtrar por filas ( Filter icon in the SageMaker Canvas application. ).

  2. Elija la Columna en la que desee comprobar si faltan valores.

  3. Para la Operación, elija Faltante.

SageMaker Canvas filtra las filas que contienen valores faltantes en la columna que ha seleccionado y proporciona una vista previa de las filas filtradas.

Captura de pantalla de la operación de filtrado por valores faltantes en la aplicación SageMaker Canvas.

Filtrado de filas por valores atípicos

Los valores atípicos, o valores poco frecuentes en la distribución y el rango de los datos, pueden afectar negativamente a la precisión del modelo y prolongar los tiempos de construcción. SageMaker Canvas le permite detectar y filtrar filas que contienen valores atípicos en columnas numéricas. Puede elegir definir los valores atípicos con desviaciones estándar o con un rango personalizado.

Para filtrar los valores atípicos en sus datos, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, elija Filtrar por filas ( Filter icon in the SageMaker Canvas application. ).

  2. Elija la Columna en la que desee comprobar si hay valores atípicos.

  3. Para la Operación, elija Atípico.

  4. Establezca el Rango de valores atípicos en Desviación estándar o Rango personalizado.

  5. Si elige Desviación estándar, especifique un valor de SD (desviación estándar) comprendido entre 1 y 3. Si elige Rango personalizado, seleccione Percentil o Número y, a continuación, especifique los valores Mín y Máx.

La opción Desviación estándar detecta y filtra los valores atípicos en las columnas numéricas mediante la media y la desviación estándar. Usted especifica el número de desviaciones estándar que debe separar a un valor de la media para que se considere un valor atípico. Por ejemplo, si especifica 3 para la SD, un valor debe estar a más de 3 desviaciones estándar de la media para que se considere un valor atípico.

La opción Rango personalizado detecta y filtra los valores atípicos en las columnas numéricas mediante valores mínimos y máximos. Utilice este método si conoce los valores límite que delimitan los valores atípicos. Puede establecer el Tipo de rango en Percentil o Número. Si elige Percentil, los valores Mín y Máx deben ser el mínimo y el máximo del rango de percentiles (0-100) que desee permitir. Si elige Número, los valores Mín y Máx deben ser los valores numéricos mínimos y máximos que desee filtrar en los datos.

Captura de pantalla de la operación de filtrado por valores atípicos en la aplicación SageMaker Canvas.

Filtrado de las filas por valores personalizados

Puede filtrar por las filas con valores que cumplan condiciones personalizadas. Por ejemplo, es posible que desee obtener una vista previa de las filas que tengan un valor de precio superior a 100 antes de eliminarlas. Con esta funcionalidad, puede filtrar las filas que superen el umbral que haya establecido y obtener una vista previa de los datos filtrados.

Para utilizar la función de filtrado personalizado, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, elija Filtrar por filas ( Filter icon in the SageMaker Canvas application. ).

  2. Elija la Columna en la que desee comprobar.

  3. Seleccione el tipo de Operación que desee utilizar y, a continuación, especifique los valores de la condición seleccionada.

Para la Operación, puede elegir una de las siguientes opciones: Tenga en cuenta que las operaciones disponibles dependen del tipo de datos de la columna que elija. Por ejemplo, no puede crear una operación is greater than para una columna que contenga valores de texto.

Operación Tipos de datos admitidos Tipo de característica admitida Función

Es igual que

Numérico, texto

Binario, categórico

Filtra las filas en las que el valor de la Columna sea igual a los valores que especifique.

No es igual a

Numérico, texto

Binario, categórico

Filtra las filas en las que el valor de la Columna no sea igual a los valores que especifique.

Es menor que

Numérico

N/A

Filtra las filas en las que el valor de la Columna es inferior al valor especificado.

Es menor o igual que

Numérico

N/A

Filtra las filas en las que el valor de la Columna es inferior o igual que el valor especificado.

Es mayor que

Numérico

N/A

Filtra las filas en las que el valor de la Columna es mayor que el valor especificado.

Es mayor o igual que

Numérico

N/A

Filtra las filas en las que el valor de la Columna es mayor o igual que el valor especificado.

Está entre

Numérico

N/A

Filtra las filas en las que el valor de la Columna es igual a o está entre los dos valores que especifique.

Contiene

Texto

Categórico

Filtra las filas en las que el valor de la Columna contenga los valores que especifique.

Empieza por

Texto

Categórico

Filtra las filas en las que el valor de la Columna comienza por los valores que especifique.

Acaba con

Categórico

Categórico

Filtra las filas en las que el valor de la Columna termina con un valor que especifique.

Después de configurar la operación de filtrado, SageMaker Canvas actualiza la vista previa del conjunto de datos para mostrarle los datos filtrados.

Captura de pantalla de la operación de filtrado por valores personalizados en la aplicación SageMaker Canvas.

Funciones y operadores

Puede utilizar funciones y operadores matemáticos para explorar y distribuir los datos. Puede utilizar las funciones compatibles con SageMaker Canvas o crear su propia fórmula con los datos existentes y crear una nueva columna con el resultado de la fórmula. Por ejemplo, puede agregar los valores correspondientes de dos columnas y guardar el resultado en una nueva columna.

Puede agrupar sentencias para crear funciones más complejas. A continuación se muestran algunos ejemplos de funciones anidadas que podría utilizar.

  • Para calcularBMI, puede usar la funciónweight / (height ^ 2).

  • Para clasificar las edades, puede utilizar la función Case(age < 18, 'child', age < 65, 'adult', 'senior').

Puede especificar las funciones en la etapa de preparación de los datos antes de crear el modelo. Para usar una función, haga lo siguiente.

  • En la pestaña Crear de la aplicación SageMaker Canvas, elija Ver todo y, a continuación, elija Fórmula personalizada para abrir el panel de fórmulas personalizadas.

  • En el panel de Fórmula personalizada, puede elegir una Fórmula para agregarla a su Receta de modelo. Cada fórmula se aplica a todos los valores de las columnas que especifique. Para las fórmulas que aceptan dos o más columnas como argumentos, utilice columnas con tipos de datos coincidentes; de lo contrario, aparecerá un error o null valores en la nueva columna.

  • Una vez que haya especificado una fórmula, añada un nombre de columna en el campo Nombre de nueva columna. SageMaker Canvas usa este nombre para la nueva columna que se crea.

  • (Opcional) Seleccione Vista previa para obtener una vista previa de la transformación.

  • Para agregar la función a la Receta de modelo, seleccione Agregar.

SageMaker Canvas guarda el resultado de su función en una nueva columna con el nombre que especificó en Nombre de nueva columna. Puede ver o eliminar funciones desde el panel Receta de modelo.

SageMaker Canvas admite los siguientes operadores para las funciones. Puede utilizar el formato de texto o el formato en línea para especificar la función.

Operador Descripción Tipos de datos compatibles Formato de texto Formato en línea

Add (Suma)

Devuelve la suma de los valores

Numérico

Add(sales1, sales2)

sales1 + sales2

Subtract (Sustracción)

Devuelve la diferencia entre los valores

Numérico

Subtract(sales1, sales2)

sales1 ‐ sales2

Multiply (Multiplicación)

Devuelve el producto de los valores

Numérico

Multiply(sales1, sales2)

sales1 * sales2

Divide (División)

Devuelve el cociente de los valores

Numérico

Divide(sales1, sales2)

sales1 / sales2

Mod (Módulo)

Devuelve el resultado del operador módulo (el resto después de dividir los dos valores)

Numérico

Mod(sales1, sales2)

sales1 % sales2

Abs (Absoluto)

Devuelve el valor absoluto del valor

Numérico

Abs(sales1)

N/A

Negate

Devuelve el negativo del valor

Numérico

Negate(c1)

‐c1

Exp (Exponente)

Devuelve e (número de Euler) elevado a la potencia del valor

Numérico

Exp(sales1)

N/A

Registro

Devuelve el logaritmo (de base 10) del valor

Numérico

Log(sales1)

N/A

Ln

Devuelve el logaritmo natural (de base e) del valor

Numérico

Ln(sales1)

N/A

Pow (Potencia)

Devuelve el valor elevado a una potencia

Numérico

Pow(sales1, 2)

sales1 ^ 2

If (Condicional)

Devuelve una etiqueta de verdadero o falso en función de la condición que especifique

Booleano, numérico, texto

If(sales1>7000, 'truelabel, 'falselabel')

N/A

Or (Disyunción)

Devuelve un valor booleano que indica si uno de los valores o condiciones especificados es verdadero o no

Booleano

Or(fullprice, discount)

fullprice || discount

And (Conjunción)

Devuelve un valor booleano que indica si dos de los valores o condiciones especificados son verdaderos o no

Booleano

And(sales1,sales2)

sales1 && sales2

No (Negación)

Devuelve un valor booleano opuesto al valor o las condiciones especificados

Booleano

Not(sales1)

!sales1

Case (Caso condicional)

Devuelve un valor booleano basado en sentencias condicionales (devuelve c1 si cond1 es verdadero, devuelve c2 si cond2 es verdadero, de lo contrario devuelve c3)

Booleano, numérico, texto

Case(cond1, c1, cond2, c2, c3)

N/A

Igualdad

Devuelve un valor booleano que indica si dos valores son iguales

Booleano, numérico, texto

N/A

c1 = c2

c1 == c2

Desigualdad

Devuelve un valor booleano que indica si dos valores no son iguales

Booleano, numérico, texto

N/A

c1 != c2

Menor que

Devuelve un valor booleano que indica si c1 es menor que c2

Booleano, numérico, texto

N/A

c1 < c2

Mayor que

Devuelve un valor booleano que indica si c1 es mayor que c2

Booleano, numérico, texto

N/A

c1 > c2

Menor que o igual a

Devuelve un valor booleano que indica si c1 es menor o igual a c2

Booleano, numérico, texto

N/A

c1 <= c2

Mayor que o igual a

Devuelve un valor booleano que indica si c1 es mayor o igual que c2

Booleano, numérico, texto

N/A

c1 >= c2

SageMaker Canvas también admite operadores agregados, que pueden realizar operaciones como calcular la suma de todos los valores o encontrar el valor mínimo en una columna. Puede utilizar operadores de agregación en combinación con operadores estándar en sus funciones. Por ejemplo, para calcular la diferencia de valores con respecto a la media, puede utilizar la funciónAbs(height – avg(height)). SageMaker Canvas admite los siguientes operadores agregados.

Operador de agregación Descripción Formato Ejemplo

sum

Devuelve la suma de todos los valores de una columna

sum

sum(c1)

minimum

Devuelve el valor mínimo de una columna

min

min(c2)

maximum

Devuelve el valor máximo de una columna

max

max(c3)

average

Devuelve el valor medio de una columna

avg

avg(c4)

std

Devuelve la desviación estándar muestral de una columna

std

std(c1)

stddev

Devuelve la desviación estándar de los valores de una columna

stddev

stddev(c1)

variance

Devuelve la varianza no sesgada de los valores de una columna

variance

variance(c1)

approx_count_distinct

Devuelve el número aproximado de elementos distintos de una columna

approx_count_distinct

approx_count_distinct(c1)

count

Devuelve el número de elementos de una columna

count

count(c1)

first

Devuelve el valor medio de una columna

first

first(c1)

last

Devuelve el valor medio de una columna

last

last(c1)

stddev_pop

Devuelve la desviación estándar poblacional de una columna

stddev_pop

stddev_pop(c1)

variance_pop

Devuelve la varianza poblacional de los valores de una columna

variance_pop

variance_pop(c1)

Administrar filas

Con la transformación Administrar filas, puede ordenar, mezclar aleatoriamente y eliminar filas de datos del conjunto de datos.

Ordenar filas

Para ordenar las filas de un conjunto de datos por una columna determinada, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, elija Administrar filas y, a continuación, elija Ordenar filas.

  2. En Ordenar columna, elija la columna por la que desee ordenar.

  3. En Orden de clasificación, seleccione Ascendente o Descendente.

  4. Seleccione Agregar para agregar la transformación a la Receta de modelo.

Mezclar filas

Para mezclar aleatoriamente las filas de un conjunto de datos, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, elija Administrar filas y, a continuación, elija Organizar filas.

  2. Seleccione Agregar para agregar la transformación a la Receta de modelo.

Eliminar filas duplicadas

Para eliminar las filas duplicadas de un conjunto de datos, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, selecciona Administrar filas y, a continuación, selecciona Eliminar filas duplicadas.

  2. Seleccione Agregar para agregar la transformación a la Receta de modelo.

Eliminar filas por valores faltantes

Los valores faltantes son frecuentes en los conjuntos de datos de machine learning y pueden afectar a la precisión del modelo. Utilice esta transformación si desea eliminar filas con valores nulos o vacíos en determinadas columnas.

Para eliminar las filas que contengan valores faltantes en una columna específica, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, elija Administrar filas.

  2. Seleccione Eliminar filas por valores faltantes.

  3. Seleccione Agregar para agregar la transformación a la Receta de modelo.

SageMaker Canvas descarta las filas que contienen valores faltantes en la columna que seleccionó. Después de eliminar las filas del conjunto de datos, SageMaker Canvas agrega la transformación en la sección de recetas del modelo. Si elimina la transformación de la sección de Recetas de modelo, las filas vuelven a su conjunto de datos.

Captura de pantalla de la operación de eliminar filas mediante valores faltantes en la aplicación SageMaker Canvas.

Eliminar filas por valores atípicos

Los valores atípicos, o valores poco frecuentes en la distribución y el rango de los datos, pueden afectar negativamente a la precisión del modelo y provocar tiempos de compilación más prolongados. Con SageMaker Canvas, puede detectar y eliminar filas que contienen valores atípicos en columnas numéricas. Puede elegir definir los valores atípicos con desviaciones estándar o con un rango personalizado.

Para eliminar los valores atípicos de los datos, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, elija Administrar filas.

  2. Seleccione Eliminar filas por valores atípicos.

  3. Elija la Columna en la que desee comprobar si hay valores atípicos.

  4. Establezca el Operador en Desviación estándar, Rango numérico personalizado o Rango de cuantiles personalizado.

  5. Si elige Desviación estándar, especifique un valor de Desviaciones estándares (desviación estándar) comprendido entre 1 y 3. Si elige Rango numérico personalizado o Rango de cuantiles personalizado, especifique los valores Mín y Máx (números para los rangos numéricos o percentiles entre el 0 y el 100 % para los rangos de cuantiles).

  6. Seleccione Agregar para agregar la transformación a la Receta de modelo.

La opción Desviación estándar detecta y elimina los valores atípicos en las columnas numéricas mediante la media y la desviación estándar. Usted especifica el número de desviaciones estándar que debe separar a un valor de la media para que se considere un valor atípico. Por ejemplo, si especifica 3 para Desviaciones estándares, un valor debe estar a más de 3 desviaciones estándares de la media para que se considere un valor atípico.

Las opciones Rango numérico personalizado y Rango de cuantiles personalizado detectan y eliminan los valores atípicos en las columnas numéricas utilizando valores mínimos y máximos. Utilice este método si conoce los valores límite que delimitan los valores atípicos. Si elige un rango numérico, los valores Mín y Máx deben ser los valores numéricos mínimos y máximos que desee permitir en los datos. Si elige un rango de cuantiles, los valores Mín y Máx deben ser el mínimo y el máximo del rango de percentiles (0-100) que desee permitir.

Después de eliminar las filas del conjunto de datos, SageMaker Canvas agrega la transformación en la sección de recetas del modelo. Si elimina la transformación de la sección de Recetas de modelo, las filas vuelven a su conjunto de datos.

Captura de pantalla de la operación de eliminar filas mediante valores atípicos en la aplicación SageMaker Canvas.

Eliminar filas por valores personalizados

Puede eliminar las filas con valores que cumplan condiciones personalizadas. Por ejemplo, es posible que desee excluir todas las filas con un valor de precio superior a 100 al crear el modelo. Con esta transformación, puede crear una regla que elimine todas las filas que superen el umbral que haya establecido.

Para usar la transformación de eliminación personalizada, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, elija Administrar filas.

  2. Seleccione Borrar filas por fórmula.

  3. Elija la Columna en la que desee comprobar.

  4. Seleccione el tipo de Operación que desee utilizar y, a continuación, especifique los valores de la condición seleccionada.

  5. Seleccione Agregar para agregar la transformación a la Receta de modelo.

Para la Operación, puede elegir una de las siguientes opciones: Tenga en cuenta que las operaciones disponibles dependen del tipo de datos de la columna que elija. Por ejemplo, no puede crear una operación is greater than para una columna que contenga valores de texto.

Operación Tipos de datos admitidos Tipo de característica admitida Función

Es igual que

Numérico, texto

Binario, categórico

Elimina las filas en las que el valor de la Columna sea igual a los valores que especifique.

No es igual a

Numérico, texto

Binario, categórico

Elimina las filas en las que el valor de la Columna no sea igual a los valores que especifique.

Es menor que

Numérico

N/A

Elimina las filas en las que el valor de la Columna es inferior al valor especificado.

Es menor o igual que

Numérico

N/A

Elimina las filas en las que el valor de la Columna es inferior o igual que el valor especificado.

Es mayor que

Numérico

N/A

Elimina las filas en las que el valor de la Columna es mayor al valor especificado.

Es mayor o igual que

Numérico

N/A

Elimina las filas en las que el valor de la Columna es mayor o igual que el valor especificado.

Está entre

Numérico

N/A

Elimina las filas en las que el valor de la Columna es igual a o está entre los dos valores que especifique.

Contiene

Texto

Categórico

Elimina las filas en las que el valor de la Columna contenga los valores que especifique.

Empieza por

Texto

Categórico

Elimina las filas en las que el valor de la Columna comienza por los valores que especifique.

Acaba con

Texto

Categórico

Elimina las filas en las que el valor de la Columna termina por los valores que especifique.

Después de eliminar las filas del conjunto de datos, SageMaker Canvas agrega la transformación en la sección de recetas del modelo. Si elimina la transformación de la sección de Recetas de modelo, las filas vuelven a su conjunto de datos.

Captura de pantalla de la operación de eliminar filas mediante valores personalizados en la aplicación SageMaker Canvas.

Cambio del nombre de las columnas

Con la transformación de cambio del nombre de las columnas, puede cambiar el nombre de las columnas de sus datos. Al cambiar el nombre de una columna, SageMaker Canvas cambia el nombre de la columna en la entrada del modelo.

Puede cambiar el nombre de una columna de su conjunto de datos haciendo doble clic en el nombre de la columna en la pestaña Crear de la aplicación SageMaker Canvas e introduciendo un nombre nuevo. Al pulsar la tecla Intro, se envía el cambio y, al hacer clic en cualquier lugar fuera de la entrada, se cancela el cambio. También puede cambiar el nombre de una columna haciendo clic en el icono Más opciones ( Vertical ellipsis icon representing a menu or more options. ), situado al final de la fila en la vista de lista o al final de la celda del encabezado en la vista de cuadrícula, y seleccionando Cambiar nombre.

El nombre de la columna no puede tener más de 32 caracteres ni caracteres de guion bajo dobles (__), y no se puede cambiar el nombre de una columna por el mismo nombre que otra columna. Tampoco se puede cambiar el nombre de una columna eliminada.

La siguiente captura de pantalla muestra cómo cambiar el nombre de una columna haciendo doble clic en el nombre de la columna.

Captura de pantalla del cambio de nombre de una columna con el método de doble clic en la SageMaker aplicación Canvas.

Al cambiar el nombre de una columna, SageMaker Canvas añade la transformación en la sección de recetas del modelo. Si elimina la transformación de la sección Recetas de modelo, la columna vuelve a su nombre original.

Administrar columnas

Con las siguientes transformaciones, puede cambiar el tipo de datos de las columnas y reemplazar los valores faltantes o los valores atípicos de columnas específicas. SageMaker Canvas utiliza los tipos de datos o valores actualizados al crear el modelo, pero no cambia el conjunto de datos original. Tenga en cuenta que si ha eliminado una columna de su conjunto de datos mediante la transformación Exclusión de columnas, no podrá reemplazar los valores de esa columna.

Reemplazar valores faltantes

Los valores faltantes son frecuentes en los conjuntos de datos de machine learning y pueden afectar a la precisión del modelo. Puede optar por eliminar las filas que tengan valores faltantes, pero su modelo será más preciso si opta por reemplazar los valores faltantes. Con esta transformación, puede reemplazar los valores que falten en las columnas numéricas por la media o mediana de los datos de una columna, o también puede especificar un valor personalizado con el que reemplazar los valores faltantes. En el caso de las columnas no numéricas, puede reemplazar los valores faltantes por el modo (el valor más común) de la columna o por un valor personalizado.

Utilice esta transformación si desea reemplazar los valores nulos o vacíos en determinadas columnas. Para reemplazar valores faltantes en una columna específica, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, elija Administrar columnas.

  2. Seleccione Reemplazar valores faltantes.

  3. Elija la Columna en la que desee reemplazar los valores faltantes.

  4. Establezca el Modo como Manual para reemplazar los valores faltantes por los valores que especifique. Con la configuración automática (predeterminada), SageMaker Canvas reemplaza los valores faltantes por los valores imputados que mejor se ajusten a sus datos. Este método de imputación se realiza automáticamente para cada compilación del modelo, a menos que especifique el modo Manual.

  5. Establezca el valor Reemplazar por:

    • Si la columna es numérica, seleccione Media, Mediana o Personalizado. La Media reemplaza los valores faltantes por la media de la columna y la Mediana reemplaza los valores faltantes por la mediana de la columna. Si elige Personalizado, debe especificar un valor personalizado que quiera usar para reemplazar los valores faltantes.

    • Si la columna es no numérica, seleccione Modo o Personalizado. El Modo reemplaza los valores faltantes por el modo, o el valor más común, de la columna. Para Personalizado, especifique un valor personalizado que quiera usar para reemplazar los valores faltantes.

  6. Seleccione Agregar para agregar la transformación a la Receta de modelo.

Después de reemplazar los valores faltantes en el conjunto de datos, SageMaker Canvas agrega la transformación en la sección de recetas del modelo. Si elimina la transformación de la sección Recetas de modelo, las filas vuelven al conjunto de datos.

Captura de pantalla de la operación de reemplazar los valores faltantes en la aplicación SageMaker Canvas.

Reemplazar valores atípicos

Los valores atípicos, o valores poco frecuentes en la distribución y el rango de los datos, pueden afectar negativamente a la precisión del modelo y provocar tiempos de creación más prolongados. SageMaker Canvas le permite detectar valores atípicos en columnas numéricas y reemplazarlos por valores que se encuentren dentro de un rango aceptado en sus datos. Puede elegir definir los valores atípicos con desviaciones estándares o con un rango personalizado, y puede reemplazar los valores atípicos por los valores mínimo y máximo del rango aceptado.

Para eliminar los valores atípicos de los datos, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, elija Administrar columnas.

  2. Seleccione Reemplazar valores atípicos.

  3. Elija la Columna en la que desee reemplazar los valores atípicos.

  4. En Definir valores atípicos, elija Desviación estándar, Rango numérico personalizado o Rango de cuantiles personalizado.

  5. Si elige Desviación estándar, especifique un valor de Desviaciones estándares (desviación estándar) comprendido entre 1 y 3. Si elige Rango numérico personalizado o Rango de cuantiles personalizado, especifique los valores Mín y Máx (números para los rangos numéricos o percentiles entre el 0 y el 100 % para los rangos de cuantiles).

  6. En Reemplazar por, seleccione Rango mínimo/máximo.

  7. Seleccione Agregar para agregar la transformación a la Receta de modelo.

La opción Desviación estándar detecta los valores atípicos en las columnas numéricas mediante la media y la desviación estándar. Usted especifica el número de desviaciones estándar que debe separar a un valor de la media para que se considere un valor atípico. Por ejemplo, si especifica 3 para las desviaciones estándar, un valor debe estar a más de 3 desviaciones estándar de la media para que se considere un valor atípico. SageMaker Canvas reemplaza los valores atípicos por el valor mínimo o máximo del rango aceptado. Por ejemplo, si configura las desviaciones estándar para que solo incluyan valores de 200 a 300, SageMaker Canvas cambiará un valor de 198 a 200 (el mínimo).

Las opciones Rango numérico personalizado y Rango de cuantiles personalizado detectan los valores atípicos en las columnas numéricas utilizando valores mínimos y máximos. Utilice este método si conoce los valores límite que delimitan los valores atípicos. Si elige un rango numérico, los valores mínimo y máximo deben ser los valores numéricos mínimos y máximos que desee permitir. SageMaker Canvas reemplaza cualquier valor que quede fuera del mínimo y el máximo por los valores mínimo y máximo. Por ejemplo, si su rango solo permite valores del 1 al 100, SageMaker Canvas cambia el valor de 102 a 100 (el máximo). Si elige un rango de cuantiles, los valores Mín y Máx deben ser el mínimo y el máximo del rango de percentiles (0-100) que desee permitir.

Después de reemplazar los valores en el conjunto de datos, SageMaker Canvas agrega la transformación en la sección de recetas del modelo. Si elimina la transformación de la sección Recetas de modelo, los valores originales vuelven al conjunto de datos.

Captura de pantalla de la operación de reemplazar valores atípicos en la aplicación SageMaker Canvas.

Cambiar el tipo de datos

SageMaker Canvas le permite cambiar el tipo de datos de sus columnas entre numérico, texto y fecha y hora, además de mostrar el tipo de función asociado a ese tipo de datos. Un tipo de datos hace referencia al formato de los datos y a la forma en que se almacenan, mientras que el tipo de característica se refiere a la característica de los datos que se utilizan en los algoritmos de machine learning, como los binarios o los categóricos. Esto le da la flexibilidad de cambiar manualmente el tipo de datos de las columnas en función de las características. La posibilidad de elegir el tipo de datos correcto garantiza la integridad y precisión de los datos antes de crear modelos. Estos tipos de datos se utilizan al crear modelos.

nota

Actualmente, no se admite el cambio del tipo de característica (por ejemplo, de binaria a categórica).

En la siguiente tabla, se enumeran todos los tipos de datos en Canvas.

Tipo de datos Descripción Ejemplo

Numérico

Los datos numéricos representan valores numéricos

1, 2, 3

1.1, 1.2. 1.3

Texto

Los datos de texto representan secuencias de caracteres, como nombres o descripciones

A, B, C, D

manzana, plátano, naranja

1A!, 2A!, 3A!

Fecha y hora

Los datos de fecha y hora representan fechas y horas en formato de marca de tiempo (timestamp)

2019-07-01 01:00:00, 2019-07-01 02:00:00, 2019-07-01 03:00:00

En la siguiente tabla, se enumeran todos los tipos de característica admitidos en Canvas.

Tipo de característica Descripción Ejemplo

Binario

Las características binarias representan dos valores posibles

0, 1, 0, 1, 0 (2 valores distintos)

true, false, true (2 valores distintos)

Categórico

Las características categóricas representan categorías o grupos distintos

manzana, plátano, naranja, manzana (3 valores distintos)

A, B, C, D, E, A, D, C (5 valores distintos)

Para modificar el tipo de datos de una columna de un conjunto de datos, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, vaya a la vista por columnas o a la vista de cuadrícula y seleccione el menú desplegable Tipo de datos para la columna específica.

  2. En el menú desplegable de Tipo de datos, seleccione el tipo de datos al que desee realizar la conversión. En la siguiente captura de pantalla se muestra el menú desplegable.

    El menú desplegable de conversión de tipos de datos de una columna, que se muestra en la pestaña Crear.
  3. En Columna, elija o verifique la columna en la que desee cambiar el tipo de datos.

  4. En Nuevo tipo de datos, seleccione o verifique el nuevo tipo de datos al que desee convertir.

  5. Si el Nuevo tipo de datos es Datetime o Numeric, elija una de las siguientes opciones en Gestionar valores no válidos:

    1. Reemplazar por un valor vacío: los valores no válidos se sustituyen por un valor vacío

    2. Eliminar filas: las filas con un valor no válido se eliminan del conjunto de datos

    3. Reemplazar por un valor personalizado: los valores no válidos se sustituyen por el Valor personalizado que especifique.

  6. Seleccione Agregar para agregar la transformación a la Receta de modelo.

Ahora debería actualizarse el tipo de datos de la columna.

Preparación de datos de series temporales

Utilice las siguientes funcionalidades para preparar los datos de series temporales para crear modelos de previsión de series temporales.

Remuestreo de datos de series temporales

Al volver a muestrear los datos de series temporales, puede establecer intervalos regulares para las observaciones de su conjunto de datos de series temporales. Esto resulta particularmente útil cuando se trabaja con datos de series temporales que contengan observaciones espaciadas de forma irregular. Por ejemplo, puede utilizar el remuestreo para transformar un conjunto de datos con observaciones registradas cada intervalo de una, dos y tres horas en un intervalo regular de una hora entre observaciones. Los algoritmos de previsión requieren que las observaciones se realicen a intervalos regulares.

Para remuestrear los datos de series temporales, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, elija Series temporales.

  2. Seleccione Remuestrear.

  3. En la columna Marca de tiempo, seleccione la columna a la que quiera aplicar la transformación. Solo puede seleccionar columnas del tipo Fecha y hora.

  4. En la sección de Configuración de frecuencia, seleccione una Frecuencia y un Ritmo. La Frecuencia es la unidad de frecuencia y el Ritmo es el intervalo de la unidad de frecuencia que se aplicará a la columna. Por ejemplo, al elegir Calendar Day para el valor de Frecuencia y 1 para el Ritmo, se establece que el intervalo aumente cada 1 día natural, por ejemplo 2023-03-26 00:00:00, 2023-03-27 00:00:00, 2023-03-28 00:00:00. Consulte la tabla siguiente a este procedimiento para obtener una lista completa del valor de Frecuencia.

  5. Seleccione Agregar para agregar la transformación a la Receta de modelo.

La siguiente tabla muestra todos los tipos de Frecuencia que puede seleccionar al remuestrear datos de series temporales.

Frecuencia Descripción Valores de ejemplo (suponiendo que el ritmo sea 1)

Día laborable

Se remuestrean las observaciones de la columna de fecha y hora para convertirlas en 5 días laborables de la semana (lunes, martes, miércoles, jueves y viernes)

2023-03-24 00:00:00

2023-03-27 00:00:00

2023-03-28 00:00:00

2023-03-29 00:00:00

2023-03-30 00:00:00

2023-03-31 00:00:00

2023-04-03 00:00:00

Día natural

Se remuestrean las observaciones de la columna de fecha y hora para convertirlas en los 7 días de la semana (lunes, martes, miércoles, jueves, viernes, sábado y domingo)

2023-03-26 00:00:00

2023-03-27 00:00:00

2023-03-28 00:00:00

2023-03-29 00:00:00

2023-03-30 00:00:00

2023-03-31 00:00:00

2023-04-01 00:00:00

Semana

Se remuestrean las observaciones en la columna de fecha y hora al primer día de cada semana.

2023-03-13 00:00:00

2023-03-20 00:00:00

2023-03-27 00:00:00

2023-04-03 00:00:00

Mes

Se remuestrean las observaciones en la columna de fecha y hora al primer día de cada mes.

2023-03-01 00:00:00

2023-04-01 00:00:00

2023-05-01 00:00:00

2023-06-01 00:00:00

Trimestre anual

Se remuestrean las observaciones en la columna de fecha y hora al último día de cada trimestre.

2023-03-31 00:00:00

2023-06-30 00:00:00

2023-09-30 00:00:00

2023-12-31 00:00:00

Año

Se remuestrean las observaciones en la columna de fecha y hora al último día de cada año.

2022-12-31 0:00:00

2023-12-31 00:00:00

2024-12-31 00:00:00

Hora

Se remuestrean las observaciones en la columna de fecha y hora a cada hora de cada día

2023-03-24 00:00:00

2023-03-24 01:00:00

2023-03-24 02:00:00

2023-03-24 03:00:00

Minuto

Se remuestrean las observaciones en la columna de fecha y hora a cada minuto de cada hora

2023-03-24 00:00:00

2023-03-24 00:01:00

2023-03-24 00:02:00

2023-03-24 00:03:00

Segundo

Se remuestrean las observaciones en la columna de fecha y hora a cada segundo de cada minuto

2023-03-24 00:00:00

2023-03-24 00:00:01

2023-03-24 00:00:02

2023-03-24 00:00:03

Al aplicar la transformación de remuestreo, puede usar la opción Avanzada para especificar cómo se modifican los valores resultantes del resto de las columnas (distintas de la columna de fecha y hora) del conjunto de datos. Esto se puede lograr especificando la metodología de remuestreo, que puede ser reducir o aumentar el muestreo tanto para las columnas numéricas como para las no numéricas.

La reducción del muestreo aumenta el intervalo entre las observaciones del conjunto de datos. Por ejemplo, si reduce el muestreo de las observaciones que se realizan cada hora o cada dos horas, cada observación del conjunto de datos se realiza cada dos horas. Los valores de las demás columnas de las observaciones horarias se agregan en un único valor mediante un método de combinación. En las siguientes tablas se muestra un ejemplo de reducción del muestreo de datos de series temporales utilizando la media como método de combinación. Los datos del muestreo se reducen de cada dos horas a cada hora.

La siguiente tabla muestra las lecturas de temperatura por hora durante un día antes de la reducción de la muestra.

Timestamp Temperatura (Celsius)

12:00 pm

30

1:00 am

32

2:00 am

35

3:00 am

32

4:00 am

30

La siguiente tabla muestra las lecturas de temperatura después de reducir el muestreo a cada dos horas.

Timestamp Temperatura (Celsius)

12:00 pm

30

2:00 am

33,5

2:00 am

35

4:00 am

32,5

Para reducir el muestreo de datos de series temporales, haga lo siguiente:

  1. Expanda la sección Avanzadas situada debajo de la transformación Remuestrear.

  2. Elija Combinación no numérica para especificar el método de combinación para las columnas no numéricas. Consulte la siguiente tabla para obtener una lista completa de métodos de combinación.

  3. Elija Combinación numérica para especificar el método de combinación para las columnas numéricas. Consulte la siguiente tabla para obtener una lista completa de métodos de combinación.

Si no especifica los métodos de combinación, los valores predeterminados son Most Common para la Combinación no numérica y Mean para la Combinación numérica. En la siguiente tabla se enumeran los métodos de combinación numérica y no numérica.

Metodología de reducción de muestreo Método de combinación Descripción

Combinación no numérica

Más común

Agrega los valores de la columna no numérica por el valor que aparece con más frecuencia

Combinación no numérica

Último

Agrega los valores de la columna no numérica por el último valor de la columna

Combinación no numérica

Primero

Agrega los valores de la columna no numérica por el primer valor de la columna

Combinación numérica

Media

Agrega los valores de la columna numérica tomando la media de todos los valores de la columna

Combinación numérica

Median

Agrega los valores de la columna numérica tomando la mediana de todos los valores de la columna

Combinación numérica

Mínimo

Agrega los valores de la columna numérica tomando el mínimo de todos los valores de la columna

Combinación numérica

Máximo

Agrega los valores de la columna numérica tomando el máximo de todos los valores de la columna

Combinación numérica

Sum

Agrega los valores de la columna numérica sumando todos los valores de la columna

Combinación numérica

Cuantil

Agrega los valores de la columna numérica tomando el cuantil de todos los valores de la columna

El aumento del muestreo reduce el intervalo entre las observaciones del conjunto de datos. Por ejemplo, si aumenta el muestreo de las observaciones que se toman cada dos horas para convertirlas en observaciones por hora, los valores de las demás columnas de las observaciones por hora se interpolan a partir de las que se han tomado cada dos horas.

Para aumentar el muestreo los datos de series temporales, haga lo siguiente.

  1. Expanda la sección Avanzadas situada debajo de la transformación Remuestrear.

  2. Elija Estimación no numérica para especificar el método de estimación para las columnas no numéricas. Consulte la tabla siguiente a este procedimiento para obtener una lista completa de los métodos.

  3. Elija Estimación numérica para especificar el método de estimación para las columnas numéricas. Consulte la siguiente tabla para obtener una lista completa de métodos.

  4. (Opcional) Elija ID Column para especificar la columna que contiene las IDs observaciones de la serie temporal. Especifique esta opción si su conjunto de datos tiene dos series temporales. Si tiene una columna que representa solo una serie temporal, no especifique un valor para este campo. Por ejemplo, puede tener un conjunto de datos que contenga las columnas id y purchase. La columna id tiene los siguientes valores: [1, 2, 2, 1]. La columna purchase tiene los siguientes valores: [$2, $3, $4, $1]. Por lo tanto, el conjunto de datos tiene dos series temporales: una serie temporal es: 1: [$2, $1] y la otra serie temporal es 2: [$3, $4].

Si no especifica los métodos de estimación, los valores predeterminados son Forward Fill para la Estimación no numérica y Linear para la Estimación numérica. En la siguiente tabla se muestran los métodos de estimación.

Metodología de aumento de muestreo Método de estimación Descripción

Estimación no numérica

Rellenar hacia delante

Interpola los valores de la columna no numérica tomando los valores consecutivos después de todos los valores de la columna

Estimación no numérica

Rellenar hacia atrás

Interpola los valores de la columna no numérica tomando los valores consecutivos antes de todos los valores de la columna

Estimación no numérica

Mantener faltantes

Interpola los valores en la columna no numérica mostrando valores vacíos

Estimación numérica

Lineal, temporal, índice, cero, lineal S, más cercano, cuadrático, cúbico, baricéntrico, polinómico, Krogh, polinómico por partes, spline, chip P, Akima, spline cúbico, a partir de derivadas

Interpola los valores de la columna numérica mediante el interpolador especificado. Para obtener información sobre los métodos de interpolación, consulte pandas. DataFrame.interpolate en la documentación de pandas.

La siguiente captura de pantalla muestra la configuración Avanzada con los campos de aumento y reducción de muestreo rellenados.

La aplicación Canvas, con el panel lateral de remuestreo de series temporales que muestra las opciones avanzadas.

Uso de la extracción de fecha y hora

Con la transformación de extracción de fecha y hora, puede extraer valores de una columna de fecha y hora en una columna independiente. Por ejemplo, si tiene una columna que contiene las fechas de compra, puede extraer el valor del mes en una columna independiente y utilizar la nueva columna al crear el modelo. También puede extraer varios valores para separar columnas con una sola transformación.

La columna de fecha y hora debe usar un formato de marca de tiempo compatible. Para obtener una lista de los formatos compatibles con SageMaker Canvas, consulte. Pronósticos de series temporales en Amazon SageMaker Canvas Si su conjunto de datos no utiliza uno de los formatos compatibles, actualícelo para que utilice un formato de marca de tiempo compatible y vuelva a importarlo a Amazon SageMaker Canvas antes de crear el modelo.

Para realizar una extracción de fecha y hora, haga lo siguiente.

  1. En la pestaña Crear de la aplicación SageMaker Canvas, en la barra de transformaciones, elija Ver todo.

  2. Seleccione Extraer características.

  3. Elija la columna Marca de tiempo de la que desee extraer los valores.

  4. En Valores, seleccione uno o más valores para extraerlos de la columna. Los valores que puede extraer de una columna de fecha y hora son Año, Mes, Día, Hora, Semana del año, Día del año y Trimestre.

  5. (Opcional) Seleccione Vista previa para obtener una vista previa de los resultados de la transformación.

  6. Seleccione Agregar para agregar la transformación a la Receta de modelo.

SageMaker Canvas crea una nueva columna en el conjunto de datos para cada uno de los valores que extraiga. A excepción de los valores de año, SageMaker Canvas utiliza una codificación basada en 0 para los valores extraídos. Por ejemplo, si extrae el valor del Mes, enero se extrae como 0 y febrero como 1.

Captura de pantalla del cuadro de extracción de fecha y hora de la SageMaker aplicación Canvas.

Puede ver la transformación en la sección Recetas de modelo. Si elimina la transformación de la sección Recetas de modelo, las nuevas columnas se eliminan del conjunto de datos.