Formato de conjuntos de datos de series temporales y métodos de relleno de valores faltantes - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Formato de conjuntos de datos de series temporales y métodos de relleno de valores faltantes

Los datos de series temporales se refieren a un conjunto de observaciones o mediciones registradas a intervalos de tiempo regulares. En este tipo de datos, cada observación está asociada a una marca temporal o periodo de tiempo específico, lo que crea una secuencia de puntos de datos ordenados cronológicamente.

Las columnas específicas que incluya en su conjunto de datos de series temporales dependen de los objetivos del análisis y de los datos de los que disponga. Como mínimo, los datos de serie temporal se componen de una tabla de tres columnas:

  • Una columna contiene identificadores únicos asignados a elementos individuales para hacer referencia a su valor en un momento específico.

  • Otra columna representa el point-in-time valor o el objetivo para registrar el valor de un elemento determinado en un momento específico. Tras entrenar al modelo en esos valores objetivo, esta columna objetivo contiene los valores que el modelo predice con una frecuencia específica dentro de un horizonte definido.

  • Además, se incluye una columna timestamp para registrar la fecha y la hora en que se midió el valor.

  • Las columnas adicionales pueden contener otros factores que pueden influir en el rendimiento de la previsión. Por ejemplo, en un conjunto de datos de series temporales para el comercio minorista en el que el objetivo son las ventas o los ingresos, puede que haya funciones que proporcionen información sobre las unidades vendidas, el identificador del producto, la ubicación de la tienda, el número de clientes y los niveles de inventario, así como indicadores covariables, como los datos meteorológicos o la información demográfica.

nota

Puede agregar a su serie temporal un conjunto de datos, con ingeniería de características, con información sobre los días festivos nacionales. Al incluir los días festivos en su modelo de series temporales, puede capturar los patrones periódicos que crean los días festivos. Esto ayuda a que sus pronósticos reflejen mejor la estacionalidad subyacente de sus datos. Para obtener información sobre los calendarios disponibles por país, consulte Calendarios de días festivos nacionales

Formato de conjuntos de datos para la previsión de series temporales

Piloto automático admite tipos de datos numéricos, categóricos, de texto y de fecha y hora. El tipo de datos de la columna objetivo debe ser numérico.

Autopilot admite datos de series temporales formateados como archivos CSV (por defecto) o como archivos Parquet.

  • CSV(comma-separated-values) es un formato de archivo basado en filas que almacena datos en texto plano legible por humanos y que es una opción popular para el intercambio de datos, ya que es compatible con una amplia gama de aplicaciones.

  • Parquet es un formato de archivo basado en columnas en el que los datos se almacenan y procesan de forma más eficiente que en los formatos de archivo basados en filas. Esto los convierte en una mejor opción para los problemas en macrodatos.

Para obtener más información sobre los límites de recursos de los conjuntos de datos de series temporales para la previsión en Piloto automático, consulte Límites de recursos de previsión de series temporales para el piloto automático.

Gestión de valores que faltan

Un problema habitual en los datos de predicción de series temporales es la presencia de valores faltantes. Es posible que sus datos contengan valores faltantes por varias razones, como fallos de medición, problemas de formato, errores humanos o falta de información para registrar. Por ejemplo, si pronostica la demanda de productos para una tienda minorista y un artículo está agotado o no está disponible, no habría datos de ventas que registrar mientras ese artículo estuviera agotado. Si están suficientemente extendidos, los valores faltantes pueden afectar de manera significativa a la precisión de un modelo.

Piloto automático proporciona varios métodos de relleno para gestionar los valores que faltan, con distintas estrategias para la columna objetivo y otras columnas adicionales. El llenado es el proceso de añadir valores estandarizados a las entradas que faltan en su conjunto de datos.

Consulte Cómo gestionar los valores que faltan en los conjuntos de datos de entrada para obtener información sobre cómo configurar el método para rellenar los valores faltantes en su conjunto de datos de series temporales.

Piloto automático admite los siguientes métodos de relleno.

  • Rellenado frontal: rellena los valores faltantes entre el primer punto de datos registrado de todos los elementos y el punto de partida de cada elemento (cada elemento puede empezar en un momento diferente). Esto garantiza que los datos de cada elemento estén completos y abarquen desde el primer punto de datos registrado hasta su punto de partida respectivo.

  • Relleno intermedio: rellena los valores que falten entre las fechas de inicio y finalización de los elementos del conjunto de datos.

  • Relleno trasero: rellena los valores faltantes entre el último punto de datos de cada elemento (cada elemento puede detenerse en un momento diferente) y el último punto de datos registrado de todos los elementos.

  • Relleno futuro: rellena los valores que falten entre el último punto de datos registrado entre todos los elementos y el final del horizonte de previsión.

La siguiente imagen proporciona una representación visual de los diferentes métodos de relleno.

Los diferentes métodos de llenado para la previsión de series temporales en Amazon SageMaker Autopilot.

Elección de una lógica de relleno

Al elegir una lógica de llenado, debe considerar cómo interpretará su modelo la lógica. Por ejemplo, en un caso comercial, registrar 0 ventas de un artículo disponible es diferente de registrar 0 ventas de un artículo no disponible, ya que este último no implica una falta de interés del cliente en el artículo. Debido a esto, el relleno 0 en la columna de destino de la serie temporal podría causar que el predictor sea poco sesgado en sus predicciones, mientras que el relleno NaN podría pasar por alto las ocurrencias reales de 0 artículos disponibles que se venden y hacer que el predictor sea excesivamente sesgado.

Lógica de relleno

Puede llevar a cabo el relleno de la columna de destino y otras columnas numéricas en sus conjuntos de datos. Las columnas de destino tienen pautas y restricciones de llenado diferentes a las del resto de las columnas numéricas.

Directrices de llenado

Tipo de columna ¿Llenado por defecto? Métodos de llenado admitidos Lógica de llenado predeterminada Lógica de relleno aceptada
Columna objetivo Llenado medio y final 0
  • zero: llenado 0.

  • value: un número entero o float.

  • nan: no un número.

  • mean: el valor medio de la serie de datos.

  • median: el valor mediano de la serie de datos.

  • min: el valor mínimo de la serie de datos.

  • max: el valor máximo de la serie de datos.

Otras columnas numéricas No Llenado medio, final y futuro No hay valor predeterminado
  • zero: llenado 0.

  • value: un valor entero o float.

  • mean: el valor medio de la serie de datos.

  • median: el valor mediano de la serie de datos.

  • min: el valor mínimo de la serie de datos.

  • max: el valor máximo de la serie de datos.

nota

Tanto para la columna objetivo como para otras columnas numéricas, mean, median, min y max se calculan en función de una ventana sucesiva de las 64 entradas de datos más recientes antes de los valores faltantes.