Gestión de valores faltantes - Amazon Forecast

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Gestión de valores faltantes

Un problema habitual en los datos de predicción de series temporales es la presencia de valores faltantes. Es posible que sus datos contengan valores faltantes por varias razones, como fallos de medición, problemas de formato, errores humanos o falta de información para registrar. Por ejemplo, si pronostica la demanda de productos para una tienda minorista y un artículo está agotado o no está disponible, no habría datos de ventas que registrar mientras ese artículo estuviera agotado. Si están suficientemente extendidos, los valores faltantes pueden afectar de manera significativa a la precisión de un modelo.

Amazon Forecast proporciona una serie de métodos de llenado para gestionar los valores que faltan en las series temporales de destino y los conjuntos de datos de series temporales relacionadas. El llenado es el proceso de añadir valores estandarizados a las entradas que faltan en su conjunto de datos.

Forecast admite los siguientes métodos de llenado:

  • Llenado intermedio: rellena los valores que falten entre las fechas de inicio y finalización de los artículos del conjunto de datos.

  • Llenado inverso: rellena los valores que falten entre el último punto de datos registrado y la fecha de finalización global de un conjunto de datos.

  • Llenado futuro (solo series temporales relacionadas): rellena los valores que falten entre la fecha de finalización global y el final del horizonte de previsión.

La siguiente imagen proporciona una representación visual de diferentes métodos de llenado.

Elección de la lógica de llenado

Al elegir una lógica de llenado, debe considerar cómo interpretará su modelo la lógica. Por ejemplo, en un caso comercial, registrar 0 ventas de un artículo disponible es diferente de registrar 0 ventas de un artículo no disponible, ya que este último no implica una falta de interés del cliente en el artículo. Debido a esto, el llenado de 0 en la serie temporal de destino podría causar que el predictor sea poco sesgado en sus predicciones, mientras que el llenado NaN podría pasar por alto las ocurrencias reales de 0 artículos disponibles que se venden y hacer que el predictor sea excesivamente sesgado.

Los siguientes gráficos de series temporales ilustran cómo elegir un valor de llenado incorrecto puede afectar significativamente a la precisión del modelo. Los gráficos A y B representan la demanda de un artículo de forma parcial out-of-stock, y las líneas negras representan los datos de ventas reales. Los valores que faltan en A1 se llenan con 0, lo que lleva a predicciones relativamente poco sesgadas (representadas por las líneas punteadas) en A2. Del mismo modo, los valores que faltan en B1 se llenan con NaN, lo que lleva a predicciones que son más exactas en B2.

Para obtener una lista de la lógica de llenado admitida, consulte la siguiente sección.

Lógica de llenado de series temporales de destino y series temporales relacionadas

Puede realizar el llenado tanto en series temporales de destino como en conjuntos de datos de series temporales relacionadas. Cada tipo de conjunto de datos tiene diferentes directrices y restricciones de llenado.

Directrices de llenado
Tipo de conjunto de datos ¿Llenado por defecto? Métodos de llenado admitidos Lógica de llenado predeterminada Lógica de llenado aceptada
Serie temporal objetivo Llenado medio y final 0
  • zero: llenado 0.

  • value: un número entero o float.

  • nan: no un número.

  • mean: el valor medio de la serie de datos.

  • median: el valor mediano de la serie de datos.

  • min: el valor mínimo de la serie de datos.

  • max: el valor máximo de la serie de datos.

Serie temporal relacionada No Llenado medio, final y futuro No hay valor predeterminado
  • zero: llenado 0.

  • value: un valor entero o float.

  • mean: el valor medio de la serie de datos.

  • median: el valor mediano de la serie de datos.

  • min: el valor mínimo de la serie de datos.

  • max: el valor máximo de la serie de datos.

importante

Para los conjuntos de datos de series temporales de destino y relacionadas mean, median, min y max se calculan en función de una ventana sucesiva de las 64 entradas de datos más recientes antes de los valores faltantes.

Sintaxis de valores faltantes

Para rellenar los valores faltantes, especifique los tipos de llenado que se van a implementar cuando llame a la CreatePredictoroperación. La lógica de llenado se especifica en FeaturizationMethodlos objetos.

En el siguiente extracto se muestra un objeto de FeaturizationMethod con el formato correcto para un atributo de serie de tiempo de destino y un atributo de serie de tiempo relacionado (target_value y price respectivamente).

Para establecer un método de llenado en un valor específico, defina el parámetro de llenado en _value y defina el valor en un parámetro value correspondiente. Como se muestra a continuación, la reposición de la serie temporal relacionada se establece en un valor de 2 con lo siguiente: "backfill": "value" y "backfill_value":"2".

[ { "AttributeName": "target_value", "FeaturizationPipeline": [ { "FeaturizationMethodName": "filling", "FeaturizationMethodParameters": { "aggregation": "sum", "middlefill": "zero", "backfill": "zero" } } ] }, { "AttributeName": "price", "FeaturizationPipeline": [ { "FeaturizationMethodName": "filling", "FeaturizationMethodParameters": { "middlefill": "median", "backfill": "value", "backfill_value": "2", "futurefill": "max" } } ] } ]