Hiperparámetros de DeepAR - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Hiperparámetros de DeepAR

En la siguiente tabla se enumeran los hiperparámetros que puede configurar al entrenar con el algoritmo de previsión Amazon SageMaker DeepAR.

Nombre del parámetro Descripción
context_length

El número de puntos de tiempo que el modelo visualiza antes de realizar la predicción. El valor de este parámetro debe ser sobre el mismo que prediction_length. El modelo también recibe las entradas con retraso desde el destino, por lo que context_length puede ser mucho menor que las temporadas normales. Por ejemplo, una serie temporal diario puede tener una temporada anual. El modelo incluye automáticamente un retardo de un año, de manera que la longitud del contexto puede ser inferior a un año. Los valores de retardo que elige el modelo dependen de la frecuencia de las series temporales. Por ejemplo, los valores de retardo para la frecuencia diaria son la semana anterior, 2 semanas, 3 semanas, 4 semanas y el año.

Obligatorio

Valores válidos: número entero positivo

epochs

Número máximo de iteraciones en los datos de capacitación. El valor óptimo depende del tamaño de los datos y de la tasa de aprendizaje. Véase también early_stopping_patience. Los valores típicos están comprendidos entre 10 y 1000.

Obligatorio

Valores válidos: número entero positivo

prediction_length

El número de pasos de tiempo para los que se ha capacitado al modelo para la predicción, también denominado "horizonte de previsión". El modelo de capacitación genera siempre las previsiones con esta longitud. No puede generar previsiones más largas. prediction_length es fijo cuando se realiza la capacitación de un modelo y no se puede cambiar después.

Obligatorio

Valores válidos: número entero positivo

time_freq

El grado de detalle de la serie temporal en el conjunto de datos. Utilice time_freq para seleccionar los retrasos y características de fechas adecuados. El modelo solo admite las siguientes frecuencias básicas. También es compatible con múltiplos de estas frecuencias básicas. Por ejemplo, 5min especifica una frecuencia de 5 minutos.

  • M: mensual

  • W: semanal

  • D: diario

  • H: cada hora

  • min: cada minuto

Obligatorio

Valores válidos: un número entero seguido de M, WDH o min. Por ejemplo, 5min.

cardinality

Cuando se utilizan características categóricas (cat), cardinality es una matriz que especifica el número de categorías (grupos) por característica categórica. Establezca esta opción en auto para deducir la cardinalidad de los datos. El modo auto también funciona cuando no se utilizan características categóricas en el conjunto de datos. Esta es la configuración recomendada para el parámetro.

Establezca la cardinalidad en ignore para obligar a que DeepAR no utilice características categóricas, ni tan siquiera si están presentes en los datos.

Para realizar la validación de datos adicionales, es posible establecer explícitamente este parámetro en el valor real. Por ejemplo, si se proporcionan dos características categóricas donde la primera tiene dos y la otra tiene 3 valores posibles, defina esto como [2, 3].

Para obtener más información acerca de cómo utilizar características categóricas, consulte la sección de datos en la página de documentación principal de DeepAR.

Opcional

Valores válidos: auto, ignore, matriz de números enteros positivos, cadena vacía o

Valor predeterminado: auto

dropout_rate

La tasa de abandono que utilizar durante la capacitación. El modelo utiliza regularización de desconexión. Para cada iteración, no se actualiza un subconjunto aleatorio de neuronas ocultas. Los valores típicos son inferiores a 0,2.

Opcional

Valores válidos: número flotante

Valor predeterminado: 0.1

early_stopping_patience

Si se establece este parámetro, se detiene la capacitación cuando no se realiza el progreso en el número especificado de epochs. El modelo que dispone de la pérdida más baja se devuelve como modelo final.

Opcional

Valores válidos: número entero

embedding_dimension

Tamaño de vector de integración aprendido por característica categórica (se utiliza el mismo valor para todas las características categóricas).

El modelo DeepAR puede aprender patrones de series de tiempo de nivel de grupo cuando se proporciona una capacitación de agrupación categórica. Para realizar esto, el modelo aprende un vector de integración de tamaño embedding_dimension para cada grupo, capturando las propiedades comunes de todas las series de tiempo en el grupo. Un embedding_dimension mayor permite al modelo capturar más patrones complejos. Sin embargo, puesto que se ha aumentado embedding_dimension, se aumenta el número de parámetros en el modelo y se precisan más datos de capacitación para aprender con precisión estos parámetros. Los valores típicos para este parámetro se encuentran entre 10 y 100.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 10

learning_rate

La tasa de aprendizaje utilizada en la capacitación. Los valores típicos están comprometidos entre 1e-4 y 1e-1.

Opcional

Valores válidos: número flotante

Valor predeterminado: 1e-3

likelihood

El modelo genera una previsión de probabilidad y puede proporcionar cuantiles de la distribución y devolver muestras. En función de sus datos, seleccione una probabilidad apropiada (modelo de ruido) que se utilice para estimaciones de incertidumbre. Pueden seleccionarse las siguientes probabilidades:

  • gaussiano: usar para los datos de valor real.

  • beta: usar para destinos de valor real entre 0 y 1 incluido.

  • negativo-binomial: usar para los datos de recuento (números enteros no negativos).

  • T de Student: una alternativa para los datos de valor real que funcionan bien con datos por ráfagas.

  • L1 determinista: una función de pérdida que no calcula la incertidumbre y solo aprende una previsión de punto.

Opcional

Valores válidos: uno de entre los siguientes gaussiano, beta, negativo-binomial, T de Student o L1 determinista.

Valor predeterminado: student-T

mini_batch_size

El tamaño de los minilotes utilizados durante la capacitación. Los valores típicos están comprendidos entre 32 y 512.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 128

num_cells

El número de celdas que se van a utilizar en cada capa oculta del. RNN Los valores típicos están comprendidos entre 30 y 100.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 40

num_dynamic_feat

El número de dynamic_feat que se proporciona en los datos. Establezca esta opción en auto para deducir el número de características dinámicas de los datos. El modo auto también funciona cuando no se utilizan características dinámicas en el conjunto de datos. Esta es la configuración recomendada para el parámetro.

Para obligar a que DeepAR no utilice características dinámicas, ni tan siquiera si están presentes en los datos, establezca num_dynamic_feat en ignore.

Para realizar la validación de datos adicionales, es posible establecer explícitamente este parámetro en el valor de número entero real. Por ejemplo, si se proporcionan dos características dinámicas, definimos este valor en 2.

Opcional

Valores válidos: auto, ignore, número entero positivo o cadena vacía

Valor predeterminado: auto

num_eval_samples

El número de muestras que se utilizan por serie temporal a la hora de calcular las métricas de precisión de las pruebas. Este parámetro no tiene ninguna influencia en la capacitación o en el modelo final. En particular, se puede consultar el modelo con un número diferente de muestras. Este parámetro solo afecta a las puntuaciones de precisión informadas en el canal de prueba después de la capacitación. Los valores más pequeños dan como resultado una evaluación más rápida, pero las puntuaciones de evaluación suelen ser peores y más inciertas. Al evaluar con cuantiles mayores, por ejemplo 0,95, puede ser importante aumentar el número de muestras de evaluación.

Opcional

Valores válidos: número entero

Valor predeterminado: 100

num_layers

El número de capas ocultas enRNN. Los valores típicos están comprendidos entre 1 y 4.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 2

test_quantiles

Cuantiles para los que se calcula la pérdida de cuantiles en el canal de prueba.

Opcional

Valores válidos: matriz de números flotantes

Valor predeterminado: [0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, 0,9]