Parámetros de entrenamiento - Amazon Machine Learning

Ya no actualizamos el servicio Amazon Machine Learning ni aceptamos nuevos usuarios para él. Esta documentación está disponible para los usuarios actuales, pero ya no la actualizamos. Para obtener más información, consulte Qué es Amazon Machine Learning.

Parámetros de entrenamiento

El algoritmo de aprendizaje de Amazon ML acepta parámetros, llamados hiperparámetros o parámetros de entrenamiento, que permiten controlar la calidad del modelo resultante. Según el hiperparámetro, Amazon ML selecciona automáticamente opciones de configuración o proporciona valores predeterminados estáticos para los hiperparámetros. Aunque la configuración predeterminada de hiperparámetros generalmente produce modelos útiles, es posible que pueda mejorar el rendimiento predictivo de los modelos si cambia los valores de hiperparámetro. En las siguientes secciones se describen los hiperparámetros comunes asociados con los algoritmos de aprendizaje para modelos lineales, como los que crea Amazon ML.

Tasa de aprendizaje

La tasa de aprendizaje es un valor constante del algoritmo Stochastic Gradient Descent (SGD). La tasa de aprendizaje afecta a la velocidad a la que el algoritmo alcanza (se converge en) las ponderaciones óptimas. El algoritmo SGD realiza actualiza las ponderaciones del modelo lineal por cada ejemplo de datos que encuentre. El tamaño de estas actualizaciones se controla mediante la tasa de aprendizaje. Una tasa de aprendizaje demasiado elevada podría impedir que las ponderaciones alcancen la solución óptima. Un valor demasiado pequeño hace que el algoritmo requiera muchos pases para alcanzar las ponderaciones óptimas.

En Amazon ML, la tasa de aprendizaje se selecciona automáticamente en función de los datos.

Tamaño del modelo

Si tiene muchas características de entrada, el número de posibles patrones en los datos puede resultar en una modelo de gran tamaño. Los modelos de gran tamaño tienen implicaciones prácticas, como por ejemplo, requieren más RAM para almacenar el modelo durante el entrenamiento y al generar predicciones. En Amazon ML, puede reducir el tamaño del modelo utilizando la regularización L1 o restringiendo específicamente el tamaño del modelo mediante la especificación del tamaño máximo. Tenga en cuenta que si reduce el tamaño del modelo demasiado, podría reducir su potencia de predicción.

Para obtener información sobre el tamaño predeterminado de modelo, consulte Parámetros de entrenamiento: tipos y valores predeterminados. Para obtener más información acerca de la regularización, consulte Regularización.

Número de iteraciones

El algoritmo SGD hace pases secuenciales sobre los datos de aprendizaje. El parámetro Number of passes controla el número de pases que el algoritmo realiza en los datos de aprendizaje. Un número mayor de pases resulta en un modelo que se adapta mejor a los datos (si la tasa de aprendizaje no es demasiado elevada), pero el beneficio disminuye con una creciente cantidad de pases. Para conjuntos de datos más pequeños, puede aumentar significativamente el número de pases, lo que permite que el algoritmo de aprendizaje se adapte de manera más eficaz a los datos. En el caso de conjuntos de datos extraordinariamente grandes, es posible que un pase sea suficiente.

Para obtener información sobre el número predeterminado de pases, consulte Parámetros de entrenamiento: tipos y valores predeterminados.

Distribución de datos

En Amazon ML, debe distribuir los datos porque el algoritmo de SGD se ve influenciado por el orden de las filas de los datos de aprendizaje. La distribución de los datos de aprendizaje resulta en mejores modelos de ML, ya que ayuda que el algoritmo SGD evita soluciones que son óptimas para el primer tipo de datos que encuentra, pero no para todo el rango de datos. La mezcla desordena los datos, de modo que el algoritmo SGD no detecta un tipo de datos por demasiadas observaciones consecutivas. Si solo encuentra un tipo de datos para muchas actualizaciones de ponderación sucesivas, es posible que el algoritmo no pueda corregir las ponderaciones del para el nuevo tipo de datos porque pueda que la actualización sea demasiado grande. Asimismo, cuando los datos no se presentan de forma aleatoria, es difícil para el algoritmo encontrar una solución óptima para todos los tipos de datos de forma rápida; en algunos casos, el algoritmo podría no encontrar nunca la solución óptima. La distribución de los datos de aprendizaje ayuda al algoritmo a converger en la solución óptima con mayor rapidez.

Por ejemplo, supongamos que desea entrenar un modelo de ML para predecir un tipo de producto y los datos de entrenamiento incluyen los tipos de producto película, juegos y videojuegos. Si clasifica los datos por la columna de tipo de productos antes de cargar los datos en Amazon S3, el algoritmo verá los datos alfabéticamente por tipo de producto. El algoritmo observa primero todos los datos de películas y el modelo de ML comienza a aprender patrones para películas. A continuación, cuando el modelo encuentra los datos de juguetes, cada actualización que hace el algoritmo ajustaría el modelo al tipo de producto de juguete, incluso si estas actualizaciones degradasen los patrones que se ajustan a las películas. Este cambio repentino del tipo de películas a juguetes puede producir un modelo que no aprenderá a predecir los tipos de productos con precisión.

Para obtener información sobre el tipo de distribución, consulte Parámetros de entrenamiento: tipos y valores predeterminados.

Regularización

La regularización ayuda a evitar que los modelos lineales sobreajusten los ejemplos de datos de aprendizaje (es decir, memorizar patrones en lugar de generalizarlos) al penalizar valores de ponderación extremos. La regularización L1 tiene el efecto de reducir el número de características que se utilizan en el modelo al establecer en cero las ponderaciones de características que, de otro modo, tendrían ponderaciones muy reducidas. Como resultado, la regularización L1 produce modelos dispersos y reduce la cantidad de ruido en el modelo. La regularización L2 produce valores de ponderación generales más pequeños y estabiliza las ponderaciones cuando hay gran correlación entre las características de entrada. Puede controlar la cantidad de regularización L1 o L2 que se aplica mediante los parámetros Regularization type y Regularization amount. Un valor de regularización extremadamente elevado podría resultar en que todas las características tengan ponderaciones cero, lo que impide que el modelo aprenda patrones.

Para obtener información sobre los valores de regularización predeterminados, consulte Parámetros de entrenamiento: tipos y valores predeterminados.