Cómo funciona el aprendizaje lineal - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cómo funciona el aprendizaje lineal

Existen tres pasos en la implementación del algoritmo de aprendizaje lineal: preprocesamiento, capacitación y validación.

Paso 1: Preprocesar

La normalización, o el escalado de características, es un importante paso de preprocesamiento de algunas funciones de pérdida que garantizan que el modelo que se entrena en un conjunto de datos no esté dominado por el peso de una única característica. El algoritmo Amazon SageMaker Linear Learner tiene una opción de normalización para facilitar este paso de preprocesamiento. Si se activa la normalización, el algoritmo primero se aplica a una pequeña muestra de datos para obtener el valor medio y la desviación estándar de cada característica y la etiqueta. Cada una de las características del conjunto de datos total se convierte para obtener la media de cero y se escala para que tenga la desviación estándar de la unidad.

nota

Para obtener unos mejores resultados, asegúrese de que los datos estén desordenados antes de la capacitación. Si la capacitación se realiza con datos ordenados, se podría producir un error.

Puede configurar si desea que el algoritmo de aprendizaje lineal normalice las etiquetas y los datos de la característica mediante los hiperparámetros normalize_data y normalize_label, respectivamente. De forma predeterminada, la normalización está habilitada en características y etiquetas para la regresión. Únicamente se pueden normalizar las características para la clasificación binaria; este es el comportamiento predeterminado.

Paso 2: Capacitación

Con el algoritmo de aprendizaje lineal, usted capacita con una implementación distribuida de descenso de gradiente estocástico (SGD). Puede controlar el proceso de optimización eligiendo el algoritmo de optimización. Por ejemplo, puede optar por utilizar Adam AdaGrad, un gradiente de descenso estocástico u otros algoritmos de optimización. También debe especificar sus hiperparámetros, como, por ejemplo, impulso, tasa de aprendizaje y la tasa de aprendizaje programada. Si no está seguro de qué algoritmo o valor de hiperparámetro utilizar, debe elegir un valor predeterminado que funcione para la mayoría de conjuntos de datos.

Durante la capacitación, usted optimiza al mismo tiempo varios modelos, cada uno de ellos con objetivos ligeramente diferentes. Por ejemplo, puede variar la regularización L1 o L2 y probar diferentes ajustes de optimizador.

Paso 3: Validación y ajuste del umbral

Cuando se entrenan varios modelos en paralelo, los modelos se evalúan con respecto a un conjunto de validación para seleccionar los modelos óptimos una vez que se complete la capacitación. Para la regresión, el modelo óptimo es el que consigue la mejor pérdida en el conjunto de validación. Para la clasificación, se utiliza una muestra del conjunto de validación para calibrar el umbral de clasificación. El modelo óptimo seleccionado es el que obtiene los mejores criterios de selección de clasificación binaria en el conjunto de validación. Algunos ejemplos de dichos criterios son la medida F1, la precisión y la pérdida de entropía cruzada.

nota

Si no se proporciona un conjunto de validación para el algoritmo, no es posible evaluar y seleccionar el modelo óptimo. Para aprovechar la selección del modelo y la capacitación paralela, asegúrese de proporcionar un conjunto de validación para el algoritmo.