Hiperparámetros para optimizar el proceso de aprendizaje de sus modelos de generación de texto - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Hiperparámetros para optimizar el proceso de aprendizaje de sus modelos de generación de texto

Puede optimizar el proceso de aprendizaje de su modelo base ajustando cualquier combinación de los siguientes hiperparámetros. Estos parámetros están disponibles para todos los modelos.

  • Recuento de épocas: el epochCount hiperparámetro determina cuántas veces el modelo recorre todo el conjunto de datos de entrenamiento. Influye en la duración del entrenamiento y puede evitar el sobreajuste si se configura adecuadamente. Un gran número de épocas puede aumentar el tiempo de ejecución general de los trabajos de ajuste fino. Recomendamos establecer un valor grande MaxAutoMLJobRuntimeInSeconds dentro de la TextGenerationJobConfig para evitar que los CompletionCriteria trabajos de ajuste fino se detengan prematuramente.

  • Tamaño del lote: el batchSize hiperparámetro define el número de muestras de datos utilizadas en cada iteración del entrenamiento. Puede afectar a la velocidad de convergencia y al uso de memoria. Si el tamaño de los lotes es grande, aumenta el riesgo de que se produzcan errores de falta de memoria (OOM), lo que puede traducirse en un error interno del servidor en el piloto automático. Para comprobar si hay algún error de este tipo, consulte el grupo de /aws/sagemaker/TrainingJobs registros de los trabajos de formación iniciados por su trabajo de piloto automático. Puede acceder a esos registros CloudWatch desde la consola de AWS administración. Elija Registros y, a continuación, elija el grupo de /aws/sagemaker/TrainingJobs registros. Para corregir OOM los errores, reduzca el tamaño del lote.

    Se recomienda empezar con un tamaño de lote de 1 y, a continuación, aumentarlo gradualmente hasta que se produzca un error de falta de memoria. Como referencia, 10 épocas suelen tardar hasta 72 horas en completarse.

  • Velocidad de aprendizaje: el learningRate hiperparámetro controla el tamaño del paso al que se actualizan los parámetros de un modelo durante el entrenamiento. Determina con qué rapidez o lentitud se actualizan los parámetros del modelo durante el entrenamiento. Una tasa de aprendizaje alta significa que los parámetros se actualizan con un tamaño de paso grande, lo que puede conducir a una convergencia más rápida, pero también puede provocar que el proceso de optimización sobrepase la solución óptima y se vuelva inestable. Una tasa de aprendizaje baja significa que los parámetros se actualizan con un tamaño de paso pequeño, lo que puede conducir a una convergencia más estable, pero a costa de un aprendizaje más lento.

  • Pasos de calentamiento de la tasa de aprendizaje: el learningRateWarmupSteps hiperparámetro especifica el número de pasos de entrenamiento durante los cuales la tasa de aprendizaje aumenta gradualmente hasta alcanzar su objetivo o valor máximo. Esto ayuda a que el modelo converja de manera más eficaz y evita problemas como la divergencia o la convergencia lenta que pueden producirse con una tasa de aprendizaje inicialmente alta.

Para obtener información sobre cómo ajustar los hiperparámetros para su experimento de ajuste preciso en el piloto automático y descubrir sus posibles valores, consulte. Cómo configurar hiperparámetros para optimizar el proceso de aprendizaje de un modelo