Cómo funciona el tamizado SageMaker inteligente

El objetivo del tamizado SageMaker inteligente es filtrar los datos de entrenamiento durante el proceso de entrenamiento y añadir al modelo únicamente muestras más informativas. Durante un entrenamiento normal PyTorch, los datos se envían de forma iterativa en lotes al circuito de entrenamiento y a los dispositivos aceleradores (como GPUs los chips Trainium). PyTorchDataLoader SageMaker El filtrado inteligente se implementa en esta fase de carga de datos y, por lo tanto, es independiente de cualquier procesamiento previo de datos previo a la fase de entrenamiento. SageMaker El tamizado inteligente utiliza su modelo y su función de pérdida especificada por el usuario para realizar una transferencia evaluativa de cada muestra de datos a medida que se carga. Las muestras que devuelven valores de pérdida baja tienen un impacto menor en el aprendizaje del modelo y, por lo tanto, se excluyen del entrenamiento, dado que ya es fácil para el modelo hacer la predicción adecuada sobre ellas con una alta confianza. Mientras tanto, esas muestras con pérdidas relativamente altas son las que el modelo aún necesita aprender, por lo que se conservan para el entrenamiento. Una entrada clave que puede configurar para el filtrado SageMaker inteligente es la proporción de datos que se van a excluir. Por ejemplo, al establecer la proporción en un 25 %, se excluyen del entrenamiento las muestras distribuidas en el cuartil más bajo de la distribución de la pérdida (tomadas de un número de muestras anteriores especificado por el usuario). Las muestras con pérdida alta se acumulan en un lote de datos mejorado. El lote de datos mejorado se envía al ciclo de entrenamiento (pasada hacia adelante y hacia atrás), y el modelo aprende y se entrena sobre el lote de datos mejorado.

El siguiente diagrama muestra una descripción general de cómo está diseñado el algoritmo de tamizado SageMaker inteligente.

Diagrama de arquitectura que muestra cómo funciona el tamizado SageMaker inteligente durante el entrenamiento a medida que se cargan los datos.

En resumen, el tamizado SageMaker inteligente funciona durante el entrenamiento a medida que se cargan los datos. El algoritmo de filtrado SageMaker inteligente calcula las pérdidas entre los lotes y filtra los datos que no mejoran antes de avanzar y retroceder en cada iteración. A continuación, el lote de datos refinado se utiliza para la pasada hacia delante y hacia atrás.

nota

El filtrado inteligente de los datos en la SageMaker IA utiliza pases directos adicionales para analizar y filtrar los datos de entrenamiento. A su vez, hay menos pasadas hacia atrás, ya que los datos menos impactantes se excluyen de su trabajo de entrenamiento. Por este motivo, los modelos que tienen pasadas hacia atrás largas o caras obtienen los mayores beneficios de eficiencia cuando utilizan la selección inteligente. Por otro lado, si la pasada hacia delante del modelo tarda más que la pasada hacia atrás, la sobrecarga podría aumentar el tiempo total de entrenamiento. Para medir el tiempo empleado en cada pasada, puede realizar un trabajo de entrenamiento de piloto y recopilar registros que registren el tiempo que tardan los procesos. Considere también la posibilidad de utilizar SageMaker Profiler, que proporciona herramientas de creación de perfiles y una aplicación de interfaz de usuario. Para obtener más información, consulte Amazon SageMaker Profiler.

SageMaker El filtrado inteligente funciona para trabajos de formación PyTorch basados en el clásico paralelismo de datos distribuidos, que permite crear réplicas de modelos en cada unidad de trabajo de la GPU y su rendimiento. AllReduce Funciona con PyTorch DDP y la biblioteca paralela de datos distribuidos de SageMaker IA.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Refinamiento de datos durante el entrenamiento

Marcos y regiones de AWS admitidos