Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Adapta tu guion PyTorch de entrenamiento
Para empezar a recopilar los tensores de salida del modelo y solucionar los problemas de entrenamiento, realiza las siguientes modificaciones en tu guion de PyTorch entrenamiento.
nota
SageMaker El depurador no puede recopilar los tensores de salida del modelo a partir de las operaciones. torch.nn.functional
torch.nn
Para la versión PyTorch 1.12.0
Si traes un guion de PyTorch entrenamiento, puedes ejecutar el trabajo de entrenamiento y extraer los tensores de salida del modelo con unas cuantas líneas de código adicionales en el guion de entrenamiento. Debes usar el enlace APIssagemaker-debugger
cliente. Siga las siguientes instrucciones que desglosan los pasos con ejemplos de código.
-
Creación de un enlace.
(Recomendado) Para trabajos de formación dentro de la SageMaker IA
import smdebug.pytorch as smd hook=smd.get_hook(create_if_not_exists=True)
Cuando inicias un trabajo de formación Lanza trabajos de formación con Debugger usando Python SageMaker SDK con alguna de las DebuggerHookConfig reglas o reglas de tu estimador, la SageMaker IA añade un archivo de JSON configuración a la instancia de formación que recoge la
get_hook
función. TensorBoardConfig Ten en cuenta que si no incluyes ninguna de las configuraciones APIs en tu estimador, el enlace no podrá encontrar ningún archivo de configuración y la función volverá a aparecer.None
(Opcional) Para trabajos de formación ajenos a la IA SageMaker
Si ejecutas tareas de entrenamiento en modo local, directamente en instancias de SageMaker Notebook, EC2 instancias de Amazon o tus propios dispositivos locales, usa
smd.Hook
class para crear un enlace. Sin embargo, este enfoque solo puede almacenar las colecciones de tensores y utilizarlas para la TensorBoard visualización. SageMaker Las reglas integradas en Debugger no funcionan con el modo local porque requieren instancias de entrenamiento de aprendizaje automático con SageMaker IA y S3 para almacenar los resultados de las instancias remotas en tiempo real. Lassmd.get_hook
API devolucionesNone
en este caso.Si quieres crear un gancho manual para guardar los tensores en modo local, utiliza el siguiente fragmento de código con la lógica para comprobar si se
smd.get_hook
API devuelveNone
y crea un gancho manual utilizando la clase.smd.Hook
Tenga en cuenta que puede especificar cualquier directorio de salida en su máquina local.import smdebug.pytorch as smd hook=smd.get_hook(create_if_not_exists=True) if hook is None: hook=smd.Hook( out_dir='
/path/to/your/local/output/
', export_tensorboard=True ) -
Encapsule su modelo con los métodos de clase del enlace.
El método
hook.register_module()
toma el modelo y recorre cada capa en iteración, buscando tensores que coincidan con las expresiones regulares que proporcionarás a lo largo de la configuración en Lanza trabajos de formación con Debugger usando Python SageMaker SDK. Los tensores que pueden recopilarse mediante este método de enlace son ponderaciones, sesgos, activaciones, gradientes, entradas y salidas.hook.register_module(model)
sugerencia
Si recopila todos los tensores de salida de un modelo de aprendizaje profundo de gran tamaño, el tamaño total de esas colecciones puede crecer exponencialmente y provocar cuellos de botella. Si desea guardar tensores específicos, también puede utilizar el método
hook.save_tensor()
. Este método le ayudará a elegir la variable para el tensor específico y guardarla en una colección personalizada con el nombre que quiera. Para obtener más información sobre este paso, consulte el paso 7. -
Encapsule la función de pérdida con los métodos de clase del enlace.
El método
hook.register_loss
consiste en ajustar la función de pérdida. Extrae todos los valores de pérdida cadasave_interval
que haya establecido durante la configuración Lanza trabajos de formación con Debugger usando Python SageMaker SDK, y los guarda en la colección"losses"
.hook.register_loss(loss_function)
-
Añada
hook.set_mode(ModeKeys.TRAIN)
al bloque de trenes. Esto indica que la colección de tensores se extrae durante la fase de entrenamiento.def train(): ... hook.set_mode(ModeKeys.TRAIN)
-
Añada
hook.set_mode(ModeKeys.EVAL)
al bloque de validación. Esto indica que la colección de tensores se extrae durante la fase de validación.def validation(): ... hook.set_mode(ModeKeys.EVAL)
-
Utilice
hook.save_scalar()
para guardar escalares personalizados. Puede guardar valores escalares que no estén en el modelo. Por ejemplo, si desea registrar los valores de precisión calculados durante la evaluación, añada la siguiente línea de código debajo de la línea en la que calcula la precisión. hook.save_scalar("accuracy", accuracy)
Tenga en cuenta que debe proporcionar una cadena como primer argumento para nombrar la colección escalar personalizada. Este es el nombre que se usará para visualizar los valores escalares y puede ser cualquier TensorBoard cadena que desees.
-
Utilice
hook.save_tensor()
para guardar tensores personalizados. Del mismo modo que hook.save_scalar()
, puede guardar tensores adicionales y definir su propia colección de tensores. Por ejemplo, puede extraer los datos de imagen de entrada que se pasan al modelo y guardarlos como un tensor personalizado añadiendo la siguiente línea de código, donde "images"
es un nombre de ejemplo del tensor personalizado,image_inputs
es una variable de ejemplo para los datos de la imagen de entrada.hook.save_tensor("images", image_inputs)
Tenga en cuenta que debe proporcionar una cadena al primer argumento para nombrar el tensor personalizado.
hook.save_tensor()
tiene el tercer argumentocollections_to_write
para especificar la colección de tensores para guardar el tensor personalizado. El valor predeterminado escollections_to_write="default"
. Si no especifica explícitamente el tercer argumento, el tensor personalizado se guardará en la colección de tensores"default"
.
Cuando haya terminado de adaptar su script de entrenamiento, continúe con Lanza trabajos de formación con Debugger usando Python SageMaker SDK.