Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Configurar el canal de entrada de datos para usar Amazon FSx for Lustre

Modo de enfoque
Configurar el canal de entrada de datos para usar Amazon FSx for Lustre - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Aprenda a usar Amazon FSx for Lustre como fuente de datos para obtener un mayor rendimiento y un entrenamiento más rápido al reducir el tiempo de carga de los datos.

nota

Cuando utilice instancias habilitadas para EFA, como P4d y P3dn, asegúrese de establecer las reglas de entrada y salida adecuadas en el grupo de seguridad. Especialmente, es necesario abrir estos puertos para que la SageMaker IA acceda al sistema de FSx archivos de Amazon en el trabajo de formación. Para obtener más información, consulte Control de acceso al sistema de archivos con Amazon VPC.

Sincronice Amazon S3 y Amazon FSx for Lustre

Para vincular Amazon S3 a Amazon FSx for Lustre y cargar sus conjuntos de datos de entrenamiento, haga lo siguiente.

  1. Prepare su conjunto de datos y cargue a un bucket de Amazon S3. Por ejemplo, supongamos que las rutas de Amazon S3 para un conjunto de datos de entrenamiento y un conjunto de datos de pruebas tienen el siguiente formato.

    s3://amzn-s3-demo-bucket/data/train s3://amzn-s3-demo-bucket/data/test
  2. Para crear un sistema de archivos FSx para Lustre vinculado al bucket de Amazon S3 con los datos de entrenamiento, siga los pasos que se indican en Cómo vincular su sistema de archivos a un bucket de Amazon S3 en la Guía del usuario de Amazon FSx for Lustre. Asegúrese de añadir un punto de conexión a su VPC que permita el acceso a Amazon S3. Para obtener más información, consulte Creación de un punto de conexión de VPC de Amazon S3. Cuando especifique la Ruta del repositorio de datos, proporcione el URI del bucket de Amazon S3 de la carpeta que contiene sus conjuntos de datos. Por ejemplo, según las rutas de S3 de ejemplo del paso 1, la ruta del repositorio de datos debe ser la siguiente.

    s3://amzn-s3-demo-bucket/data
  3. Una vez creado el sistema de archivos FSx para Lustre, compruebe la información de configuración ejecutando los siguientes comandos.

    aws fsx describe-file-systems && \ aws fsx describe-data-repository-association

    Estos comandos devuelven FileSystemId, MountName, FileSystemPath y DataRepositoryPath. El resultado debe ser similar al siguiente ejemplo.

    # Output of aws fsx describe-file-systems "FileSystemId": "fs-0123456789abcdef0" "MountName": "1234abcd" # Output of aws fsx describe-data-repository-association "FileSystemPath": "/ns1", "DataRepositoryPath": "s3://amzn-s3-demo-bucket/data/"

    Una vez finalizada la sincronización entre Amazon S3 y Amazon FSx , sus conjuntos de datos se guardan en Amazon FSx en los siguientes directorios.

    /ns1/train # synced with s3://amzn-s3-demo-bucket/data/train /ns1/test # synced with s3://amzn-s3-demo-bucket/data/test

Configura la ruta del sistema de FSx archivos de Amazon como canal de entrada de datos para el SageMaker entrenamiento

Los siguientes procedimientos le guiarán por el proceso de configuración del sistema de FSx archivos de Amazon como fuente de datos para los trabajos de SageMaker formación.

Using the SageMaker Python SDK

Para configurar correctamente el sistema de FSx archivos de Amazon como fuente de datos, configure las clases del estimador de SageMaker IA y siga las FileSystemInput instrucciones siguientes.

  1. Configure un objeto de FileSystemInput clase.

    from sagemaker.inputs import FileSystemInput train_fs = FileSystemInput( file_system_id="fs-0123456789abcdef0", file_system_type="FSxLustre", directory_path="/1234abcd/ns1/", file_system_access_mode="ro", )
    sugerencia

    Cuando lo especifiquesdirectory_path, asegúrate de proporcionar la ruta del sistema de FSx archivos de Amazon que empieza porMountName.

  2. Configure un estimador de SageMaker IA con la configuración de VPC utilizada para el sistema de archivos de Amazon. FSx

    from sagemaker.estimator import Estimator estimator = Estimator( ... role="your-iam-role-with-access-to-your-fsx", subnets=["subnet-id"], # Should be the same as the subnet used for Amazon FSx security_group_ids="security-group-id" )

    Asegúrese de que el rol de IAM para el trabajo de SageMaker formación tenga los permisos de acceso y lectura desde Amazon FSx.

  3. Inicie el trabajo de formación ejecutando el método estimator.fit con el sistema de archivos de Amazon. FSx

    estimator.fit(train_fs)

Para obtener más ejemplos de código, consulte Uso de sistemas de archivos como entradas de formación en la documentación del SDK de SageMaker Python.

Using the SageMaker AI CreateTrainingJob API

Como parte de la CreateTrainingJobsolicitud JSON, configúrelo de la InputDataConfig siguiente manera.

"InputDataConfig": [ { "ChannelName": "string", "DataSource": { "FileSystemDataSource": { "DirectoryPath": "/1234abcd/ns1/", "FileSystemAccessMode": "ro", "FileSystemId": "fs-0123456789abcdef0", "FileSystemType": "FSxLustre" } } } ],
sugerencia

Cuando lo especifiquesDirectoryPath, asegúrate de proporcionar la ruta del sistema de FSx archivos de Amazon que empieza porMountName.

Para configurar correctamente el sistema de FSx archivos de Amazon como fuente de datos, configure las clases del estimador de SageMaker IA y siga las FileSystemInput instrucciones siguientes.

  1. Configure un objeto de FileSystemInput clase.

    from sagemaker.inputs import FileSystemInput train_fs = FileSystemInput( file_system_id="fs-0123456789abcdef0", file_system_type="FSxLustre", directory_path="/1234abcd/ns1/", file_system_access_mode="ro", )
    sugerencia

    Cuando lo especifiquesdirectory_path, asegúrate de proporcionar la ruta del sistema de FSx archivos de Amazon que empieza porMountName.

  2. Configure un estimador de SageMaker IA con la configuración de VPC utilizada para el sistema de archivos de Amazon. FSx

    from sagemaker.estimator import Estimator estimator = Estimator( ... role="your-iam-role-with-access-to-your-fsx", subnets=["subnet-id"], # Should be the same as the subnet used for Amazon FSx security_group_ids="security-group-id" )

    Asegúrese de que el rol de IAM para el trabajo de SageMaker formación tenga los permisos de acceso y lectura desde Amazon FSx.

  3. Inicie el trabajo de formación ejecutando el método estimator.fit con el sistema de archivos de Amazon. FSx

    estimator.fit(train_fs)

Para obtener más ejemplos de código, consulte Uso de sistemas de archivos como entradas de formación en la documentación del SDK de SageMaker Python.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.