Configuración de trabajos de entrenamiento para tener acceso a los conjuntos de datos - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de trabajos de entrenamiento para tener acceso a los conjuntos de datos

Al crear un trabajo de entrenamiento, debe especificar la ubicación de los conjuntos de datos de entrenamiento en el almacenamiento de datos que prefiera y el modo de entrada de datos para dicho trabajo. Amazon SageMaker AI es compatible con Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) y FSx Amazon for Lustre. Puede elegir uno de los modos de entrada para transmitir el conjunto de datos en tiempo real o descargarlo por completo al inicio del trabajo de entrenamiento.

nota

Su conjunto de datos debe residir en el mismo lugar Región de AWS que el trabajo de formación.

SageMaker Modos de entrada de IA y opciones de almacenamiento AWS en la nube

En esta sección se proporciona información general sobre los modos de entrada de archivos que admiten los datos almacenados en Amazon EFS y Amazon FSx for Lustre. SageMaker

Resumen de los modos de entrada de SageMaker IA para Amazon S3 y los sistemas de archivos de Amazon EFS y Amazon FSx for Lustre.
  • El modo de archivo presenta una vista del sistema de archivos del conjunto de datos en el contenedor de entrenamiento. Este es el modo de entrada predeterminado si no especifica explícitamente una de las otras dos opciones. Si utiliza el modo de archivo, la SageMaker IA descarga los datos de entrenamiento de la ubicación de almacenamiento a un directorio local del contenedor de Docker. El entrenamiento comienza después de descargar todo el conjunto de datos. En el modo de archivo, la instancia de entrenamiento debe tener suficiente espacio de almacenamiento para caber todo el conjunto de datos. La velocidad de descarga en el modo de archivo depende del tamaño del conjunto de datos, del tamaño medio de los archivos y del número de archivos. Puede configurar el conjunto de datos para el modo de archivo proporcionando un prefijo de Amazon S3, un archivo de manifiesto o un archivo de manifiesto aumentado. Debe usar un prefijo S3 cuando todos los archivos del conjunto de datos estén ubicados dentro de un prefijo S3 común. El modo de archivo es compatible con el modo local de SageMaker IA (iniciar un contenedor de SageMaker entrenamiento de forma interactiva en cuestión de segundos). Para el entrenamiento distribuido, puede dividir el conjunto de datos en varias instancias con la opción ShardedByS3Key.

  • El modo de archivos rápido proporciona acceso del sistema de archivos a un origen de datos de Amazon S3 y, al mismo tiempo, aprovecha la ventaja de rendimiento del modo de canalización. Al inicio del entrenamiento, el modo de archivo rápido identifica los archivos de datos pero no los descarga. El entrenamiento puede comenzar sin esperar a que se descargue todo el conjunto de datos. Esto significa que el inicio del entrenamiento tarda menos tiempo cuando hay menos archivos en el prefijo Amazon S3 proporcionado.

    A diferencia del modo canalizado, el modo de archivo rápido funciona con un acceso aleatorio a los datos. Sin embargo, funciona mejor cuando los datos se leen secuencialmente. El modo de archivo rápido no admite archivos de manifiesto aumentados.

    El modo de archivo rápido expone los objetos S3 mediante una interfaz de sistema de archivos compatible con POSIX, como si los archivos estuvieran disponibles en el disco local de la instancia de entrenamiento. Transmite el contenido de S3 bajo demanda a medida que el script de entrenamiento consume datos. Esto significa que su conjunto de datos ya no necesita caber en todo el espacio de almacenamiento de la instancia de entrenamiento, por lo que no necesita esperar a que el conjunto de datos se descargue en la instancia de entrenamiento antes de que comience el entrenamiento. Actualmente, archivo rápido solo admite prefijos S3 (no admite manifiesto ni manifiesto aumentado). El modo de archivo rápido es compatible con el modo local de SageMaker IA.

  • El modo de canalización transmite datos directamente desde un origen de datos de Amazon S3. La transmisión puede proporcionar tiempos de inicio más rápidos para trabajos de entrenamiento y un mejor rendimiento que el modo de archivo.

    Al transmitir los datos directamente, puede reducir el tamaño de los volúmenes de Amazon EBS que utiliza la instancia de entrenamiento. El modo de canalización solo necesita suficiente espacio en disco para almacenar sus artefactos de modelo final.

    Es otro modo de transmisión que ha sido reemplazado en gran medida por el modo de archivo más nuevo y simpler-to-use rápido. En el modo de canalización, los datos se obtienen previamente de Amazon S3 con un alto nivel de simultaneidad y rendimiento, y se transmiten a una canalización con nombre, que también se conoce como canalización First-In-First-Out (FIFO) por su comportamiento. Cada canalización solo puede leerse mediante un único proceso. Una extensión específica de SageMaker IA que integra TensorFlow cómodamente el modo Pipe en el cargador de TensorFlow datos nativo para la transmisión de texto o formatos de archivo Recordio. TFRecords El modo de canalización también permite fragmentar y mezclar datos de forma gestionada.

  • Amazon S3 Express One Zone es una clase de almacenamiento de alto rendimiento y zona de disponibilidad única que puede ofrecer un acceso uniforme a los datos en milisegundos de un solo dígito para las aplicaciones más sensibles a la latencia, incluida la formación de modelos. SageMaker Amazon S3 Express One Zone permite a los clientes colocar sus recursos informáticos y de almacenamiento de objetos en una única zona de AWS disponibilidad, lo que optimiza tanto el rendimiento como los costes informáticos con una mayor velocidad de procesamiento de datos. Para aumentar aún más la velocidad de acceso y admitir cientos de miles de solicitudes por segundo, los datos se almacenan en un nuevo tipo de bucket: un bucket de directorio de Amazon S3.

    SageMaker El entrenamiento con modelos de IA admite depósitos de directorio Amazon S3 Express One Zone de alto rendimiento como ubicación de entrada de datos para el modo archivo, el modo de archivo rápido y el modo canalizado. Para utilizar Amazon S3 Express One Zone, introduzca la ubicación del bucket del directorio de Amazon S3 Express One Zone en lugar de un bucket de Amazon S3. Proporcione el ARN del rol de IAM con la política pertinente de permisos y control de acceso. Consulte AmazonSageMakerFullAccesspolicy para obtener más información. Solo puede cifrar los datos de salida de SageMaker IA en depósitos de directorio con cifrado del lado del servidor con claves administradas de Amazon S3 (SSE-S3). Actualmente, no se admite el cifrado con AWS KMS claves del lado del servidor (SSE-KMS) para almacenar los datos de salida de la IA en depósitos de directorio. SageMaker Para obtener más información, consulte Amazon S3 Express One Zone.

  • Amazon FSx for Lustre: FSx for Lustre puede escalar hasta cientos de gigabytes de rendimiento y millones de IOPS con una recuperación de archivos de baja latencia. Al iniciar un trabajo de formación, la SageMaker IA monta el sistema de archivos de Lustre en el sistema FSx de archivos de la instancia de formación y, a continuación, inicia el guion de formación. El montaje en sí mismo es una operación relativamente rápida que no depende del tamaño del conjunto de datos almacenado en Lustre FSx .

    FSx Para acceder a Lustre, su trabajo de formación debe conectarse a una Amazon Virtual Private Cloud (VPC), lo que requiere configuración y participación. DevOps Para evitar los costes de transferencia de datos, el sistema de archivos utiliza una única zona de disponibilidad y, al ejecutar el trabajo de entrenamiento, debe especificar una subred de VPC que se asigne a este ID de zona de disponibilidad.

  • Amazon EFS: para utilizar Amazon EFS como fuente de datos, los datos ya deben residir en Amazon EFS antes de la formación. SageMaker La IA monta el sistema de archivos Amazon EFS especificado en la instancia de entrenamiento y, a continuación, inicia el guion de entrenamiento. Su trabajo de entrenamiento debe conectarse a una VPC para acceder a Amazon EFS.

    sugerencia

    Para obtener más información sobre cómo especificar la configuración de su VPC para los estimadores de SageMaker IA, consulte Uso de sistemas de archivos como entradas de formación en la documentación del SDK de SageMaker Python para IA.