Configuration de tâches de formation pour accéder aux ensembles de données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration de tâches de formation pour accéder aux ensembles de données

Lorsque vous créez une tâche de formation, vous spécifiez l'emplacement des ensembles de données de formation dans le stockage de données de votre choix et le mode de saisie des données pour la tâche. Amazon SageMaker prend en charge Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon) et EFS FSx Amazon for Lustre. Vous pouvez choisir l'un des modes de saisie pour diffuser l'ensemble de données en temps réel ou télécharger l'ensemble de données au début de la tâche de formation.

Note

Votre ensemble de données doit se trouver dans le même Région AWS emplacement que le poste de formation.

SageMaker modes de saisie et options de stockage AWS dans le cloud

Cette section fournit un aperçu des modes de saisie de fichiers pris en charge par SageMaker les données stockées dans Amazon EFS et Amazon FSx for Lustre.

Résumé des modes de SageMaker saisie pour Amazon S3 et des systèmes de fichiers d'Amazon EFS et d'Amazon FSx for Lustre.
  • Le mode Fichier présente une vue du système de fichiers du jeu de données dans le conteneur d'entraînement. Il s'agit du mode d'entrée par défaut si vous ne spécifiez pas explicitement l'une des deux autres options. Si vous utilisez le mode fichier, SageMaker télécharge les données d'entraînement depuis l'emplacement de stockage vers un répertoire local du conteneur Docker. L'entraînement commence une fois que le jeu de données complet a été téléchargé. En mode fichier, l'instance d'entraînement doit disposer d'un espace de stockage suffisant pour contenir l'ensemble du jeu de données. La vitesse de téléchargement du mode fichier dépend de la taille du jeu de données, de la taille moyenne des fichiers et du nombre de fichiers. Vous pouvez configurer le jeu de données pour le mode fichier en fournissant un préfixe Amazon S3, un fichier manifeste ou un fichier manifeste augmenté. Vous devez utiliser un préfixe S3 lorsque tous les fichiers de votre jeu de données se trouvent dans un préfixe S3 commun. Le mode fichier est compatible avec le mode SageMaker local (démarrage interactif d'un conteneur d' SageMaker entraînement en quelques secondes). Pour les formations distribuées, vous pouvez partager le jeu de données entre plusieurs instances avec l'option ShardedByS3Key.

  • Le mode Fichier rapide fournit un accès au système de fichiers à une source de données Amazon S3 tout en tirant parti de l'avantage de performance du mode tube. Au début de l'entraînement, le mode Fichier rapide identifie les fichiers de données, mais ne les télécharge pas. L'entraînement peut commencer sans attendre le téléchargement du jeu de données. Cela signifie que le kit SDK prend moins de temps lorsque le préfixe Amazon S3 fourni contient moins de fichiers.

    Contrairement au mode tube, le mode Fichier rapide fonctionne avec un accès aléatoire aux données. Cependant, il fonctionne mieux lorsque les données sont lues de manière séquentielle. Le mode Fichier rapide ne prend pas en charge les fichiers manifestes augmentés.

    Le mode fichier rapide expose les objets S3 à l'aide d'une interface de système de fichiers POSIX compatible, comme si les fichiers étaient disponibles sur le disque local de votre instance d'entraînement. Il diffuse du contenu S3 à la demande alors que votre script d'entraînement consomme des données. Cela signifie que votre jeu de données n'a plus besoin de tenir dans l'espace de stockage de l'instance d'entraînement dans son ensemble et que vous n'avez pas besoin d'attendre que le jeu de données soit téléchargé sur l'instance d'entraînement avant de commencer l'entraînement. Fichier rapide ne prend actuellement en charge que les préfixes S3 (il ne prend pas en charge les manifestes et les manifestes augmentés). Le mode fichier rapide est compatible avec le mode SageMaker local.

  • Le mode Canal diffuse les données directement à partir d'une source de données Amazon S3. Le streaming peut fournir des temps de démarrage plus rapides et un meilleur débit que le mode .

    Lorsque vous diffusez les données directement, vous pouvez réduire la taille des EBS volumes Amazon utilisés par l'instance de formation. En mode Canal, l'espace disque doit être suffisant pour stocker votre artefact de modèle final.

    Il s'agit d'un autre mode de streaming largement remplacé par le mode fichier plus récent et simpler-to-use rapide. En mode canal, les données sont préextraites d'Amazon S3 avec un débit et une simultanéité élevés, puis diffusées dans un canal nommé, également connu sous le nom de canal First-In-First-Out (FIFO) en raison de son comportement. Chaque canal ne peut être lu que par un seul processus. Une extension SageMaker spécifique permettant d'intégrer TensorFlow facilement le mode Pipe dans le chargeur de TensorFlow données natif pour le streaming de texte ou les TFRecords formats de fichiers RecorDio. Le mode Canal prend également en charge le partitionnement et le brassage gérés des données.

  • Amazon S3 Express One Zone est une classe de stockage haute performance à zone de disponibilité unique capable de fournir un accès aux données cohérent à un chiffre en millisecondes pour les applications les plus sensibles à la latence, y compris la formation des modèles. SageMaker Amazon S3 Express One Zone permet aux clients de regrouper leurs ressources de stockage d'objets et de calcul dans une seule zone de AWS disponibilité, optimisant à la fois les performances de calcul et les coûts grâce à une vitesse de traitement des données accrue. Pour augmenter encore la vitesse d'accès et prendre en charge des centaines de milliers de demandes par seconde, les données sont stockées dans un nouveau type de compartiment, un compartiment d'annuaire Amazon S3.

    SageMaker model training prend en charge les compartiments de répertoire Amazon S3 Express One Zone à hautes performances en tant qu'emplacement d'entrée de données pour le mode fichier, le mode fichier rapide et le mode canal. Pour utiliser Amazon S3 Express One Zone, saisissez l'emplacement du compartiment de répertoire Amazon S3 Express One Zone au lieu d'un compartiment Amazon S3. Fournissez ARN au IAM rôle la politique de contrôle d'accès et d'autorisation requise. Pour plus d'informations, consultez AmazonSageMakerFullAccesspolicy. Vous ne pouvez chiffrer vos données de SageMaker sortie que dans des compartiments d'annuaire avec un chiffrement côté serveur avec des clés gérées par Amazon S3 (-S3). SSE Le chiffrement côté serveur à l'aide de AWS KMS clés (SSE-KMS) n'est actuellement pas pris en charge pour le stockage des données SageMaker de sortie dans des compartiments de répertoire. Pour plus d'informations, consultez Amazon S3 Express One Zone.

  • Amazon FSx for Lustre — FSx for Lustre peut atteindre des centaines de gigaoctets de débit et des millions de gigaoctets grâce à une extraction de fichiers IOPS à faible latence. Lorsque vous démarrez une tâche de formation, SageMaker monte le système de fichiers FSx for Lustre sur le système de fichiers de l'instance d'apprentissage, puis lance votre script de formation. Le montage lui-même est une opération relativement rapide qui ne dépend pas de la taille du jeu de données stocké dans FSx Lustre.

    FSxPour accéder à Lustre, votre stage de formation doit se connecter à un Amazon Virtual Private Cloud (VPC), ce qui nécessite une DevOps configuration et une implication. Pour éviter les coûts de transfert de données, le système de fichiers utilise une seule zone de disponibilité, et vous devez spécifier un VPC sous-réseau mappé à cet ID de zone de disponibilité lors de l'exécution de la tâche de formation.

  • Amazon EFS — Pour utiliser Amazon EFS comme source de données, les données doivent déjà se trouver sur Amazon EFS avant la formation. SageMaker monte le système de EFS fichiers Amazon spécifié sur l'instance de formation, puis lance votre script de formation. Votre formation doit être connectée à un VPC pour accéder à AmazonEFS.

    Astuce

    Pour en savoir plus sur la façon de spécifier votre VPC configuration aux SageMaker estimateurs, consultez la section Utiliser des systèmes de fichiers comme entrées d'apprentissage dans la documentation SageMakerPython SDK.