Format de fichier manifeste augmenté pour l'entraînement en mode Pipe - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Format de fichier manifeste augmenté pour l'entraînement en mode Pipe

Le format manifeste augmenté permet de procéder à l'entraînement en mode Pipe en utilisant des fichiers image sans créer de fichiers RecordIO. Vous devez spécifier les canaux d'entraînement et de validation en tant que valeurs du paramètre InputDataConfig de la demande CreateTrainingJob. Les fichiers manifestes augmentés sont uniquement pris en charge pour les canaux qui utilisent le mode d'entrée Pipe (Tube). Pour chaque canal, les données sont extraites à partir du fichier manifeste augmenté et diffusées (dans l'ordre) à l'algorithme via le tube nommé du canal. Le mode Pipe utilise la méthode first in first out (FIFO), de sorte que les enregistrements sont traités dans l'ordre dans lequel ils sont placés en file d'attente. Pour de plus amples informations sur le mode d'entrée Pipe, veuillez consulter Input Mode.

Les noms d'attribut avec un suffixe "-ref" pointent vers des données binaires préformatées. Dans certains cas, l'algorithme sait comment analyser les données. Dans d'autres cas, vous pouvez avoir besoin d'encapsuler les données afin de délimiter les enregistrements pour l'algorithme. Si l'algorithme est compatible avec les données au format RecordIO, la spécification de RecordIO pour RecordWrapperType résout le problème. Si l'algorithme n'est pas compatible avec le format RecordIO, spécifiez None pour RecordWrapperType et assurez-vous que vos données sont analysées correctement pour votre algorithme.

Si nous reprenons l'exemple ["image-ref", "is-a-cat"], l'utilisation du type d'encapsulage RecordIO entraîne l'envoi du flux de données suivant à la file d'attente :

recordio_formatted(s3://amzn-s3-demo-bucket/foo/image1.jpg)recordio_formatted("1")recordio_formatted(s3://amzn-s3-demo-bucket/bar/image2.jpg)recordio_formatted("0")

Les images qui ne sont pas encapsulées au format RecordIO sont envoyées avec la valeur d'attribut is-a-cat correspondante sous la forme d'un enregistrement. Cela peut entraîner un problème, car l'algorithme peut ne pas délimiter correctement les images et les attributs. Pour plus d'informations sur l'utilisation de fichiers manifestes augmentés pour la classification d'images, consultez la section Train with Augmented Manifest Image Format (Entraînement avec le format d'image Manifeste augmenté).

Avec les fichiers manifestes augmentés et le mode Pipe en général, les limites de taille du EBS volume ne s'appliquent pas. Cela inclut les paramètres qui, sinon, doivent respecter la limite de taille du EBS volume, tels que S3DataDistributionType . Pour plus d'informations sur le mode Pipe et la façon de l'utiliser, consultez la section Using Your Own Training Algorithms - Input Data Configuration (Utilisation de vos propres algorithmes d'entraînement - Configuration des données d'entrée).