Chaînage des tâches d'étiquetage - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Chaînage des tâches d'étiquetage

Amazon SageMaker Ground Truth peut réutiliser des ensembles de données issus de tâches antérieures de deux manières : le clonage et le chaînage.

Le clonage copie la configuration d'une tâche d'étiquetage préalable et vous permet d'apporter des modifications supplémentaires, avant de préparer l'exécution.

Le chaînage utilise non seulement la configuration de la tâche antérieure, mais aussi les résultats. Cela vous permet de poursuivre une tâche incomplète et d'ajouter des étiquettes ou des objets de données à une tâche terminée. Le chaînage est une opération plus complexe.

Pour le traitement des données :

  • Le clonage utilise le manifeste d'entrée de la tâche précédente, avec des modifications facultatives, comme le manifeste d'entrée du nouveau travail.

  • Le chaînage utilise le manifeste de sortie de la tâche précédente comme manifeste d'entrée de la nouvelle tâche.

Le chaînage est utile lorsque vous devez :

  • Poursuivre une tâche d'étiquetage qui a été arrêtée manuellement.

  • Continuez un travail d'étiquetage qui a échoué en milieu de travail, après avoir corrigé les problèmes.

  • Basculer vers l'étiquetage automatisé après l'étiquetage manuel dans le cadre d'une tâche (ou inversement).

  • Ajouter d'autres objets de données à la fin de la tâche et de démarrer la tâche à partir de là.

  • Ajouter une autre annotation à une tâche terminée. Par exemple, vous disposez d'un ensemble de phrases étiquetées pour la rubrique, puis vous souhaitez exécuter l'ensemble à nouveau, le classer par public implicite de la rubrique.

Dans Amazon SageMaker Ground Truth, vous pouvez configurer une tâche d'étiquetage en chaîne à l'aide de la console ou duAPI.

Terme clé : nom d'attribut de l'étiquette

Le nom de l'attribut d'étiquette (LabelAttributeNamedans leAPI) est une chaîne utilisée comme clé pour la paire clé-valeur formée avec l'étiquette qu'un travailleur attribue à l'objet de données.

Les règles suivantes s'appliquent au nom d'attribut d'étiquette :

  • Ne peut pas finir par -metadata.

  • Les noms source et source-ref sont réservés et ne peuvent pas être utilisés.

  • Pour les travaux d'étiquetage de segmentation sémantique, il doit se terminer par -ref. Pour tous les autres travaux d'étiquetage, cela ne peut pas se terminer par -ref. Si vous utilisez la console pour créer la tâche, Amazon SageMaker Ground Truth ajoute automatiquement les noms d'attributs -ref à tous les labels, à l'exception des tâches de segmentation sémantique.

  • Si vous utilisez le même nom d'attribut d'étiquette à partir de la tâche initiale et que vous configurez la tâche pour utiliser l'étiquetage automatique, s'il a été en mode d'étiquetage automatique à un moment donné, Ground Truth utilise le modèle de la tâche initiale.

Dans un manifeste de sortie, le nom de l'attribut label apparaît similaire au suivant.

"source-ref": "<S3 URI>", "<label attribute name>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name>-metadata": { "job-name": "<job name>", "class-map": { "0": "<label attribute name>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp>", "type": "groundtruth/object-detection" }

Si vous créez une tâche dans la console et que vous ne définissez pas explicitement la valeur du nom d'attribut de l'étiquette, Ground Truth utilise le nom de la tâche comme nom d'attribut d'étiquette pour la tâche.

Démarrer une tâche chaînée (console)

Sélectionnez une tâche d'étiquetage arrêtée, échouée ou terminée dans la liste de vos tâches existantes. Cela active le menu Actions.

Dans le menu Actions, choisissez Chain (Chaîner).

Panneau de présentation de tâche

Dans le panneau Présentation de la tâche, un nouveau Nom de tâche est défini en fonction du titre de la tâche à partir de laquelle vous chaînez celle-ci. Vous pouvez le modifier.

Vous pouvez également spécifier un nom d'attribut d'étiquette différent de celui de la tâche d'étiquetage.

Si vous chaînez depuis une tâche terminée, le nom d'attribut de l'étiquette utilise le nom de la nouvelle tâche que vous configurez. Pour modifier le nom, cochez la case.

Si vous chaînez à partir d'une tâche arrêtée ou échouée, le nom de l'attribut de l'étiquette utilise le nom de la tâche à partir de laquelle vous chaînez. Il est facile de voir et de modifier la valeur, car la case à cocher du nom est activée.

Considérations sur l'attribution de noms aux étiquettes d'attributs
  • La valeur par défaut utilise le nom d'attribut de l'étiquette que Ground Truth a sélectionné. Tous les objets de données sans données connectées à ce nom d'attribut d'étiquette sont étiquetés.

  • L'utilisation d'un nom d'attribut d'étiquette qui n'est pas présent dans le manifeste fait que la tâche traite tous les objets de l'ensemble de données.

L'emplacement de l'ensemble de données d'entrée dans ce cas est sélectionné automatiquement comme manifeste de sortie de la tâche chaînée. Le champ de saisie n'est pas disponible, vous ne pouvez pas le modifier.

Ajout des objets de données pour une tâche d'étiquetage

Vous ne pouvez pas spécifier un autre fichier manifeste. Modifiez manuellement la sortie manifeste à partir de la tâche précédente pour ajouter de nouveaux éléments avant de démarrer une tâche de chaînage. Amazon S3 vous URI aide à localiser l'endroit où vous stockez le manifeste dans votre compartiment Amazon S3. Téléchargez le fichier manifeste à partir de là, modifiez-le localement sur votre ordinateur, puis téléchargez la nouvelle version pour le remplacer. Vérifiez que vous n'ajoutez pas d'erreurs lors de la modification. Nous vous recommandons d'utiliser du JSON linter pour vérifier votreJSON. De nombreux éditeurs de texte populaires et IDEs des plugins Linter sont disponibles.

Démarrer un Chained Job () API

La procédure est presque identique à la mise en place d'une nouvelle tâche d'étiquetage avec CreateLabelingJob, à l'exception de deux différences principales.

  • Emplacement du manifeste : plutôt que d'utiliser le manifeste original de la tâche précédente, la valeur du ManifestS3Uri in DataSource doit pointer vers l'Amazon S3 URI du manifeste de sortie de la tâche d'étiquetage précédente.

  • Nom d'attribut de l'étiquette : il est important de définir la valeur correcte pour LabelAttributeName ici. Il s'agit de la partie clé d'une paire clé-valeur où les données d'étiquetage constituent la valeur. Les exemples de cas d'utilisation incluent :

    • Ajout de nouvelles étiquettes ou d'étiquettes spécifiques à une tâche terminée — Définit un nouveau nom d'attribut d'étiquette.

    • Étiquetage d'articles sans étiquette d'une tâche précédente — Utilise le nom d'attribut de l'étiquette d'une tâche précédente.

Utiliser un ensemble de données étiquetées partiellement

Vous pouvez obtenir certains avantages de chaînage si vous utilisez un manifeste augmenté qui a déjà été partiellement étiqueté. Activez la case à cocher Nom d'attribut d'étiquette et définissez le nom de façon à ce qu'il corresponde au nom dans votre fichier manifeste.

Si vous utilisez leAPI, les instructions sont les mêmes que celles pour démarrer une tâche chaînée. Toutefois, n'oubliez pas de télécharger votre fichier manifeste dans un compartiment Amazon S3 et utilisez-le au lieu d'utiliser le manifeste de sortie d'une tâche précédente.

La valeur du nom d'attribut d'étiquette dans le manifeste doit respecter les considérations relatives à l'attribution de noms présentées ci-dessus.