Contrôler le flux des objets de données envoyés aux employés - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Contrôler le flux des objets de données envoyés aux employés

Selon le type de tâche d'étiquetage que vous créez, Amazon SageMaker Ground Truth envoie des objets de données aux employés par lots ou en streaming. Vous pouvez contrôler le flux d'objets de données vers les employés de la manière suivante :

  • Pour les deux types de travaux d'étiquetage, vous pouvez utiliser MaxConcurrentTaskCount pour contrôler le nombre total d'objets de données disponibles pour tous les employés à un moment donné lors de l'exécution de la tâche d'étiquetage.

  • Pour les tâches d'étiquetage en streaming, vous pouvez contrôler le flux d'objets de données vers les travailleurs en surveillant et en contrôlant le nombre d'objets de données envoyés à Amazon SQS associés à votre tâche d'étiquetage.

Utilisez les sections suivantes pour en savoir plus sur ces options. Pour en savoir plus sur les tâches d'étiquetage en streaming, veuillez consulter Tâches d'étiquetage en streaming Ground Truth.

MaxConcurrentTaskCount À utiliser pour contrôler le flux d'objets de données

MaxConcurrentTaskCount définit le nombre maximal d'objets de données qui peuvent être étiquetées par les employés humains en même temps. Si vous utilisez la console, ce paramètre est défini à 1 000. Si vous utilisez CreateLabelingJob, vous pouvez définir ce paramètre sur n'importe quel nombre entier compris entre 1 et 1 000 inclus.

Lorsque vous démarrez une tâche d'étiquetage à l'aide d'un fichier manifeste source, Ground Truth effectue les opérations suivantes :

  1. Pour chaque objet de données répertorié dans votre fichier manifeste source, une ou plusieurs tâches sont créées, en fonction de la valeur que vous spécifiez pour NumberOfHumanWorkersPerDataObject. Par exemple, si vous définissez le nombre d'employés par objet de données sur 3, 3 tâches seront créées pour chaque objet de jeu de données. Pour être marqué comme étiqueté avec succès, au moins un employé doit étiqueter l'objet. Alternativement, les tâches peuvent expirer ou être refusées.

  2. Si vous utilisez la main-d'œuvre Mechanical Turk, Ground Truth envoie d'abord un lot de 10 objets de jeu de données à vos employés. Il utilise ce petit lot pour configurer la tâche d'étiquetage et veiller à ce que cette dernière soit correctement configurée.

  3. Ensuite, Ground Truth envoie MaxConcurrentTaskCount nombre d'objets de jeu de données aux employés. Par exemple, si vous avez 2 000 objets de données source dans votre fichier manifeste source, que vous avez défini le nombre d'employés par objet de données sur 3 et que vous définissez MaxConcurrentTaskCount à 900, les 900 premiers objets de données de votre manifeste d'entrée sont envoyés aux employés, ce qui correspond à 2 700 tâches (900 x 3). Il s'agit du premier jeu complet d'objets envoyés aux employés.

  4. Ce qui se produit dépend du type de tâche d'étiquetage que vous créez. Cette étape suppose qu'un ou plusieurs objets de jeu de données figurant dans votre fichier manifeste d'entrée ou envoyés via une source de données SNS d'entrée Amazon (dans le cadre d'une tâche d'étiquetage en continu) n'ont pas été inclus dans l'ensemble envoyé aux travailleurs à l'étape 3.

    • Tâche d'étiquetage en continu : tant que le nombre total d'objets mis à la disposition des travailleurs est égal àMaxConcurrentTaskCount, tous les objets de jeu de données restants de votre fichier manifeste d'entrée et que vous envoyez en temps réel via Amazon SNS sont placés dans une SQS file d'attente Amazon. Lorsque le nombre total d'objets disponibles aux employés est inférieur à MaxConcurrentTaskCount moins NumberOfHumanWorkersPerDataObject, un nouvel objet de données de la file d'attente est utilisé pour créer NumberOfHumanWorkersPerDataObject-tâches, qui sont envoyées aux employés en temps réel.

    • Tâche d'étiquetage ponctuelle (qui ne s'exécute pas en streaming) : au fur et à mesure que les employés terminent l'étiquetage d'un jeu d'objets, jusqu'à MaxConcurrentTaskCount x NumberOfHumanWorkersPerDataObject nombre de nouvelles tâches seront envoyées aux employés. Ce processus est répété jusqu'à ce que tous les objets de données du fichier manifeste source soient étiquetés.

Utilisez Amazon SQS pour contrôler le flux d'objets de données vers les tâches d'étiquetage en continu

Lorsque vous créez une tâche d'étiquetage en streaming, une SQS file d'attente Amazon est automatiquement créée dans votre compte. Les objets de données ne sont ajoutés à la SQS file d'attente Amazon que lorsque le nombre total d'objets envoyés aux travailleurs est supérieurMaxConcurrentTaskCount. Sinon, les objets sont envoyés directement aux employés.

Vous pouvez utiliser cette file d'attente pour gérer le flux d'objets de données vers votre tâche d'étiquetage. Pour en savoir plus, consultez Gérez les demandes d'étiquetage avec une SQS file d'attente Amazon .