Steuern des Flusses von Datenobjekten, die an Worker gesendet werden - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Steuern des Flusses von Datenobjekten, die an Worker gesendet werden

Abhängig von der Art des von Ihnen erstellten Kennzeichnungsauftrags sendet Amazon SageMaker Ground Truth Datenobjekte stapelweise oder im Streaming-Modus an Mitarbeiter. Sie können den Fluss von Datenobjekten an Worker wie folgt steuern:

  • Bei beiden Arten von Kennzeichnungsaufträgen können Sie mit MaxConcurrentTaskCount die Gesamtzahl der Datenobjekte steuern, die allen Workern zu einem bestimmten Zeitpunkt, zu dem der Kennzeichnungsauftrag ausgeführt wird, zur Verfügung stehen.

  • Bei Streaming-Labeling-Jobs können Sie den Fluss von Datenobjekten an Mitarbeiter steuern, indem Sie die Anzahl der Datenobjekte überwachen und kontrollieren, die mit Ihrem Labeling-Job SQS verknüpft sind, an Amazon gesendet werden.

In den folgenden Abschnitten erfahren Sie mehr über diese Optionen. Weitere Informationen zu Streaming-Kennzeichnungsaufträgen finden Sie unter Ground Truth Streaming-Kennzeichnungsaufträge.

Wird verwendet MaxConcurrentTaskCount , um den Fluss von Datenobjekten zu steuern

MaxConcurrentTaskCount definiert die maximale Anzahl von Datenobjekten, die von menschlichen Mitarbeitern gleichzeitig gekennzeichnet werden können. Wenn Sie die Konsole verwenden, ist dieser Parameter auf 1.000 festgelegt. Wenn Sie CreateLabelingJob verwenden, können Sie diesen Parameter auf eine beliebige Ganzzahl zwischen 1 und 1.000 setzen.

Wenn Sie einen Kennzeichnungsauftrag mit einer Eingabe-Manifestdatei starten, geht Ground Truth wie folgt vor:

  1. Für jedes Datenobjekt, das in Ihrer Eingabe-Manifestdatei aufgeführt ist, werden je nach dem Wert, den Sie für NumberOfHumanWorkersPerDataObject angeben, eine oder mehrere Aufgaben erstellt. Wenn Sie beispielsweise die Anzahl der Worker pro Datenobjekt auf 3 festlegen, werden 3 Aufgaben für jedes Datensatzobjekt erstellt. Um als erfolgreich gekennzeichnet markiert zu werden, muss mindestens ein Worker das Objekt kennzeichnen. Alternativ können die Aufgaben ablaufen oder abgelehnt werden.

  2. Wenn Sie die Arbeitskräfte von Mechanical Turk einsetzen, sendet Ground Truth zunächst einen Stapel von 10 Datensatzobjekten an Ihre Mitarbeiter. Dieser kleine Stapel wird verwendet, um den Kennzeichnungsauftrag einzurichten und sicherzustellen, dass der Auftrag richtig konfiguriert ist.

  3. Als Nächstes sendet Ground Truth eine MaxConcurrentTaskCount-Anzahl von Datensatzobjekten an Worker. Wenn Sie beispielsweise 2.000 Eingabedatenobjekte in Ihrer Eingabe-Manifestdatei haben und die Anzahl der Worker pro Datenobjekt auf 3 und MaxConcurrentTaskCount auf 900 festgelegt ist, werden die ersten 900 Datenobjekte in Ihrem Eingabemanifest an Worker gesendet, was 2.700 Aufgaben (900 x 3) entspricht. Dies ist der erste Satz von Objekten in voller Größe, der an Worker gesendet wird.

  4. Der nächste Schritt hängt von der Art des von Ihnen erstellten Kennzeichnungsauftrags ab. In diesem Schritt wird davon ausgegangen, dass ein oder mehrere Datensatz-Objekte in Ihrer Eingabe-Manifestdatei oder die mithilfe einer SNS Amazon-Eingabedatenquelle (in einem Streaming-Labeling-Job) gesendeten Datensatz nicht in dem Satz enthalten waren, der in Schritt 3 an die Mitarbeiter gesendet wurde.

    • Streaming-Labeling-Job: Solange die Gesamtzahl der Objekte, die Workern zur Verfügung stehen, gleich istMaxConcurrentTaskCount, werden alle verbleibenden Datensatz-Objekte in Ihrer Eingabe-Manifestdatei, die Sie in Echtzeit über Amazon SNS versenden, in eine SQS Amazon-Warteschlange gestellt. Wenn die Gesamtzahl der für Worker verfügbaren Objekte unter MaxConcurrentTaskCount minus NumberOfHumanWorkersPerDataObject fällt, wird ein neues Datenobjekt aus der Warteschlange verwendet, um NumberOfHumanWorkersPerDataObject-Aufgaben zu erstellen, die in Echtzeit an Worker gesendet werden.

    • Kennzeichnungsauftrag ohne Streaming: Wenn Worker mit der Kennzeichnung einer Gruppe von Objekten fertig sind, werden bis zu MaxConcurrentTaskCount mal NumberOfHumanWorkersPerDataObject so viele neue Aufgaben an Worker gesendet. Dieser Vorgang wird wiederholt, bis alle Datenobjekte in der Eingabe-Manifestdatei gekennzeichnet sind.

Verwenden Sie AmazonSQS, um den Fluss von Datenobjekten zu Streaming-Labeling-Jobs zu steuern

Wenn Sie einen Streaming-Labeling-Job erstellen, wird in Ihrem Konto automatisch eine SQS Amazon-Warteschlange erstellt. Datenobjekte werden der SQS Amazon-Warteschlange nur hinzugefügt, wenn die Gesamtzahl der an Mitarbeiter gesendeten Objekte höher istMaxConcurrentTaskCount. Andernfalls werden Objekte direkt an Worker gesendet.

Sie können diese Warteschlange zum Verwalten des Flusses von Datenobjekten zu Ihrem Kennzeichnungsauftrag verwenden. Weitere Informationen hierzu finden Sie unter Kennzeichnungsanfragen mit einer SQS Amazon-Warteschlange verwalten .