Konsolidieren von Anmerkungen - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Konsolidieren von Anmerkungen

Eine Anmerkung ist das Ergebnis der Labeling-Aufgabe eines einzelnen Workers. Mit der Anmerkungskonsolidierung werden die Anmerkungen von zwei oder mehr Workern zu einer einzigen Kennzeichnung für Ihre Datenobjekte kombiniert. Eine Kennzeichnung, die jedem Objekt im Datensatz zugewiesen wird, ist eine probabilistische Schätzung dessen, was die wahre Kennzeichnung sein soll. Jedes Objekt im Datensatz hat in der Regel mehrere Anmerkungen, aber nur eine Kennzeichnung oder nur einen Satz von Kennzeichnungen.

Sie können entscheiden, wie viele Worker die einzelnen Objekte in Ihrem Datensatz mit Anmerkungen versehen sollen. Durch den Einsatz von mehr Workern lässt sich die Genauigkeit Ihrer Kennzeichnungen erhöhen, dies führt aber auch zu einem Anstieg der Kosten für die Kennzeichnung. Weitere Informationen zu den Preisen von Ground Truth finden Sie unter Amazon SageMaker Ground Truth — Preise.

Wenn Sie die SageMaker Amazon-Konsole verwenden, um einen Labeling-Job zu erstellen, sind die folgenden Standardwerte für die Anzahl der Worker, die Objekte kommentieren können:

  • Textklassifizierung – 3 Worker

  • Bildklassifizierung – 3 Worker

  • Begrenzungsrahmen – 5 Worker

  • Semantische Segmentierung – 3 Worker

  • Erkennung benannter Entitäten – 3 Worker

Mit der Operation CreateLabelingJob legen Sie die Anzahl der Auftragnehmer, die jedes Datenobjekt mit Anmerkungen versehen sollen, mit dem Parameter NumberOfHumanWorkersPerDataObject fest. Sie können die Standardanzahl der für das Versehen eines Datenobjekts mit Anmerkungen eingesetzten Auftragnehmer über die Konsole oder mithilfe der Operation CreateLabelingJob überschreiben.

Ground Truth bietet eine Anmerkungskonsolidierungsfunktion für jede der vordefinierten Labeling-Aufgaben: Begrenzungsrahmen, Namensentitätenerkennung, Bildklassifizierung, semantische Segmentierung und Textklassifizierung. Dies sind die Funktionen:

  • Bei der Mehrklassen-Anmerkungskonsolidierung für die Bild- und Textklassifizierung wird eine Variante des Expectation Maximization-Ansatzes für Anmerkungen verwendet. Sie schätzt Parameter für jeden Worker und nutzt Bayessche Inferenz zum Schätzen der echten Klasse auf Basis der Klassenanmerkungen einzelner Worker.

  • Bei den Begrenzungsrahmen-Anmerkungen findet eine Konsolidierung der Begrenzungsrahmen mehrerer Worker statt. Diese Funktion findet die ähnlichsten Begrenzungsrahmen unter denen unterschiedlicher Worker basierend auf dem Jaccard-Koeffizienten (Schnittmenge über Vereinigungsmenge, Intersection over Union (IoU)) der Begrenzungsrahmen und mittelt sie.

  • Bei der Anmerkungskonsolidierung für die semantische Segmentierung wird jedes Pixel in einem einzigen Bild als Mehrklassen-Klassifizierung behandelt. Pixelanmerkungen von Workern werden als „Stimmen“ betrachtet und zusätzliche Informationen aus umgebenden Pixeln werden durch Anwendung einer Glättungsfunktion auf das Bild integriert.

  • Die Funktion zur Erkennung benannter Entitäten clustert ausgewählten Text nach Jaccard-Ähnlichkeit und berechnet Auswahlgrenzen basierend auf dem Modus bzw. auf dem Median, wenn der Modus nicht eindeutig ist. Die Bezeichnung wird zur am häufigsten zugewiesenen Entity-Bezeichnung im Cluster aufgelöst. Dadurch werden Bindungen durch zufällige Auswahl aufgebrochen.

Sie können andere Algorithmen verwenden, um Anmerkungen zu konsolidieren. Weitere Informationen finden Sie unter Erstellen einer eigenen Anmerkungskonsolidierungsfunktion.

Erstellen einer eigenen Anmerkungskonsolidierungsfunktion

Sie können auf Wunsch Ihre eigene Anmerkungskonsolidierungsfunktion verwenden, um die endgültigen Kennzeichnungen für die gekennzeichneten Objekte zu bestimmen. Es gibt viele mögliche Ansätze zum Schreiben einer Funktion, und der von Ihnen gewählte Ansatz hängt von der Art der Anmerkungen ab, die zu konsolidieren sind. Grob gesagt sollten Konsolidierungsfunktionen die Anmerkungen von Workern betrachten, die zwischen ihnen bestehende Ähnlichkeit messen und dann durch eine Art probabilistische Beurteilung bestimmen, was die wahrscheinlichste Kennzeichnung sein sollte.

Wenn Sie andere Algorithmen zum Erstellen von Anmerkungskonsolidierungsfunktionen verwenden möchten, finden Sie die Reaktionen von Workern im [project-name]/annotations/worker-response-Ordner des Amazon–S3-Buckets, in den Sie die Auftragsausgabe leiten.

Bewerten der Ähnlichkeit

Zum Beurteilen der Ähnlichkeit zwischen Kennzeichnungen können Sie eine der folgenden Strategien verwenden oder eine Strategie, die Ihren Daten-Labeling-Anforderungen entspricht:

  • Für Kennzeichnungsbereiche, die aus separaten, sich gegenseitig ausschließenden Kategorien bestehen (wie die Mehrklassen-Klassifizierung), kann sich die Ähnlichkeitsbeurteilung als recht unkompliziert erweisen. Einzelne Kennzeichnungen stimmen entweder überein oder nicht.

  • Für Kennzeichnungsbereiche ohne klar abgegrenzte Werte (wie Begrenzungsrahmen-Anmerkungen) muss ein breiteres Maß für die Ähnlichkeit gefunden werden. Im Fall von Begrenzungsrahmen ist der Jaccard-Koeffizient ein solches Maß. Damit wird das Verhältnis zwischen der Schnittmenge zweier Begrenzungsrahmen und der Vereinigungsmenge der Begrenzungsrahmen ermittelt, um zu beurteilen, wie ähnlich sie sind. Beispiel: Bei drei Anmerkungen kann anhand einer Funktion bestimmt werden, welche Anmerkungen dasselbe Objekt darstellen und konsolidiert werden können.

Bewerten der wahrscheinlichsten Kennzeichnung

Nehmen Sie anhand der in den vorherigen Abschnitten erläuterten Strategien eine probabilistische Beurteilung vor, um zu bestimmen, welche konsolidierte Kennzeichnung verwendet werden sollte. Im Falle separater, sich gegenseitig ausschließender Kategorien kann sich das als recht unkompliziert erweisen. Eine der gängigsten Methoden hierfür besteht in der Betrachtung der Ergebnisse eines Mehrheitsbeschlusses zwischen den Anmerkungen. Dabei werden die Anmerkungen gleich gewichtet.

Bei einigen Ansätzen wird versucht, die Genauigkeit unterschiedlicher Ersteller von Anmerkungen abzuschätzen und deren Anmerkungen in Relation zur Korrektheitswahrscheinlichkeit zu gewichten. Ein Beispiel dafür ist die Expectation Maximization Methode, die in der Standard-Ground-Truth-Konsolidierungsfunktion für mehrklassige Anmerkungen verwendet wird.

Weitere Informationen zur Erstellung einer Anmerkungskonsolidierungsfunktion finden Sie unter Schritt 3: Verarbeitung mit AWS Lambda.