Entitätslisten (nur Klartext) - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Entitätslisten (nur Klartext)

Um ein Modell mithilfe einer Entitätsliste zu trainieren, stellen Sie zwei Informationen bereit: eine Liste der Entitätsnamen mit den entsprechenden benutzerdefinierten Entitätstypen und eine Sammlung von unbemerkten Dokumenten, in denen Ihre Entitäten erscheinen sollen.

Wenn Sie eine Entitätsliste bereitstellen, verwendet Amazon Comprehend einen intelligenter Algorithmus, um Vorkommen der Entität in den Dokumenten zu erkennen, die als Grundlage für das Training des benutzerdefinierten Entity Recognizer-Modells dienen.

Geben Sie für Entitätslisten mindestens 25 Entitätsübereinstimmungen pro Entitätstyp in der Entitätsliste an.

Eine Entitätsliste für die Erkennung benutzerdefinierter Entitäten benötigt eine CSV-Datei (durch Kommas getrennte Werte) mit den folgenden Spalten:

  • Text – Der Text eines Einstiegsbeispiels, genau wie er im Korpus des zugehörigen Dokuments zu sehen ist.

  • Typ — Der vom Kunden definierte Entitätstyp. Entitätstypen müssen eine durch Großbuchstaben und Unterstriche getrennte Zeichenfolge wie MANAGER oder SENIOR_MANAGER enthalten. Pro Modell können bis zu 25 Entitätstypen trainiert werden.

Die Datei documents.txt enthält vier Zeilen:

Jo Brown is an engineer in the high tech industry. John Doe has been a engineer for 14 years. Emilio Johnson is a judge on the Washington Supreme Court. Our latest new employee, Jane Smith, has been a manager in the industry for 4 years.

Die CSV-Datei mit der Liste der Entitäten hat die folgenden Zeilen:

Text, Type Jo Brown, ENGINEER John Doe, ENGINEER Jane Smith, MANAGER
Anmerkung

In der Entitätsliste ist der Eintrag für Emilio nicht vorhanden, da er weder die Entität ENGINEER noch MANAGER enthält.

Erstellen Ihrer Datendateien

Es ist wichtig, dass sich Ihre Entitätsliste in einer ordnungsgemäß konfigurierten CSV-Datei befindet, damit die Wahrscheinlichkeit von Problemen mit Ihrer Entitätslistendatei minimal ist. Um Ihre CSV-Datei manuell zu konfigurieren, muss Folgendes zutreffen:

  • Die UTF-8-Kodierung muss explizit angegeben werden, auch wenn sie in den meisten Fällen als Standard verwendet wird.

  • Er muss die Spaltennamen Type und enthaltenText.

Es wird dringend empfohlen, CSV-Eingabedateien programmgesteuert zu generieren, um potenzielle Probleme zu vermeiden.

Im folgenden Beispiel wird Python verwendet, um ein CSV für die oben gezeigten Anmerkungen zu generieren:

import csv with open("./entitylist/entitylist.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["Text", "Type"]) csv_writer.writerow(["Jo Brown", " ENGINEER"]) csv_writer.writerow(["John Doe", " ENGINEER"]) csv_writer.writerow(["Jane Smith", " MANAGER"])

Bewährte Methoden

Es gibt eine Reihe von Dingen, die Sie berücksichtigen sollten, um bei der Verwendung einer Entitätsliste das beste Ergebnis zu erzielen, darunter:

  • Die Reihenfolge der Entitäten in Ihrer Liste hat keine Auswirkungen auf das Modelltraining.

  • Verwenden Sie Entitätslistenelemente, die 80 % bis 100 % der positiven Entitätsbeispiele abdecken, die im nicht kommentierten Korpus von Dokumenten erwähnt werden.

  • Vermeiden Sie Entitätsbeispiele, die Nicht-Entitäten im Dokumentkorpus entsprechen, indem Sie allgemeine Wörter und Wortgruppen entfernen. Selbst eine Handvoll falscher Übereinstimmungen kann die Genauigkeit Ihres resultierenden Modells erheblich beeinflussen. Ein Wort wie das in der Entitätsliste führt beispielsweise zu einer hohen Anzahl von Übereinstimmungen, bei denen es sich wahrscheinlich nicht um die Entitäten handelt, nach denen Sie suchen, und die sich daher erheblich auf Ihre Genauigkeit auswirken.

  • Eingabedaten sollten keine Duplikate enthalten. Das Vorhandensein von doppelten Stichproben kann zu Testsatzbereinigungen führen und sich daher negativ auf den Trainingsprozess, die Modellmetriken und das Verhalten auswirken.

  • Stellen Sie Dokumente, die echten Anwendungsfällen ähneln, so genau wie möglich bereit. Verwenden Sie keine Toy-Daten oder synthetisierte Daten für Produktionssysteme. Die Eingabedaten sollten so unterschiedlich wie möglich sein, um Überanpassungen zu vermeiden und das zugrunde liegende Modell anhand realer Beispiele besser verallgemeinern zu können.

  • Bei der Entitätsliste wird zwischen Groß- und Kleinschreibung unterschieden und reguläre Ausdrücke werden derzeit nicht unterstützt. Das trainierte Modell kann Entitäten jedoch oft immer noch erkennen, auch wenn sie nicht genau mit der Groß- und Kleinschreibung übereinstimmen, die in der Entitätsliste angegeben ist.

  • Wenn Sie über eine Entität verfügen, die eine Teilzeichenfolge einer anderen Entität ist (z. B. „Smith“ und „JaneISS“, geben Sie beide in der Entitätsliste an.

Weitere Vorschläge finden Sie unter Verbesserung der Leistung des benutzerdefinierten Entity Recognizers