PDF-Anmerkungsdateien - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

PDF-Anmerkungsdateien

Für PDF-Anmerkungen verwenden Sie SageMaker Ground Truth, um einen beschrifteten Datensatz in einer erweiterten Manifestdatei zu erstellen. Ground Truth ist ein Datenbeschriftungsservice, der Ihnen (oder einer Arbeitskraft, die Sie einsetzen) hilft, Trainingsdatensätze für Machine-Learning-Modelle zu erstellen. Amazon Comprehend akzeptiert erweiterte Manifestdateien als Trainingsdaten für benutzerdefinierte Modelle. Sie können diese Dateien bereitstellen, wenn Sie einen benutzerdefinierten Entity Recognizer mithilfe der Amazon Comprehend-Konsole oder der CreateEntityRecognizer -API-Aktion erstellen.

Sie können den integrierten Ground Truth-Aufgabentyp Named Entity Recognize verwenden, um einen Kennzeichnungsauftrag zu erstellen, damit Auftragnehmer Entitäten im Text identifizieren können. Weitere Informationen finden Sie unter Erkennung benannter Entitäten im Amazon- SageMaker Entwicklerhandbuch. Weitere Informationen zu Amazon SageMaker Ground Truth finden Sie unter Verwenden von Amazon SageMaker Ground Truth zum Beschriften von Daten.

Anmerkung

Mit Ground Truth können Sie überlappende Labels definieren (Text, den Sie mehreren Labels zuordnen). Die Amazon Comprehend-Entitätserkennung unterstützt jedoch keine überlappenden Labels.

Erweiterte Manifestdateien liegen im JSON-Zeilenformat vor. In diesen Dateien ist jede Zeile ein vollständiges JSON-Objekt, das ein Trainingsdokument und die zugehörigen Labels enthält. Das folgende Beispiel ist eine erweiterte Manifestdatei, die eine Entitätserkennung darin trainiert, die Fähigkeiten von Personen zu erkennen, die im Text erwähnt werden:

{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}} {"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}} {"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}

Jede Zeile in dieser JSON-Zeilendatei ist ein vollständiges JSON-Objekt, wobei die Attribute den Dokumenttext, die Anmerkungen und andere Metadaten aus Ground Truth enthalten. Das folgende Beispiel ist ein einzelnes JSON-Objekt in der erweiterten Manifestdatei, aber aus Gründen der Lesbarkeit formatiert:

{ "source": "Diego Ramirez is an engineer in the high tech industry.", "NamedEntityRecognitionDemo": { "annotations": { "entities": [ { "endOffset": 13, "startOffset": 0, "label": "ENGINEER" } ], "labels": [ { "label": "ENGINEER" } ] } }, "NamedEntityRecognitionDemo-metadata": { "entities": [ { "confidence": 0.92 } ], "job-name": "labeling-job/namedentityrecognitiondemo", "type": "groundtruth/text-span", "creation-date": "2020-05-14T21:45:27.175903", "human-annotated": "yes" } }

In diesem Beispiel stellt das source Attribut den Text des Trainingsdokuments bereit und das NamedEntityRecognitionDemo Attribut stellt die Anmerkungen für die Entitäten im Text bereit. Der Name des NamedEntityRecognitionDemo Attributs ist beliebig und Sie geben einen Namen Ihrer Wahl an, wenn Sie den Kennzeichnungsauftrag in Ground Truth definieren.

In diesem Beispiel ist das NamedEntityRecognitionDemo Attribut der Name des Beschriftungsattributs . Dabei handelt es sich um das Attribut, das die Beschriftungen bereitstellt, die ein Ground Truth-Worker den Trainingsdaten zuweist. Wenn Sie Ihre Trainingsdaten für Amazon Comprehend bereitstellen, müssen Sie einen oder mehrere Bezeichnungsattributnamen angeben. Die Anzahl der von Ihnen angegebenen Attributnamen hängt davon ab, ob Ihre erweiterte Manifestdatei die Ausgabe eines einzelnen Kennzeichnungsauftrags oder eines verketteten Kennzeichnungsauftrags ist.

Wenn Ihre Datei die Ausgabe eines einzelnen Kennzeichnungsauftrags ist, geben Sie den einzelnen Kennzeichnungsattributnamen an, der beim Erstellen des Auftrags in Ground Truth verwendet wurde.

Wenn Ihre Datei die Ausgabe eines verketteten Kennzeichnungsauftrags ist, geben Sie den Kennzeichnungsattributnamen für einen oder mehrere Aufträge in der Kette an. Jeder Name des Beschriftungsattributs stellt die Anmerkungen aus einem einzelnen Auftrag bereit. Sie können bis zu 5 dieser Attribute für erweiterte Manifestdateien angeben, die von verketteten Kennzeichnungsaufträgen erstellt werden.

In einer erweiterten Manifestdatei folgt der Name des Beschriftungsattributs normalerweise dem source Schlüssel. Wenn die Datei die Ausgabe eines verketteten Auftrags ist, gibt es mehrere Bezeichnungsattributnamen. Wenn Sie Ihre Trainingsdaten für Amazon Comprehend bereitstellen, geben Sie nur die Attribute an, die Anmerkungen enthalten, die für Ihr Modell relevant sind. Geben Sie nicht die Attribute an, die mit „-metadata“ enden.

Weitere Informationen zu verketteten Kennzeichnungsaufträgen und Beispiele für die Ausgabe, die sie erzeugen, finden Sie unter Kennzeichnungsaufträge verketten im Amazon- SageMaker Entwicklerhandbuch.