Kommentieren von PDF-Dateien - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Kommentieren von PDF-Dateien

Bevor Sie Ihre Trainings-PDFs in SageMaker Ground Truth kommentieren können, müssen Sie die folgenden Voraussetzungen erfüllen:

  • Installieren Sie python3.8.x

  • Installiere jq

  • Installieren Sie die AWS CLI

    Wenn Sie die Region us-east-1 verwenden, können Sie die Installation der AWS CLI überspringen, da sie bereits in Ihrer Python-Umgebung installiert ist. In diesem Fall erstellen Sie eine virtuelle Umgebung, um Python 3.8 in AWS Cloud9 zu verwenden.

  • Konfigurieren Sie Ihre Anmeldedaten AWS

  • Stellen Sie eine private SageMaker Ground-Truth-Belegschaft zur Unterstützung von Annotationen zusammen

    Notieren Sie sich unbedingt den Namen des Arbeitsteams, den Sie für Ihre neue private Belegschaft wählen, so wie Sie ihn bei der Installation verwenden.

Einrichten Ihrer Umgebung

  1. Wenn Sie Windows verwenden, installieren Sie Cygwin. Wenn Sie Linux oder Mac verwenden, überspringen Sie diesen Schritt.

  2. Laden Sie die Annotationsartefakte von herunter. GitHub Entpacken Sie die Datei.

  3. Navigieren Sie in Ihrem Terminalfenster zu dem entpackten Ordner (amazon-comprehend-semi-structured- documents-annotation-tools-main).

  4. Dieser Ordner enthält eine Auswahl von OptionenMakefiles, die Sie ausführen, um Abhängigkeiten zu installieren, eine virtuelle Python-Umgebung einzurichten und die erforderlichen Ressourcen bereitzustellen. Lesen Sie die Readme-Datei, um Ihre Wahl zu treffen.

  5. Die empfohlene Option verwendet einen einzigen Befehl, um alle Abhängigkeiten in einer virtuellen Umgebung zu installieren, erstellt den AWS CloudFormation Stack aus der Vorlage und stellt den Stack mit interaktiver Anleitung für Sie bereit. AWS-Konto Führen Sie den folgenden Befehl aus:

    make ready-and-deploy-guided

    Dieser Befehl bietet eine Reihe von Konfigurationsoptionen. Vergewissern Sie sich, dass Sie AWS-Region korrekt sind. Für alle anderen Felder können Sie entweder die Standardwerte akzeptieren oder benutzerdefinierte Werte eingeben. Wenn Sie den AWS CloudFormation Stacknamen ändern, notieren Sie ihn in den nächsten Schritten so, wie Sie ihn benötigen.

    Terminalsitzung mit AWS CloudFormation Konfigurationsoptionen.

    Der CloudFormation Stack erstellt und verwaltet die AWS Lambdas, AWS IAM-Rollen und AWS S3-Buckets, die für das Annotationstool erforderlich sind.

    Sie können jede dieser Ressourcen auf der Seite mit den Stack-Details in der Konsole überprüfen. CloudFormation

  6. Der Befehl fordert Sie auf, die Bereitstellung zu starten. CloudFormation erstellt alle Ressourcen in der angegebenen Region.

    Terminalsitzung, in der die bereitgestellte AWS CloudFormation Konfiguration angezeigt wird.

    Wenn der CloudFormation Stack-Status auf Create-Complete wechselt, sind die Ressourcen einsatzbereit.

Eine PDF-Datei in einen S3-Bucket hochladen

Im Abschnitt Einrichtung haben Sie einen CloudFormation Stack bereitgestellt, der einen S3-Bucket mit dem Namen comprehend-semi-structured-documents-$ {} AWS::Region}-${AWS::AccountId erstellt. Sie laden jetzt Ihre PDF-Quelldokumente in diesen Bucket hoch.

Anmerkung

Dieser Bucket enthält die Daten, die für Ihren Labeling-Job erforderlich sind. Die Richtlinie „Lambda Execution Role“ gewährt der Lambda-Funktion die Erlaubnis, auf diesen Bucket zuzugreifen.

Den Namen des S3-Buckets finden Sie in den CloudFormation Stack-Details mithilfe des Schlüssels „SemiStructuredDocumentsS3Bucket“.

  1. Erstellen Sie einen neuen Ordner im S3-Bucket. Nennen Sie diesen neuen Ordner 'src'.

  2. Fügen Sie Ihre PDF-Quelldateien zu Ihrem Ordner 'src' hinzu. In einem späteren Schritt fügen Sie diesen Dateien Anmerkungen hinzu, um Ihr Erkennungsprogramm zu trainieren.

  3. (Optional) Hier ist ein AWS CLI-Beispiel, mit dem Sie Ihre Quelldokumente aus einem lokalen Verzeichnis in einen S3-Bucket hochladen können:

    aws s3 cp --recursive local-path-to-your-source-docs s3://deploy-guided/src/

    Oder mit Ihrer Region und Konto-ID:

    aws s3 cp --recursive local-path-to-your-source-docs s3://deploy-guided-Region-AccountID/src/

  4. Sie haben jetzt eine private SageMaker Ground-Truth-Belegschaft und haben Ihre Quelldateien in den S3-Bucket, deploy-guided/src/, hochgeladen. Jetzt können Sie mit dem Kommentieren beginnen.

Einen Annotationsjob erstellen

Das Skript comprehend-ssie-annotation-tool-cli.py im bin Verzeichnis ist ein einfacher Wrapper-Befehl, der die Erstellung eines SageMaker Ground Truth-Labeling-Jobs vereinfacht. Das Python-Skript liest die Quelldokumente aus Ihrem S3-Bucket und erstellt eine entsprechende einseitige Manifestdatei mit einem Quelldokument pro Zeile. Das Skript erstellt dann einen Labeling-Job, für den die Manifestdatei als Eingabe erforderlich ist.

Das Python-Skript verwendet den S3-Bucket und den CloudFormation S3-Stack, die Sie im Abschnitt Einrichtung konfiguriert haben. Zu den erforderlichen Eingabeparametern für das Skript gehören:

  • input-s3-path: S3-Uri zu den Quelldokumenten, die Sie in Ihren S3-Bucket hochgeladen haben. Zum Beispiel: s3://deploy-guided/src/. Sie können diesem Pfad auch Ihre Region und Konto-ID hinzufügen. Zum Beispiel: s3://deploy-guided-Region-AccountID/src/.

  • cfn-name: Der CloudFormation Stack-Name. Wenn Sie den Standardwert für den Stacknamen verwendet haben, lautet Ihr CFN-Name sam-app.

  • work-team-name: Der Name der Belegschaft, den Sie beim Aufbau der privaten Belegschaft in SageMaker Ground Truth erstellt haben.

  • job-name-prefix: Das Präfix für den SageMaker Ground Truth Labeling-Job. Beachten Sie, dass für dieses Feld eine Beschränkung von 29 Zeichen gilt. An diesen Wert wird ein Zeitstempel angehängt. Zum Beispiel: my-job-name-20210902T232116.

  • Entitätstypen: Die Entitäten, die Sie während Ihres Labeling-Jobs verwenden möchten, getrennt durch Kommas. Diese Liste muss alle Entitäten enthalten, die Sie in Ihrem Trainingsdatensatz mit Anmerkungen versehen möchten. Der Ground Truth Labeling-Job zeigt nur diese Entitäten an, damit Annotatoren Inhalte in den PDF-Dokumenten beschriften können.

Um zusätzliche Argumente anzuzeigen, die das Skript unterstützt, verwenden Sie die -h Option zum Anzeigen des Hilfeinhalts.

  • Führen Sie das folgende Skript mit den Eingabeparametern aus, wie in der vorherigen Liste beschrieben.

    python bin/comprehend-ssie-annotation-tool-cli.py \ --input-s3-path s3://deploy-guided-Region-AccountID/src/ \ --cfn-name sam-app \ --work-team-name my-work-team-name \ --region us-east-1 \ --job-name-prefix my-job-name-20210902T232116 \ --entity-types "EntityA, EntityB, EntityC" \ --annotator-metadata "key=info,value=sample,key=Due Date,value=12/12/2021"

    Das Skript erzeugt die folgende Ausgabe:

    Downloaded files to temp local directory /tmp/a1dc0c47-0f8c-42eb-9033-74a988ccc5aa Deleted downloaded temp files from /tmp/a1dc0c47-0f8c-42eb-9033-74a988ccc5aa Uploaded input manifest file to s3://comprehend-semi-structured-documents-us-west-2-123456789012/input-manifest/my-job-name-20220203-labeling-job-20220203T183118.manifest Uploaded schema file to s3://comprehend-semi-structured-documents-us-west-2-123456789012/comprehend-semi-structured-docs-ui-template/my-job-name-20220203-labeling-job-20220203T183118/ui-template/schema.json Uploaded template UI to s3://comprehend-semi-structured-documents-us-west-2-123456789012/comprehend-semi-structured-docs-ui-template/my-job-name-20220203-labeling-job-20220203T183118/ui-template/template-2021-04-15.liquid Sagemaker GroundTruth Labeling Job submitted: arn:aws:sagemaker:us-west-2:123456789012:labeling-job/my-job-name-20220203-labeling-job-20220203t183118 (amazon-comprehend-semi-structured-documents-annotation-tools-main) user@3c063014d632 amazon-comprehend-semi-structured-documents-annotation-tools-main %

Kommentieren mit SageMaker Ground Truth

Nachdem Sie die erforderlichen Ressourcen konfiguriert und einen Labeling-Job erstellt haben, können Sie sich beim Labeling-Portal anmelden und Ihre PDF-Dateien mit Anmerkungen versehen.

  1. Melden Sie sich mit den SageMaker Webbrowsern Chrome oder Firefox bei der Konsole an.

  2. Wählen Sie Labeling Workforces und anschließend Private aus.

  3. Wählen Sie unter Übersicht über private Mitarbeiter die Anmelde-URL für das Labeling-Portal aus, die Sie zusammen mit Ihren privaten Mitarbeitern erstellt haben. Melden Sie sich mit den entsprechenden Anmeldeinformationen an.

    Wenn keine Jobs aufgelistet sind, machen Sie sich keine Sorgen. Die Aktualisierung kann je nach Anzahl der Dateien, die Sie zur Anmerkung hochgeladen haben, eine Weile dauern.

  4. Wählen Sie Ihre Aufgabe aus und klicken Sie in der oberen rechten Ecke auf Mit der Arbeit beginnen, um den Kommentarbildschirm zu öffnen.

    Auf dem Kommentarbildschirm wird eines Ihrer Dokumente geöffnet und darüber werden die Entitätstypen angezeigt, die Sie bei der Einrichtung angegeben haben. Rechts neben Ihren Entitätstypen befindet sich ein Pfeil, mit dem Sie durch Ihre Dokumente navigieren können.

    Der Amazon Comprehend Comprehend-Kommentarbildschirm.

    Kommentieren Sie das geöffnete Dokument. Sie können Ihre Anmerkungen in jedem Dokument auch entfernen, rückgängig machen oder auto taggen. Diese Optionen sind im rechten Bereich des Kommentarwerkzeugs verfügbar.

    Verfügbare Optionen im rechten Bereich der Amazon Comprehend Comprehend-Anmerkung.

    Um Auto-Tag zu verwenden, kommentieren Sie eine Instanz einer Ihrer Entitäten. Alle anderen Vorkommen dieses bestimmten Wortes werden dann automatisch mit diesem Entitätstyp annotiert.

    Wenn Sie fertig sind, wählen Sie unten rechts Senden aus und verwenden Sie dann die Navigationspfeile, um zum nächsten Dokument zu gelangen. Wiederholen Sie diesen Vorgang, bis Sie alle Ihre PDF-Dateien mit Anmerkungen versehen haben.

Nachdem Sie alle Schulungsdokumente mit Anmerkungen versehen haben, finden Sie die Anmerkungen im JSON-Format im Amazon S3 S3-Bucket an dieser Stelle:

/output/your labeling job name/annotations/

Der Ausgabeordner enthält auch eine Ausgabemanifestdatei, in der alle Anmerkungen in Ihren Schulungsdokumenten aufgeführt sind. Sie finden Ihre Ausgabe-Manifestdatei am folgenden Speicherort.

/output/your labeling job name/manifests/