Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Amazon Bedrock Data Automation (BDA) unterstützt das Teilen von Dokumenten bei Verwendung der Amazon Bedrock API. Wenn diese Option aktiviert ist, kann BDA ein PDF mit mehreren logischen Dokumenten zur Verarbeitung in separate Dokumente aufteilen.
Sobald das Teilen abgeschlossen ist, wird jedes Segment des geteilten Dokuments unabhängig verarbeitet. Das bedeutet, dass ein Eingabedokument verschiedene Dokumenttypen enthalten kann. Wenn Sie beispielsweise über ein PDF mit 3 Kontoauszügen und einem W2 verfügen, würde beim Splitten versucht werden, es in 4 separate Dokumente aufzuteilen, die einzeln verarbeitet werden.
Die automatische BDA-Aufteilung unterstützt Dateien mit bis zu 1000 Seiten und unterstützt einzelne Dokumente mit jeweils bis zu 20 Seiten.
Anmerkung
In der Vorschau wird das Teilen nur für benutzerdefinierte Ausgabevorgänge unterstützt.
Die Option zum Teilen von Dokumenten ist standardmäßig deaktiviert, kann aber bei Verwendung der API aktiviert werden. Im Folgenden finden Sie ein Beispiel für die Erstellung eines Projekts mit aktiviertem Splitter. Die Ellipsen stellen zusätzliche Baupläne dar, die dem Projekt zur Verfügung gestellt wurden.
response = client.create_data_automation_project( projectName=
project_name
, projectDescription="Provide a project description
", projectStage='LIVE', standardOutputConfiguration=output_config, customOutputConfiguration={ 'blueprints': [ { 'blueprintArn':Blueprint ARN
, 'blueprintStage': 'LIVE' }, ... ] }, overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}} )
Der Teil, der den Aufteilungsprozess ermöglicht, ist die OverrideConfiguration-Zeile. Diese Zeile richtet den Splitter ein und ermöglicht es Ihnen, mehrere Dokumente innerhalb derselben Datei zu übergeben.
Dokumente werden nach den semantischen Grenzen im Dokument aufgeteilt.
Die Aufteilung von Dokumenten erfolgt unabhängig von der Anwendung von Blueprints, und Dokumente, die aufgeteilt werden, werden dem am nächsten liegenden Blueprint zugeordnet. Weitere Informationen darüber, wie BDA mit Blueprints übereinstimmt, finden Sie unter. Grundlegendes zum Blueprint-Matching
Grundlegendes zum Blueprint-Matching
Der Blueprint-Abgleich basiert auf den folgenden Elementen:
-
Name des Blueprints
-
Beschreibung des Blueprints
-
Blueprint-Felder
Bei der Verarbeitung von Dokumenten können Sie mehrere Blueprints angeben, mit denen Sie abgleichen können. Dies ermöglicht die Verarbeitung verschiedener Dokumenttypen mit entsprechenden Blueprints. Sie können IDs beim Aufrufen der Datenautomatisierungs-API mehrere Blueprints angeben, und BDA versucht, jedes Dokument dem am besten passenden Blueprint zuzuordnen. Dies ermöglicht die Verarbeitung gemischter Dokumenttypen in einem einzigen Stapel. Dies ist nützlich, wenn erwartet wird, dass es sich bei Dokumenten um unterschiedliche Typen handelt (z. B. Kontoauszüge, Rechnungen, Reisepässe).
Wenn Sie separate Blueprints benötigen, weil die Dokumentformate sehr unterschiedlich sind oder spezielle Eingabeaufforderungen erfordern, kann die Erstellung eines Blueprints pro Dokumenttyp beim Abgleich helfen. Weitere Informationen zum Erstellen nützlicher Blueprints finden Sie unter. Bewährte Methoden für die Erstellung von Blueprints
Bewährte Methoden für die Erstellung von Blueprints
Folgen Sie den folgenden bewährten Methoden, um das Beste aus Ihren Blueprints herauszuholen:
-
Geben Sie die Namen und Beschreibungen der Blueprints explizit und detailliert an, um den Abgleich zu erleichtern
-
Durch die Bereitstellung mehrerer relevanter Blueprints kann BDA die beste Übereinstimmung auswählen. Erstellen Sie separate Blueprints für deutlich unterschiedliche Dokumentenformate
-
Erwägen Sie, spezielle Blueprints für jeden Anbieter/jede Dokumentquelle zu erstellen, wenn Sie maximale Genauigkeit benötigen
-
Nehmen Sie nicht zwei Blueprints desselben Typs in ein Projekt auf (z. B. zwei W2-Blueprints). Informationen aus dem Dokument selbst und dem Blueprint werden zur Verarbeitung von Dokumenten verwendet, und wenn mehrere Blueprints desselben Typs in ein Projekt aufgenommen werden, führt dies zu einer schlechteren Leistung.
Durch die Aufteilung von Dokumenten und den Abgleich mehrerer Blueprints kann BDA unterschiedliche Dokumentensätze flexibler handhaben und gleichzeitig für jedes Dokument die am besten geeignete Extraktionslogik anwenden.