Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Dokumente bei der Verwendung von Projekten aufteilen

Fokusmodus
Dokumente bei der Verwendung von Projekten aufteilen - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon Bedrock Data Automation (BDA) unterstützt das Teilen von Dokumenten bei Verwendung der Amazon Bedrock API. Wenn diese Option aktiviert ist, kann BDA ein PDF mit mehreren logischen Dokumenten zur Verarbeitung in separate Dokumente aufteilen.

Sobald das Teilen abgeschlossen ist, wird jedes Segment des geteilten Dokuments unabhängig verarbeitet. Das bedeutet, dass ein Eingabedokument verschiedene Dokumenttypen enthalten kann. Wenn Sie beispielsweise über ein PDF mit 3 Kontoauszügen und einem W2 verfügen, würde beim Splitten versucht werden, es in 4 separate Dokumente aufzuteilen, die einzeln verarbeitet werden.

Die automatische BDA-Aufteilung unterstützt Dateien mit bis zu 1000 Seiten und unterstützt einzelne Dokumente mit jeweils bis zu 20 Seiten.

Anmerkung

In der Vorschau wird das Teilen nur für benutzerdefinierte Ausgabevorgänge unterstützt.

Die Option zum Teilen von Dokumenten ist standardmäßig deaktiviert, kann aber bei Verwendung der API aktiviert werden. Im Folgenden finden Sie ein Beispiel für die Erstellung eines Projekts mit aktiviertem Splitter. Die Ellipsen stellen zusätzliche Baupläne dar, die dem Projekt zur Verfügung gestellt wurden.

response = client.create_data_automation_project( projectName=project_name, projectDescription="Provide a project description", projectStage='LIVE', standardOutputConfiguration=output_config, customOutputConfiguration={ 'blueprints': [ { 'blueprintArn': Blueprint ARN, 'blueprintStage': 'LIVE' }, ... ] }, overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}} )

Der Teil, der den Aufteilungsprozess ermöglicht, ist die OverrideConfiguration-Zeile. Diese Zeile richtet den Splitter ein und ermöglicht es Ihnen, mehrere Dokumente innerhalb derselben Datei zu übergeben.

Dokumente werden nach den semantischen Grenzen im Dokument aufgeteilt.

Die Aufteilung von Dokumenten erfolgt unabhängig von der Anwendung von Blueprints, und Dokumente, die aufgeteilt werden, werden dem am nächsten liegenden Blueprint zugeordnet. Weitere Informationen darüber, wie BDA mit Blueprints übereinstimmt, finden Sie unter. Grundlegendes zum Blueprint-Matching

Grundlegendes zum Blueprint-Matching

Der Blueprint-Abgleich basiert auf den folgenden Elementen:

  • Name des Blueprints

  • Beschreibung des Blueprints

  • Blueprint-Felder

Bei der Verarbeitung von Dokumenten können Sie mehrere Blueprints angeben, mit denen Sie abgleichen können. Dies ermöglicht die Verarbeitung verschiedener Dokumenttypen mit entsprechenden Blueprints. Sie können IDs beim Aufrufen der Datenautomatisierungs-API mehrere Blueprints angeben, und BDA versucht, jedes Dokument dem am besten passenden Blueprint zuzuordnen. Dies ermöglicht die Verarbeitung gemischter Dokumenttypen in einem einzigen Stapel. Dies ist nützlich, wenn erwartet wird, dass es sich bei Dokumenten um unterschiedliche Typen handelt (z. B. Kontoauszüge, Rechnungen, Reisepässe).

Wenn Sie separate Blueprints benötigen, weil die Dokumentformate sehr unterschiedlich sind oder spezielle Eingabeaufforderungen erfordern, kann die Erstellung eines Blueprints pro Dokumenttyp beim Abgleich helfen. Weitere Informationen zum Erstellen nützlicher Blueprints finden Sie unter. Bewährte Methoden für die Erstellung von Blueprints

Bewährte Methoden für die Erstellung von Blueprints

Folgen Sie den folgenden bewährten Methoden, um das Beste aus Ihren Blueprints herauszuholen:

  • Geben Sie die Namen und Beschreibungen der Blueprints explizit und detailliert an, um den Abgleich zu erleichtern

  • Durch die Bereitstellung mehrerer relevanter Blueprints kann BDA die beste Übereinstimmung auswählen. Erstellen Sie separate Blueprints für deutlich unterschiedliche Dokumentenformate

  • Erwägen Sie, spezielle Blueprints für jeden Anbieter/jede Dokumentquelle zu erstellen, wenn Sie maximale Genauigkeit benötigen

  • Nehmen Sie nicht zwei Blueprints desselben Typs in ein Projekt auf (z. B. zwei W2-Blueprints). Informationen aus dem Dokument selbst und dem Blueprint werden zur Verarbeitung von Dokumenten verwendet, und wenn mehrere Blueprints desselben Typs in ein Projekt aufgenommen werden, führt dies zu einer schlechteren Leistung.

Durch die Aufteilung von Dokumenten und den Abgleich mehrerer Blueprints kann BDA unterschiedliche Dokumentensätze flexibler handhaben und gleichzeitig für jedes Dokument die am besten geeignete Extraktionslogik anwenden.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.