Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
La sortie standard pour les documents vous permet de définir la granularité de la réponse qui vous intéresse ainsi que d'établir le format de sortie et le format du texte dans la sortie. Vous trouverez ci-dessous certaines des sorties que vous pouvez activer.
Granularité de la réponse
La granularité des réponses détermine le type de réponse que vous souhaitez recevoir lors de l'extraction du texte du document. Chaque niveau de granularité vous donne de plus en plus de réponses séparées, la page fournissant tout le texte extrait ensemble, et le mot fournissant chaque mot sous forme de réponse séparée. Les niveaux de granularité disponibles sont les suivants :
-
Granularité au niveau de la page : cette option est activée par défaut. La granularité au niveau de la page fournit à chaque page du document le format de sortie de texte de votre choix.
-
Granularité au niveau de l'élément (mise en page) : cette option est activée par défaut. Fournit le texte du document dans le format de sortie de votre choix, séparé en différents éléments. Ces éléments, tels que des figures, des tableaux ou des paragraphes. Ils sont renvoyés dans un ordre de lecture logique basé sur la structure du document.
-
Granularité au niveau des mots : fournit des informations sur des mots individuels sans recourir à une analyse contextuelle plus large. Indique chaque mot et son emplacement sur la page.
Réglages de sortie
Les paramètres de sortie déterminent la manière dont les résultats téléchargés seront structurés. Les options pour les paramètres de sortie sont les suivantes :
-
JSON — Structure de sortie par défaut pour l'analyse des documents. Fournit un fichier de sortie JSON contenant les informations de vos paramètres de configuration.
-
JSON+Files — L'utilisation de ce paramètre génère à la fois une sortie JSON et des fichiers correspondant à différentes sorties. Par exemple, ce paramètre vous fournit un fichier texte pour l'extraction globale du texte, un fichier de balisage pour le texte avec marquage structurel et des fichiers CSV pour chaque tableau présent dans le texte.
Format du texte
Le format du texte détermine les différents types de textes qui seront fournis par le biais de différentes opérations d'extraction. Vous pouvez sélectionner l'une des options suivantes pour votre format de texte.
-
Texte en clair — Ce paramètre fournit une sortie en texte uniquement sans qu'aucun élément de formatage ou autre élément de marquage ne soit noté.
-
Texte avec annotations : paramètre de sortie par défaut pour la sortie standard. Fournit du texte avec des éléments de balisage intégrés.
-
Texte avec HTML — Fournit du texte avec des éléments HTML intégrés dans la réponse.
-
CSV — Fournit une sortie structurée CSV pour les tableaux du document. Cela ne donnera une réponse que pour les tableaux, et non pour les autres éléments du document.
Boîtes de délimitation et champs génératifs
Pour les documents, il existe deux options de réponse qui modifient leur sortie en fonction de la granularité sélectionnée. Ce sont les boîtes de délimitation et les champs génératifs. La sélection de boîtes de délimitation fournira un aperçu visuel de l'élément ou du mot sur lequel vous cliquez dans le menu déroulant des réponses de la console. Cela vous permet de retrouver plus facilement certains éléments de votre réponse. Les boîtes de délimitation sont renvoyées dans votre JSON sous forme de coordonnées des quatre coins de la boîte.
Lorsque vous sélectionnez Generative Fields, un résumé du document est généré, à la fois dans une version de 10 mots et dans une version de 250 mots. Ensuite, si vous sélectionnez des éléments sous forme de granularité de réponse, vous générez une légende descriptive de chaque figure détectée dans le document. Les chiffres incluent des éléments tels que des tableaux, des graphiques et des images.
Réponse au document Bedrock Data Automation
Cette section se concentre sur les différents objets de réponse que vous recevez lors de l'exécution de l'opération d'API InvokeDataAutomation sur un fichier de document. Ci-dessous, nous allons décomposer chaque section de l'objet de réponse, puis voir une réponse complète et remplie pour un exemple de document. La première section que nous recevrons estmetadata
.
"metadata":{
"logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
"semantic_modality":"DOCUMENT",
"s3_bucket":"bucket",
"s3_prefix":"prefix"
},
La première section ci-dessus fournit une vue d'ensemble des métadonnées associées au document. Outre les informations S3, cette section vous indique également quelle modalité a été sélectionnée pour votre réponse.
"document":{
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"description":"document text",
"summary":"summary text",
"statistics":{
"element_count":5,
"table_count":1,
"figure_count":1,
"word_count":1000,
"line_count":32
}
},
La section ci-dessus fournit des informations sur la granularité au niveau du document. Les sections de description et de résumé sont les champs générés en fonction du document. La section de représentation fournit le contenu réel du document avec différents styles de formatage. Enfin, les statistiques contiennent des informations sur le contenu réel du document, telles que le nombre d'éléments sémantiques, le nombre de chiffres, de mots, de lignes, etc.
Il s'agit des informations relatives à une entité de table. Outre les informations de localisation, les différents formats du texte, des tableaux et de l'ordre de lecture, ils renvoient spécifiquement des informations CSV et des images recadrées du tableau dans des compartiments S3. Les informations CSV indiquent les différents en-têtes, pieds de page et titres. Les images seront acheminées vers le compartiment s3 du préfixe défini dans la demande InvokeDataAutomationAsync
{
"id":"entity_id",
"type":"TEXT",
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"reading_order":2,
"page_indices":[
0
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0.0,
"top":0.0,
"width":0.05,
"height":0.5
}
}
],
"sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
Il s'agit de l'entité utilisée pour le texte d'un document, indiquée par la TYPE
ligne dans la réponse. Encore une fois, la représentation montre le texte dans différents formats. reading_order
indique à quel moment un lecteur verrait logiquement le texte. Il s'agit d'un ordre sémantique basé sur les clés et les valeurs associées. Par exemple, il associe les titres des paragraphes à leur paragraphe respectif dans l'ordre de lecture. page_indices
vous indique sur quelles pages se trouve le texte. Viennent ensuite les informations de localisation, avec un cadre de texte fourni si elles ont été activées en réponse. Enfin, nous avons le sous-type d'entité. Ce sous-type fournit des informations plus détaillées sur le type de texte détecté. Pour obtenir la liste complète des sous-types, consultez la référence d'API.
{
"id":"entity_id",
"type":"TABLE",
"representation":{
"html":"table.../table",
"markdown":"| header | ...",
"text":"header \t header",
"csv":"header, header, header\n..."
},
"csv_s3_uri":"s3://",
"headers":[
"date",
"amount",
"description",
"total"
],
"reading_order":3,
"title":"Title of the table",
"footers":[
"the footers of the table"
],
"crop_images":[
"s3://bucket/prefix.png",
"s3://bucket/prefix.png"
],
"page_indices":[
0,
1
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
},
{
"page_index":1,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
]
},
Il s'agit des informations relatives à une entité de table. Outre les informations de localisation, les différents formats du texte, des tableaux et de l'ordre de lecture, ils renvoient spécifiquement des informations CSV et des images recadrées du tableau dans des compartiments S3. Les informations CSV indiquent les différents en-têtes, pieds de page et titres. Les images seront acheminées vers le compartiment s3 du préfixe défini dans la InvokeDataAutomation demande.
{
"id":"entity_id",
"type":"FIGURE",
"summary":"",
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"crop_images":[
"s3://bucket/prefix.png",
"s3://bucket/prefix.png"
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
],
"sub_type":"CHART",
"title":"figure title",
"rai_flag":"APPROVED/REDACTED/REJECTED",
"reading_order":1,
"page_indices":[
0
]
}
,
Il s'agit de l'entité utilisée pour les chiffres tels que les graphiques et les diagrammes de documents. Comme dans les tableaux, ces figures seront recadrées et les images envoyées au compartiment s3 défini dans votre préfixe. De plus, vous recevrez une réponse sub_type
et un titre de figure pour le texte du titre et une indication du type de figure dont il s'agit.
"pages":[
{
"id":"page_id",
"page_index":0,
"detected_page_number":1,
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"statistics":{
"element_count":5,
"table_count":1,
"figure_count":1,
"word_count":1000,
"line_count":32
},
"asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
"rectified_image_width_pixels":1700,
"rectified_image_height_pixels":2200
}
}
],
La dernière des entités que nous extrayons par le biais de la sortie standard est Pages. Les pages sont identiques aux entités de texte, mais elles contiennent également des numéros de page, pour lesquels le numéro de page détecté se trouve sur la page.
"text_lines":[
{
"id":"line_id",
"text":"line text",
"reading_order":1,
"page_index":0,
"locations":{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
}
],
"text_words":[
{
"id":"word_id",
"text":"word text",
"line_id":"line_id",
"reading_order":1,
"page_index":0,
"locations":{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
}
]
Ces deux derniers éléments concernent des parties de texte individuelles. La granularité au niveau des mots renvoie une réponse pour chaque mot, tandis que la sortie par défaut indique uniquement des lignes de texte.
Restrictions relatives au traitement des documents BDA
BDA prend en charge les documents aux formats PDF, JPEG et PNG. Les documents doivent peser moins de 200 Mo pour être traités par la console, ou 500 Mo lorsqu'ils sont traités par l'API. Les documents individuels ne peuvent pas dépasser 20 pages, mais avec le fractionnement de documents activé, des fichiers d'un maximum de 1 500 pages peuvent être soumis.
Limite | Description |
---|---|
Limites spécifiques aux PDF |
La hauteur et la largeur maximales sont de 40 pouces et 2880 points. PDFs ne peut pas être protégé par mot de passe. PDFs peut contenir des images au format JPEG 2000. |
Rotation du document et taille de l'image |
BDA prend en charge toutes les rotations de documents dans le plan, par exemple la rotation dans le plan de 45 degrés. BDA prend en charge les images dont la résolution est inférieure ou égale à 10 000 pixels sur tous les côtés. |
Alignement du texte |
Le texte peut être aligné horizontalement dans le document. Le texte présenté horizontalement peut être lu quel que soit le degré de rotation du document. BDA ne prend pas en charge l'alignement vertical du texte (texte écrit verticalement, comme c'est souvent le cas dans des langues telles que le japonais et le chinois) dans le document. |
Taille du personnage |
La hauteur minimale du texte à détecter est de 15 pixels. À 150 DPI, cela équivaudrait à une police à 8 points. |
Type de personnage |
BDA prend en charge la reconnaissance des caractères écrits à la main et imprimés. |