异步分析作业的输出 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

异步分析作业的输出

分析作业完成后,它将结果存储到您在请求中指定的 S3 存储桶中。

文本输入的输出

对于文本输入文件,输出由每个输入文档的实体列表组成。

以下示例显示了名为 50_docs 的输入文件中两个文档的输出,使用每行一个文档的格式。

{ "File": "50_docs", "Line": 0, "Entities": [ { "BeginOffset": 0, "EndOffset": 22, "Score": 0.9763959646224976, "Text": "John Johnson", "Type": "JUDGE" } ] } { "File": "50_docs", "Line": 1, "Entities": [ { "BeginOffset": 11, "EndOffset": 15, "Score": 0.9615424871444702, "Text": "Thomas Kincaid", "Type": "JUDGE" } ] }

半结构化输入的输出

对于半结构化输入文档,输出可以包括以下附加字段:

  • DocumentMetadata — 提取有关文档的信息。元数据包括文档中的页面列表,以及从每页中提取的字符数。如果请求包含 Byte 参数,则响应中会显示此字段。

  • DocumentType -输入文档中每页的文档类型。此字段出现在包含该 Byte 参数的请求的响应中。

  • 块:有关输入文档中每个文本块的信息。块可以嵌套在块内。页面块包含每行文本的块,其中每个单词都包含一个块。此字段出现在包含该 Byte 参数的请求的响应中。

  • BlockReferences — 对该实体的每个区块的引用。此字段出现在包含该 Byte 参数的请求的响应中。文本文件中不存在该字段。

  • 错误:系统在处理输入文档时检测到的页面级错误。如果系统未遇到任何错误,则该字段为空。

有关这些输出字段的更多详细信息,请参阅亚马逊 Comprehend API 参考DetectEntities中的

以下示例显示一个单页原生 PDF 输入文档的输出。

例 PDF 文档自定义实体识别分析的输出示例
{ "Blocks": [ { "BlockType": "LINE", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314, "Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "4330efed-6334-4fc4-ba48-e050afa95c8d", "Page": 1, "Relationships": [ { "ids": [ "f343ce48-583d-4abe-b84b-a232e266450f" ], "type": "CHILD" } ], "Text": "S-3" }, { "BlockType": "WORD", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314, "Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "f343ce48-583d-4abe-b84b-a232e266450f", "Page": 1, "Relationships": [], "Text": "S-3" } ], "DocumentMetadata": { "PageNumber": 1, "Pages": 1 }, "DocumentType": "NativePDF", "Entities": [ { "BlockReferences": [ { "BeginOffset": 25, "BlockId": "4330efed-6334-4fc4-ba48-e050afa95c8d", "ChildBlocks": [ { "BeginOffset": 1, "ChildBlockId": "cbba5534-ac69-4bc4-beef-306c659f70a6", "EndOffset": 6 } ], "EndOffset": 30 } ], "Score": 0.9998825926329088, "Text": "0.001", "Type": "OFFERING_PRICE" }, { "BlockReferences": [ { "BeginOffset": 41, "BlockId": "f343ce48-583d-4abe-b84b-a232e266450f", "ChildBlocks": [ { "BeginOffset": 0, "ChildBlockId": "292a2e26-21f0-401b-a2bf-03aa4c47f787", "EndOffset": 9 } ], "EndOffset": 50 } ], "Score": 0.9809727537330395, "Text": "6,097,560", "Type": "OFFERED_SHARES" } ], "File": "example.pdf", "Version": "2021-04-30" }