本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
分析任务完成后,它将结果存储到您在请求中指定的 S3 存储桶中。
文本输入的输出
对于文本输入文件,输出由每个输入文档的实体列表组成。
以下示例显示了名为 50_docs 的输入文件中两个文档的输出,使用每行一个文档的格式。
{
"File": "50_docs",
"Line": 0,
"Entities":
[
{
"BeginOffset": 0,
"EndOffset": 22,
"Score": 0.9763959646224976,
"Text": "John Johnson",
"Type": "JUDGE"
}
]
}
{
"File": "50_docs",
"Line": 1,
"Entities":
[
{
"BeginOffset": 11,
"EndOffset": 15,
"Score": 0.9615424871444702,
"Text": "Thomas Kincaid",
"Type": "JUDGE"
}
]
}
半结构化输入的输出
对于半结构化输入文档,输出可以包括以下附加字段:
DocumentMetadata — 提取有关文档的信息。元数据包括文档中的页面列表,以及从每页中提取的字符数。如果请求包含
Byte
参数,则响应中会显示此字段。DocumentType -输入文档中每页的文档类型。此字段出现在包含该
Byte
参数的请求的响应中。块:有关输入文档中每个文本块的信息。块可以嵌套在块内。页面块包含每行文本的块,其中每个单词都包含一个块。此字段出现在包含该
Byte
参数的请求的响应中。BlockReferences — 对该实体的每个区块的引用。此字段出现在包含该
Byte
参数的请求的响应中。文本文件中不存在该字段。错误:系统在处理输入文档时检测到的页面级错误。如果系统未遇到任何错误,则该字段为空。
有关这些输出字段的更多详细信息,请参阅亚马逊 Comprehend API 参考DetectEntities中的
以下示例显示一个单页原生 PDF 输入文档的输出。
例 PDF 文档自定义实体识别分析的输出示例
{
"Blocks":
[
{
"BlockType": "LINE",
"Geometry":
{
"BoundingBox":
{
"Height": 0.012575757575757575,
"Left": 0.0,
"Top": 0.0015063131313131314,
"Width": 0.02262091503267974
},
"Polygon":
[
{
"X": 0.0,
"Y": 0.0015063131313131314
},
{
"X": 0.02262091503267974,
"Y": 0.0015063131313131314
},
{
"X": 0.02262091503267974,
"Y": 0.014082070707070706
},
{
"X": 0.0,
"Y": 0.014082070707070706
}
]
},
"Id": "4330efed-6334-4fc4-ba48-e050afa95c8d",
"Page": 1,
"Relationships":
[
{
"ids":
[
"f343ce48-583d-4abe-b84b-a232e266450f"
],
"type": "CHILD"
}
],
"Text": "S-3"
},
{
"BlockType": "WORD",
"Geometry":
{
"BoundingBox":
{
"Height": 0.012575757575757575,
"Left": 0.0,
"Top": 0.0015063131313131314,
"Width": 0.02262091503267974
},
"Polygon":
[
{
"X": 0.0,
"Y": 0.0015063131313131314
},
{
"X": 0.02262091503267974,
"Y": 0.0015063131313131314
},
{
"X": 0.02262091503267974,
"Y": 0.014082070707070706
},
{
"X": 0.0,
"Y": 0.014082070707070706
}
]
},
"Id": "f343ce48-583d-4abe-b84b-a232e266450f",
"Page": 1,
"Relationships":
[],
"Text": "S-3"
}
],
"DocumentMetadata":
{
"PageNumber": 1,
"Pages": 1
},
"DocumentType": "NativePDF",
"Entities":
[
{
"BlockReferences":
[
{
"BeginOffset": 25,
"BlockId": "4330efed-6334-4fc4-ba48-e050afa95c8d",
"ChildBlocks":
[
{
"BeginOffset": 1,
"ChildBlockId": "cbba5534-ac69-4bc4-beef-306c659f70a6",
"EndOffset": 6
}
],
"EndOffset": 30
}
],
"Score": 0.9998825926329088,
"Text": "0.001",
"Type": "OFFERING_PRICE"
},
{
"BlockReferences":
[
{
"BeginOffset": 41,
"BlockId": "f343ce48-583d-4abe-b84b-a232e266450f",
"ChildBlocks":
[
{
"BeginOffset": 0,
"ChildBlockId": "292a2e26-21f0-401b-a2bf-03aa4c47f787",
"EndOffset": 9
}
],
"EndOffset": 50
}
],
"Score": 0.9809727537330395,
"Text": "6,097,560",
"Type": "OFFERED_SHARES"
}
],
"File": "example.pdf",
"Version": "2021-04-30"
}