기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AnalyzeDocument
검색된 항목 간의 관계에 대한 입력 문서를 분석합니다.
반환되는 정보의 유형은 다음과 같습니다.
-
양식 데이터 (키-값 페어) 관련 정보는 2로 반환됩니다.Block객체, 각 유형
KEY_VALUE_SET
: 키Block
객체 및 값Block
객체입니다. 예,이름: 아나 실바 캐롤라이나에는 키와 값이 포함되어 있습니다. 이름:열쇠입니다. 아나 실바 캐롤라이나이 값입니다. -
테이블 및 테이블 셀 데이터입니다. 테이블
Block
객체에는 탐지된 테이블에 대한 정보가 들어 있습니다. 셀Block
테이블의 각 셀에 대해 객체가 반환됩니다. -
줄 및 텍스트 단어. 줄 바꿈
Block
객체가 하나 이상의 WORD가 포함되어 있습니다.Block
객체입니다. 문서에서 감지된 모든 줄과 단어가 반환됩니다 (값과 관계가 없는 텍스트 포함)FeatureTypes
).
확인란 및 옵션 버튼 (라디오 버튼) 과 같은 선택 요소는 양식 데이터 및 테이블에서 감지할 수 있습니다. 셀렉션_엘리먼트Block
객체에는 선택 상태를 포함하여 선택 요소에 대한 정보가 들어 있습니다.
다음을 지정하여 수행할 분석 유형을 선택할 수 있습니다.FeatureTypes
나열.
출력은 다음 목록에 반환됩니다.Block
객체입니다.
AnalyzeDocument
는 동기식 작업입니다. 문서를 비동기적으로 분석하려면StartDocumentAnalysis.
자세한 내용은 단원을 참조하십시오.문서 분석.
요청 구문
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"HumanLoopConfig": {
"DataAttributes": {
"ContentClassifiers": [ "string
" ]
},
"FlowDefinitionArn": "string
",
"HumanLoopName": "string
"
}
}
요청 파라미터
요청은 JSON 형식의 다음 데이터를 받습니다.
- Document
-
입력 문서인 base64로 인코딩된 바이트 또는 Amazon S3 객체입니다. AWS CLI를 사용하여 Amazon Textract 작업을 호출하는 경우 이미지 바이트를 전달할 수 없습니다. 문서는 JPEG, PNG, PDF 또는 TIFF 형식의 이미지여야 합니다.
AWS SDK를 사용하여 Amazon Textract Textract를 호출하는 경우 다음을 사용하여 전달된 이미지 바이트를 base64로 인코딩할 필요가 없습니다.
Bytes
필드.유형: Document 객체
: 필수 프로세스는 페이지 쓰기 후 세그먼트화된 가장 오래전에 사용된(SLRU) 데이터가 내구성 있는 스토리지에 도달할 때까지 기다리고 있습니다.
- FeatureTypes
-
수행할 분석 유형의 목록입니다. 목록에 TABLES를 추가하여 입력 문서에서 검색된 테이블에 대한 정보를 반환합니다. FORMS를 추가하여 검색된 양식 데이터를 반환합니다. 두 가지 유형의 분석을 모두 수행하려면 TABLES 및 FORMS를
FeatureTypes
. 문서에서 감지된 모든 줄과 단어가 응답에 포함됩니다 (값과 관련이 없는 텍스트 포함)FeatureTypes
).Type: 문자열 배열
유효한 값:
TABLES | FORMS
: 필수 프로세스는 페이지 쓰기 후 세그먼트화된 가장 오래전에 사용된(SLRU) 데이터가 내구성 있는 스토리지에 도달할 때까지 기다리고 있습니다.
- HumanLoopConfig
-
문서 분석을 위한 루프 워크플로우에서 사람에 대한 구성을 설정합니다.
유형: HumanLoopConfig 객체
: 필수 아니요
응답 구문
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"HumanLoopActivationOutput": {
"HumanLoopActivationConditionsEvaluationResults": "string",
"HumanLoopActivationReasons": [ "string" ],
"HumanLoopArn": "string"
}
}
응답 요소
작업이 성공하면 서비스가 HTTP 200 응답을 다시 전송합니다.
다음 데이터는 서비스에 의해 JSON 형식으로 반환됩니다.
- AnalyzeDocumentModelVersion
-
문서를 분석하는 데 사용된 모델 버전입니다.
Type: String
- Blocks
-
에 의해 감지되고 분석되는 항목
AnalyzeDocument
.Type: 어레이Block사물
- DocumentMetadata
-
분석된 문서에 대한 메타데이터입니다. 페이지 수를 예로 들 수 있습니다.
유형: DocumentMetadata 객체
- HumanLoopActivationOutput
-
루프 평가에서 사람의 결과를 표시합니다.
유형: HumanLoopActivationOutput 객체
오류
- AccessDeniedException
-
작업을 수행할 권한이 없습니다. 권한 있는 사용자 또는 IAM 역할의 Amazon 리소스 이름(ARN)을 사용하여 작업을 수행하십시오.
HTTP 상태 코드: 400
- BadDocumentException
-
Amazon Textract Textract는 문서를 읽을 수 없습니다. Amazon Textract Textract의 문서 한도에 대한 자세한 내용은 단원을 참조하십시오.Amazon Textract TEXTRACT에서의 하드 제한.
HTTP 상태 코드: 400
- DocumentTooLargeException
-
문서가 너무 크기 때문에 처리할 수 없습니다. 동기 작업의 최대 문서 크기입니다. 10MB 비동기 작업의 최대 문서 크기는 PDF 파일의 경우 500MB입니다.
HTTP 상태 코드: 400
- HumanLoopQuotaExceededException
-
사용 가능한 루프 워크플로의 최대 개수를 초과했음을 나타냅니다.
HTTP 상태 코드: 400
- InternalServerError
-
Amazon Textract Textract에 서비스 문제가 발생했습니다. 호출을 다시 시도하십시오.
HTTP 상태 코드: 500
- InvalidParameterException
-
입력 파라미터가 제약 조건을 위반했습니다. 예를 들어, 동기 작업에서는
InvalidParameterException
예외가 발생하지 않을 때S3Object
또는Bytes
값은 다음에 제공됩니다.Document
요청 파라미터입니다. 파라미터를 확인한 다음 API 작업을 다시 호출하십시오.HTTP 상태 코드: 400
- InvalidS3ObjectException
-
Amazon Textract TExtract가 요청에서 지정된 S3 객체에 액세스할 수 없습니다. 자세한 내용은Amazon S3 대한 액세스 구성문제 해결 정보는 를 참조하십시오.Amazon S3 문제 해결
HTTP 상태 코드: 400
- ProvisionedThroughputExceededException
-
요청의 수가 처리량 한도를 초과했습니다. 이 한도를 늘려야 하는 경우 Amazon Textract Textract에 문의하십시오.
HTTP 상태 코드: 400
- ThrottlingException
-
Amazon Textract Textract가 요청을 일시적으로 처리할 수 없습니다. 호출을 다시 시도하십시오.
HTTP 상태 코드: 500
- UnsupportedDocumentException
-
입력 문서의 형식은 지원되지 않습니다. 작업 문서는 PNG, JPEG, PDF 또는 TIFF 형식일 수 있습니다.
HTTP 상태 코드: 400
참고 항목
이 API를 언어별 AWS SDK 중 하나로 사용하는 방법에 대한 자세한 내용은 다음을 참조하세요.