AnalyzeDocument - Amazon Textract

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AnalyzeDocument

검색된 항목 간의 관계에 대한 입력 문서를 분석합니다.

반환되는 정보의 유형은 다음과 같습니다.

  • 양식 데이터 (키-값 페어) 관련 정보는 2로 반환됩니다.Block객체, 각 유형KEY_VALUE_SET: 키Block객체 및 값Block객체입니다. 예,이름: 아나 실바 캐롤라이나에는 키와 값이 포함되어 있습니다. 이름:열쇠입니다. 아나 실바 캐롤라이나이 값입니다.

  • 테이블 및 테이블 셀 데이터입니다. 테이블Block객체에는 탐지된 테이블에 대한 정보가 들어 있습니다. 셀Block테이블의 각 셀에 대해 객체가 반환됩니다.

  • 줄 및 텍스트 단어. 줄 바꿈Block객체가 하나 이상의 WORD가 포함되어 있습니다.Block객체입니다. 문서에서 감지된 모든 줄과 단어가 반환됩니다 (값과 관계가 없는 텍스트 포함)FeatureTypes).

확인란 및 옵션 버튼 (라디오 버튼) 과 같은 선택 요소는 양식 데이터 및 테이블에서 감지할 수 있습니다. 셀렉션_엘리먼트Block객체에는 선택 상태를 포함하여 선택 요소에 대한 정보가 들어 있습니다.

다음을 지정하여 수행할 분석 유형을 선택할 수 있습니다.FeatureTypes나열.

출력은 다음 목록에 반환됩니다.Block객체입니다.

AnalyzeDocument는 동기식 작업입니다. 문서를 비동기적으로 분석하려면StartDocumentAnalysis.

자세한 내용은 단원을 참조하십시오.문서 분석.

요청 구문

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "HumanLoopConfig": { "DataAttributes": { "ContentClassifiers": [ "string" ] }, "FlowDefinitionArn": "string", "HumanLoopName": "string" } }

요청 파라미터

요청은 JSON 형식의 다음 데이터를 받습니다.

Document

입력 문서인 base64로 인코딩된 바이트 또는 Amazon S3 객체입니다. AWS CLI를 사용하여 Amazon Textract 작업을 호출하는 경우 이미지 바이트를 전달할 수 없습니다. 문서는 JPEG, PNG, PDF 또는 TIFF 형식의 이미지여야 합니다.

AWS SDK를 사용하여 Amazon Textract Textract를 호출하는 경우 다음을 사용하여 전달된 이미지 바이트를 base64로 인코딩할 필요가 없습니다.Bytes필드.

유형: Document 객체

: 필수 프로세스는 페이지 쓰기 후 세그먼트화된 가장 오래전에 사용된(SLRU) 데이터가 내구성 있는 스토리지에 도달할 때까지 기다리고 있습니다.

FeatureTypes

수행할 분석 유형의 목록입니다. 목록에 TABLES를 추가하여 입력 문서에서 검색된 테이블에 대한 정보를 반환합니다. FORMS를 추가하여 검색된 양식 데이터를 반환합니다. 두 가지 유형의 분석을 모두 수행하려면 TABLES 및 FORMS를FeatureTypes. 문서에서 감지된 모든 줄과 단어가 응답에 포함됩니다 (값과 관련이 없는 텍스트 포함)FeatureTypes).

Type: 문자열 배열

유효한 값: TABLES | FORMS

: 필수 프로세스는 페이지 쓰기 후 세그먼트화된 가장 오래전에 사용된(SLRU) 데이터가 내구성 있는 스토리지에 도달할 때까지 기다리고 있습니다.

HumanLoopConfig

문서 분석을 위한 루프 워크플로우에서 사람에 대한 구성을 설정합니다.

유형: HumanLoopConfig 객체

: 필수 아니요

응답 구문

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "HumanLoopActivationOutput": { "HumanLoopActivationConditionsEvaluationResults": "string", "HumanLoopActivationReasons": [ "string" ], "HumanLoopArn": "string" } }

응답 요소

작업이 성공하면 서비스가 HTTP 200 응답을 다시 전송합니다.

다음 데이터는 서비스에 의해 JSON 형식으로 반환됩니다.

AnalyzeDocumentModelVersion

문서를 분석하는 데 사용된 모델 버전입니다.

Type: String

Blocks

에 의해 감지되고 분석되는 항목AnalyzeDocument.

Type: 어레이Block사물

DocumentMetadata

분석된 문서에 대한 메타데이터입니다. 페이지 수를 예로 들 수 있습니다.

유형: DocumentMetadata 객체

HumanLoopActivationOutput

루프 평가에서 사람의 결과를 표시합니다.

유형: HumanLoopActivationOutput 객체

오류

AccessDeniedException

작업을 수행할 권한이 없습니다. 권한 있는 사용자 또는 IAM 역할의 Amazon 리소스 이름(ARN)을 사용하여 작업을 수행하십시오.

HTTP 상태 코드: 400

BadDocumentException

Amazon Textract Textract는 문서를 읽을 수 없습니다. Amazon Textract Textract의 문서 한도에 대한 자세한 내용은 단원을 참조하십시오.Amazon Textract TEXTRACT에서의 하드 제한.

HTTP 상태 코드: 400

DocumentTooLargeException

문서가 너무 크기 때문에 처리할 수 없습니다. 동기 작업의 최대 문서 크기입니다. 10MB 비동기 작업의 최대 문서 크기는 PDF 파일의 경우 500MB입니다.

HTTP 상태 코드: 400

HumanLoopQuotaExceededException

사용 가능한 루프 워크플로의 최대 개수를 초과했음을 나타냅니다.

HTTP 상태 코드: 400

InternalServerError

Amazon Textract Textract에 서비스 문제가 발생했습니다. 호출을 다시 시도하십시오.

HTTP 상태 코드: 500

InvalidParameterException

입력 파라미터가 제약 조건을 위반했습니다. 예를 들어, 동기 작업에서는InvalidParameterException예외가 발생하지 않을 때S3Object또는Bytes값은 다음에 제공됩니다.Document요청 파라미터입니다. 파라미터를 확인한 다음 API 작업을 다시 호출하십시오.

HTTP 상태 코드: 400

InvalidS3ObjectException

Amazon Textract TExtract가 요청에서 지정된 S3 객체에 액세스할 수 없습니다. 자세한 내용은Amazon S3 대한 액세스 구성문제 해결 정보는 를 참조하십시오.Amazon S3 문제 해결

HTTP 상태 코드: 400

ProvisionedThroughputExceededException

요청의 수가 처리량 한도를 초과했습니다. 이 한도를 늘려야 하는 경우 Amazon Textract Textract에 문의하십시오.

HTTP 상태 코드: 400

ThrottlingException

Amazon Textract Textract가 요청을 일시적으로 처리할 수 없습니다. 호출을 다시 시도하십시오.

HTTP 상태 코드: 500

UnsupportedDocumentException

입력 문서의 형식은 지원되지 않습니다. 작업 문서는 PNG, JPEG, PDF 또는 TIFF 형식일 수 있습니다.

HTTP 상태 코드: 400

참고 항목

이 API를 언어별 AWS SDK 중 하나로 사용하는 방법에 대한 자세한 내용은 다음을 참조하세요.