DetectDocumentText - Amazon Textract

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

DetectDocumentText

입력 문서에서 텍스트를 감지합니다. Amazon Textract Textract는 텍스트 줄과 텍스트 한 줄을 구성하는 단어를 감지할 수 있습니다. 입력 문서는 JPEG, PNG, PDF 또는 TIFF 형식의 이미지여야 합니다.DetectDocumentText검색된 텍스트를 다음 배열로 반환합니다.Block객체.

각 문서 페이지에는 연결된 페이지가 있습니다.Block페이지 유형입니다. 각 페이지Block객체가 LINE의 상위Block페이지에서 감지된 텍스트 행을 나타내는 개체입니다. 줄 바꿈Blockobject는 선을 구성하는 각 단어의 부모입니다. 단어는 다음과 같이 표시됩니다.BlockWORD 유형의 객체입니다.

DetectDocumentText은 동기식 작업입니다. 문서를 비동기적으로 분석하려면StartDocumentTextDetection.

자세한 내용은 단원을 참조하십시오.문서 텍스트 감지.

요청 구문

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } } }

요청 파라미터

요청은 JSON 형식의 다음 데이터를 받습니다.

Document

입력 문서인 base64로 인코딩된 바이트 또는 Amazon S3 객체입니다. AWS CLI를 사용하여 Amazon Textract 작업을 호출하는 경우 이미지 바이트를 전달할 수 없습니다. 이 문서는 JPEG 또는 PNG 형식의 이미지여야 합니다.

AWS SDK를 사용하여 Amazon Textract Textract를 호출하는 경우 다음을 사용하여 전달된 이미지 바이트를 base64로 인코딩할 필요가 없습니다.Bytes필드.

유형: Document 객체

: 필수 프로세스는 페이지 쓰기 후 세그먼트화된 가장 오래전에 사용된(SLRU) 데이터가 내구성 있는 스토리지에 도달할 때까지 기다리고 있습니다.

응답 구문

{ "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DetectDocumentTextModelVersion": "string", "DocumentMetadata": { "Pages": number } }

응답 요소

작업이 성공하면 서비스가 HTTP 200 응답을 다시 전송합니다.

다음 데이터는 서비스에 의해 JSON 형식으로 반환됩니다.

Blocks

의 어레이Block문서에서 검색된 텍스트를 포함하는 개체입니다.

Type: 배열Block사물

DetectDocumentTextModelVersion

Type: String

DocumentMetadata

문서에 대한 메타데이터입니다. 이 문서에는 문서에서 검색된 페이지 수가 포함됩니다.

유형: DocumentMetadata 객체

오류

AccessDeniedException

작업을 수행할 권한이 없습니다. 권한 있는 사용자 또는 IAM 역할의 Amazon 리소스 이름(ARN)을 사용하여 작업을 수행하십시오.

HTTP 상태 코드: 400

BadDocumentException

Amazon Textract Textract는 문서를 읽을 수 없습니다. Amazon Textract Textract의 문서 한도에 대한 자세한 내용은 단원을 참조하십시오.Amazon Textract TEXTRACT에서의 하드 제한.

HTTP 상태 코드: 400

DocumentTooLargeException

문서가 너무 크기 때문에 처리할 수 없습니다. 동기 작업의 최대 문서 크기입니다. 10MB입니다. 비동기 작업의 최대 문서 크기는 PDF 파일의 경우 500MB입니다.

HTTP 상태 코드: 400

InternalServerError

Amazon Textract Textract에 서비스 문제가 발생했습니다. 호출을 다시 시도하십시오.

HTTP 상태 코드: 500

InvalidParameterException

입력 파라미터가 제약 조건을 위반했습니다. 예를 들어, 동기 작업에서는InvalidParameterException예외가 발생하지 않을 때S3Object또는Bytes값은 다음 항목에 제공됩니다.Document요청 파라미터입니다. 파라미터를 확인한 다음 API 작업을 다시 호출하십시오.

HTTP 상태 코드: 400

InvalidS3ObjectException

Amazon Textract 이 요청에서 지정된 S3 객체에 액세스할 수 없습니다. 자세한 내용은Amazon S3 대한 액세스 구성문제 해결 정보는 를 참조하십시오.Amazon S3 문제 해결

HTTP 상태 코드: 400

ProvisionedThroughputExceededException

요청의 수가 처리량 한도를 초과했습니다. 이 한도를 늘려야 하는 경우 Amazon Textract Textract에 문의하십시오.

HTTP 상태 코드: 400

ThrottlingException

Amazon Textract Textract이 요청을 일시적으로 처리할 수 없습니다. 호출을 다시 시도하십시오.

HTTP 상태 코드: 500

UnsupportedDocumentException

출력 문서의 형식은 지원되지 않습니다. 작업 문서는 PNG, JPEG, PDF 또는 TIFF 형식일 수 있습니다.

HTTP 상태 코드: 400

참고 항목

이 API를 언어별 AWS SDK 중 하나로 사용하는 방법에 대한 자세한 내용은 다음을 참조하세요.