StartDocumentAnalysis - Amazon Textract

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

StartDocumentAnalysis

키-값 페어, 테이블 및 선택 요소와 같은 감지된 항목 간의 관계에 대한 입력 문서의 비동기식 분석을 시작합니다.

StartDocumentAnalysis에서는 JPEG, PNG, TIFF 및 PDF 형식의 문서에서 텍스트를 분석할 수 있습니다. Amazon S3 버킷에 저장됩니다. 사용DocumentLocation을 눌러 문서의 버킷 이름과 파일 이름을 지정합니다.

StartDocumentAnalysis작업 식별자를 반환합니다 (JobId) 을 사용하여 작업 결과를 얻습니다. 텍스트 분석이 완료되면 Amazon Textract Textract가 에서 지정한 Amazon Simple Notification Service (Amazon SNS) 주제에 완료 상태를 게시합니다.NotificationChannel. 텍스트 분석 작업의 결과를 얻으려면 먼저 Amazon SNS 주제에 게시된 상태 값이 다음과 같은지 확인하십시오.SUCCEEDED. 그렇다면 전화하십시오.GetDocumentAnalysis작업 식별자를 전달하고 (JobId) 초기 통화부터StartDocumentAnalysis.

자세한 내용은 단원을 참조하십시오.문서 텍스트 분석.

요청 구문

{ "ClientRequestToken": "string", "DocumentLocation": { "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "JobTag": "string", "KMSKeyId": "string", "NotificationChannel": { "RoleArn": "string", "SNSTopicArn": "string" }, "OutputConfig": { "S3Bucket": "string", "S3Prefix": "string" } }

요청 파라미터

요청은 JSON 형식의 다음 데이터를 받습니다.

ClientRequestToken

시작 요청을 식별하는 데 사용하는 멱등성 토큰입니다. 동일한 토큰을 여러 개 사용하여 사용하는 경우StartDocumentAnalysis요청, 동일JobId이 반환됩니다. 사용ClientRequestToken같은 작업이 실수로 두 번 이상 시작되지 않도록 합니다. 자세한 내용은 단원을 참조하십시오.Amazon Textract 비동기 작업 호출.

Type: String

길이 제약 조건: 최소 길이는 1이고, 최대 길이 64.

Pattern: ^[a-zA-Z0-9-_]+$

: 필수 아니요

DocumentLocation

처리할 문서의 위치입니다.

유형: DocumentLocation 객체

: 필수 프로세스는 페이지 쓰기 후 세그먼트화된 가장 오래전에 사용된(SLRU) 데이터가 내구성 있는 스토리지에 도달할 때까지 기다리고 있습니다.

FeatureTypes

수행할 분석 유형의 목록입니다. 목록에 TABLES를 추가하여 입력 문서에서 검색된 테이블에 대한 정보를 반환합니다. FORMS를 추가하여 검색된 양식 데이터를 반환합니다. 두 가지 유형의 분석을 모두 수행하려면 TABLES 및 FORMS를FeatureTypes. 문서에서 감지된 모든 줄과 단어가 응답에 포함됩니다 (값과 관련이 없는 텍스트 포함)FeatureTypes).

Type: 문자열 배열

유효한 값: TABLES | FORMS

: 필수 프로세스는 페이지 쓰기 후 세그먼트화된 가장 오래전에 사용된(SLRU) 데이터가 내구성 있는 스토리지에 도달할 때까지 기다리고 있습니다.

JobTag

지정한 식별자로, Amazon SNS 주제에 게시된 완료 알림에 포함됩니다. 예를 들어 를 사용할 수 있습니다.JobTag완료 통지가 해당하는 문서 유형 (예: 세금 양식 또는 영수증) 을 식별합니다.

Type: String

길이 제약 조건: 최소 길이는 1이고, 최대 길이 64.

Pattern: [a-zA-Z0-9_.\-:]+

: 필수 아니요

KMSKeyId

추론 결과를 암호화하는 데 사용되는 KMS 키입니다. 키 ID 또는 키 별칭 형식일 수 있습니다. KMS 키가 제공되면 고객 버킷에 있는 객체의 서버 측 암호화에 KMS 키가 사용됩니다. 이 매개 변수를 활성화하지 않으면 결과는 SSE-S3 를 사용하여 서버 측에서 암호화됩니다.

Type: String

길이 제약 조건: 최소 길이는 1이고, 최대 길이 2048.

Pattern: ^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$

: 필수 아니요

NotificationChannel

Amazon Textract가 작업의 완료 상태를 게시하도록 하려는 Amazon SNS 주제 ARN입니다.

유형: NotificationChannel 객체

: 필수 아니요

OutputConfig

출력이 고객 정의 버킷으로 이동할지 여부를 설정합니다. 기본적으로 Amazon Textract Textract는 GetDocumentAnalysis 작업에서 액세스할 수 있도록 결과를 내부적으로 저장합니다.

유형: OutputConfig 객체

: 필수 아니요

응답 구문

{ "JobId": "string" }

응답 요소

작업이 성공하면 서비스가 HTTP 200 응답을 다시 전송합니다.

다음 데이터는 서비스에 의해 JSON 형식으로 반환됩니다.

JobId

문서 텍스트 감지 작업의 식별자입니다. 사용JobId후속 호출에서 작업을 식별합니다.GetDocumentAnalysis. AJobId값은 7일 동안만 유효합니다.

Type: String

길이 제약 조건: 최소 길이는 1이고, 최대 길이 64.

Pattern: ^[a-zA-Z0-9-_]+$

오류

AccessDeniedException

작업을 수행할 권한이 없습니다. 권한 있는 사용자 또는 IAM 역할의 Amazon 리소스 이름(ARN)을 사용하여 작업을 수행하십시오.

HTTP 상태 코드: 400

BadDocumentException

Amazon Textract Textract는 문서를 읽을 수 없습니다. Amazon Textract Textract의 문서 한도에 대한 자세한 내용은 단원을 참조하십시오.Amazon Textract TEXTRACT에서의 하드 제한.

HTTP 상태 코드: 400

DocumentTooLargeException

문서가 너무 크기 때문에 처리할 수 없습니다. 동기 작업의 최대 문서 크기입니다. 10MB 비동기 작업의 최대 문서 크기는 PDF 파일의 경우 500MB입니다.

HTTP 상태 코드: 400

IdempotentParameterMismatchException

AClientRequestTokeninput 파라미터가 작업과 함께 재사용되었지만 하나 이상의 다른 입력 파라미터가 이전의 작업 호출과 다릅니다.

HTTP 상태 코드: 400

InternalServerError

Amazon Textract Textract에 서비스 문제가 발생했습니다. 호출을 다시 시도하십시오.

HTTP 상태 코드: 500

InvalidKMSKeyException

KMS 키를 입력한 상태에서 암호 해독 권한이 없거나 KMS 키가 잘못 입력되었음을 나타냅니다.

HTTP 상태 코드: 400

InvalidParameterException

입력 파라미터가 제약 조건을 위반했습니다. 예를 들어, 동기 작업에서는InvalidParameterException예외가 발생하지 않을 때S3Object또는Bytes값은 다음 위치에 제공됩니다.Document요청 파라미터입니다. 파라미터를 확인한 다음 API 작업을 다시 호출하십시오.

HTTP 상태 코드: 400

InvalidS3ObjectException

Amazon Textract TExtract가 요청에서 지정된 S3 객체에 액세스할 수 없습니다.Amazon S3 대한 액세스 구성문제 해결 정보는 를 참조하십시오.Amazon S3 문제 해결

HTTP 상태 코드: 400

LimitExceededException

Amazon Textract 서비스 제한을 초과했습니다. 예를 들어 너무 많은 비동기 작업을 동시에 시작하는 경우 시작 작업을 호출합니다 (StartDocumentTextDetection예를 들어) 을 발생시키면 동시 실행 작업의 수가 Amazon Textract 서비스 제한 미만이 될 때까지 (HTTP 상태 코드: 400) 이 발생합니다.

HTTP 상태 코드: 400

ProvisionedThroughputExceededException

요청의 수가 처리량 한도를 초과했습니다. 이 한도를 늘려야 하는 경우 Amazon Textract Textract에 문의하십시오.

HTTP 상태 코드: 400

ThrottlingException

Amazon Textract Textract가 요청을 일시적으로 처리할 수 없습니다. 호출을 다시 시도하십시오.

HTTP 상태 코드: 500

UnsupportedDocumentException

출력 문서의 형식은 지원되지 않습니다. 작업 문서는 PNG, JPEG, PDF 또는 TIFF 형식일 수 있습니다.

HTTP 상태 코드: 400

참고 항목

이 API를 언어별 AWS SDK 중 하나로 사용하는 방법에 대한 자세한 내용은 다음을 참조하세요.