실시간 사용자 지정 분석을 위한 입력 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

실시간 사용자 지정 분석을 위한 입력

사용자 지정 모델을 사용한 실시간 분석은 단일 문서를 입력으로 사용합니다. 다음 주제는 사용할 수 있는 입력 문서 유형에 대해 설명합니다.

일반 텍스트 문서

입력 문서를 UTF-8 형식의 텍스트로 제공합니다.

반정형 문서

반정형 문서에는 기본 PDF 문서와 Word 문서가 포함됩니다.

기본적으로 실시간 사용자 지정 분석은 Amazon Comprehend 파서를 사용하여 Word 파일 및 디지털 PDF 파일에서 텍스트를 추출합니다. PDF 파일의 경우 이 기본값을 재정의하고 Amazon Textract를 사용하여 텍스트를 추출할 수 있습니다. 텍스트 추출 옵션 참조.

이미지 파일 및 스캔한 PDF 파일

지원되는 이미지 유형에는 JPEG, PNG 및 TIFF가 포함됩니다.

기본적으로 사용자 지정 개체 인식은 Amazon Textract DetectDocumentText API 작업을 사용하여 이미지 파일 및 스캔한 PDF 파일에서 텍스트를 추출합니다. 이 기본값을 재정의하여 AnalyzeDocument API 작업을 대신 사용할 수 있습니다. 텍스트 추출 옵션 섹션을 참조하세요.

Amazon Textract 출력

Amazon Textract DetectDocumentText API 또는 AnalyzeDocument API의 JSON 출력을 사용자 지정 분류 및 사용자 지정 개체 인식을 위한 실시간 API 작업에 대한 입력으로 제공할 수 있습니다. Amazon Comprehend에서는 실시간 API 작업에 대해 이 입력 유형을 지원하지만 콘솔에서는 지원하지 않습니다.

실시간 분석을 위한 최대 문서 크기

모든 입력 문서 유형의 경우 입력 파일의 최대 크기는 1페이지이며 10,000자를 넘지 않아야 합니다.

다음 표는 입력 문서의 최대 파일 크기를 보여줍니다.

파일 유형 최대 크기(API) 최대 크기(콘솔)
UTF-8 텍스트 문서 10KB 10KB
PDF 문서 10MB 5MB
Word 문서 10MB 1MB
이미지 파일 10MB 5MB
Textract 출력 파일 1MB 해당 사항 없음

반정형 문서의 오류

ClassifyDocument또는 DetectEntitiesAPI 작업에서 반정형 문서나 이미지 파일에서 텍스트를 추출하는 동안 문서 수준 또는 페이지 수준 오류가 발생할 수 있습니다.

페이지 수준 오류

입력 문서의 페이지를 처리하는 동안 ClassifyDocument또는 DetectEntitiesAPI 작업에서 오류가 발생하는 경우 API 응답에는 각 오류에 대한 오류 목록에 항목이 포함됩니다.

오류 목록 항목의 ErrorCode에는 다음 값 중 하나가 포함됩니다.

  • TEXTRACT_BAD_PAGE – Amazon Textract이 페이지를 읽을 수 없습니다. Amazon Textract의 페이지 제한에 대한 자세한 내용은 Amazon Textract의 페이지 할당량을 참조하십시오.

  • TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED – 요청 수가 처리량 한도를 초과했습니다. Amazon Textract의 처리량에 대한 자세한 내용은 Amazon Textract의 기본 처리량을 참조하십시오.

  • PAGE_CHARACTERS_EXCEEDED – 페이지에 텍스트 문자가 너무 많습니다. (최대 10,000자)

  • PAGE_SIZE_EXCEEDED – 최대 페이지 크기는 10MB입니다.

  • INTERNAL_SERVER_ERROR – 요청 중 서비스 문제가 발생했습니다. API 요청을 다시 시도하십시오.

문서 수준 오류

ClassifyDocument또는 DetectEntitiesAPI 작업이 입력 문서에서 문서 수준 오류를 감지하면 API는 오류 응답을 반환합니다. InvalidRequestException

응답에서 Reason필드에 INVALID_DOCUMENT 값이 포함됩니다.

Detail 필드에는 다음 값 중 하나가 포함될 수 있습니다.

  • DOCUMENT_SIZE_EXCEEDED – 문서 크기가 너무 큽니다. 파일 크기를 확인하고 요청을 다시 제출하십시오.

  • UNSUPPORTED_DOC_TYPE – 지원되지 않는 문서 유형입니다. 파일 유형을 확인하고 요청을 다시 제출하십시오.

  • PAGE_LIMIT_EXCEEDED – 문서에 페이지가 너무 많습니다. 파일의 페이지 수를 확인하고 요청을 다시 제출하십시오.

  • TEXTRACT_ACCESS_DENIED_EXCEPTION – Amazon Textract에 대한 액세스가 거부되었습니다. 계정에 Amazon DetectDocumentTextTextract와 AnalyzeDocumentAPI 작업을 사용할 권한이 있는지 확인하고 요청을 다시 제출하십시오.