비동기 사용자 지정 분석을 위한 입력 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

비동기 사용자 지정 분석을 위한 입력

사용자 지정 비동기 분석 작업에 여러 문서를 입력할 수 있습니다. 다음 주제는 사용할 수 있는 입력 문서 유형에 대해 설명합니다. 최대 파일 크기는 입력 문서의 유형에 따라 달라집니다.

일반 텍스트 문서

모든 일반 텍스트 입력 문서를 UTF-8 형식의 텍스트로 제공합니다. 다음 표에는 최대 파일 크기 및 기타 지침이 나열되어 있습니다.

참고

이러한 제한은 모든 입력 파일이 일반 텍스트인 경우에 적용됩니다.

설명 할당량/지침
파일 형식당 문서 1개에 대한 최대 파일 크기(사용자 지정 분류) 1바이트—10MB
문서 크기(사용자 지정 개체 인식) 1바이트—1MB
최대 파일 수, 파일당 문서 하나 1,000,000
최대 줄 수, 한 줄에 문서 한 개(요청 중인 모든 파일의 경우) 1,000,000
문서 코퍼스 크기(일반 텍스트의 모든 문서 합산) 1바이트–5GB

반정형 문서

반정형 문서에는 기본 PDF 문서와 Word 문서가 포함됩니다.

다음 표에는 최대 파일 크기 및 기타 지침이 나열되어 있습니다.

설명 할당량/지침
문서 크기(PDF) 1바이트~50MB
문서 크기(Docx) 1바이트—5MB
최대 파일 수 500
PDF 또는 Docx 파일의 최대 페이지 수 100
텍스트 추출 후의 문서 코퍼스 크기(일반 텍스트, 모든 파일 합산) 1바이트–5GB

기본적으로 사용자 지정 분석은 Amazon Comprehend 파서를 사용하여 Word 파일 및 디지털 PDF 파일에서 텍스트를 추출합니다. PDF 파일의 경우 이 기본값을 재정의하고 Amazon Textract를 사용하여 텍스트를 추출할 수 있습니다. 텍스트 추출 옵션 참조.

이미지 파일 및 스캔한 PDF 파일

사용자 지정 분석은 JPEG, PNG 및 TIFF 이미지를 지원합니다.

다음 표에는 이미지의 최대 파일 크기가 나열되어 있습니다. 스캔한 PDF 파일의 최대 크기는 원본 PDF 파일과 동일합니다.

설명 할당량/지침
이미지 크기(JPG 또는 PNG) 1바이트~10MB
이미지 크기(TIFF) 1바이트~10MB 최대 한 페이지.

이미지에 대한 추가적인 내용은 이미지 모범 사례를 참조하십시오.

기본적으로 Amazon Comprehend는 Amazon Textract DetectDocumentText API 작업을 사용하여 이미지 파일 및 스캔한 PDF 파일에서 텍스트를 추출합니다. 이 기본값을 재정의하여 AnalyzeDocument API 작업을 대신 사용할 수 있습니다. 텍스트 추출 옵션 섹션을 참조하세요.

Amazon Textract 출력 JSON 파일

사용자 지정 엔터티 인식의 경우(사용자 지정 분류는 아님) Amazon Textract AnalyzeDocument API 작업의 출력 파일을 분석 작업에 대한 입력으로 제공할 수 있습니다.