기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
비동기 사용자 지정 분석을 위한 입력
사용자 지정 비동기 분석 작업에 여러 문서를 입력할 수 있습니다. 다음 주제는 사용할 수 있는 입력 문서 유형에 대해 설명합니다. 최대 파일 크기는 입력 문서의 유형에 따라 달라집니다.
일반 텍스트 문서
모든 일반 텍스트 입력 문서를 UTF-8 형식의 텍스트로 제공합니다. 다음 표에는 최대 파일 크기 및 기타 지침이 나열되어 있습니다.
참고
이러한 제한은 모든 입력 파일이 일반 텍스트인 경우에 적용됩니다.
설명 | 할당량/지침 |
---|---|
파일 형식당 문서 1개에 대한 최대 파일 크기(사용자 지정 분류) | 1바이트—10MB |
문서 크기(사용자 지정 개체 인식) | 1바이트—1MB |
최대 파일 수, 파일당 문서 하나 | 1,000,000 |
최대 줄 수, 한 줄에 문서 한 개(요청 중인 모든 파일의 경우) | 1,000,000 |
문서 코퍼스 크기(일반 텍스트의 모든 문서 합산) | 1바이트–5GB |
반정형 문서
반정형 문서에는 기본 PDF 문서와 Word 문서가 포함됩니다.
다음 표에는 최대 파일 크기 및 기타 지침이 나열되어 있습니다.
설명 | 할당량/지침 |
---|---|
문서 크기(PDF) | 1바이트~50MB |
문서 크기(Docx) | 1바이트—5MB |
최대 파일 수 | 500 |
PDF 또는 Docx 파일의 최대 페이지 수 | 100 |
텍스트 추출 후의 문서 코퍼스 크기(일반 텍스트, 모든 파일 합산) | 1바이트–5GB |
기본적으로 사용자 지정 분석은 Amazon Comprehend 파서를 사용하여 Word 파일 및 디지털 PDF 파일에서 텍스트를 추출합니다. PDF 파일의 경우 이 기본값을 재정의하고 Amazon Textract를 사용하여 텍스트를 추출할 수 있습니다. 텍스트 추출 옵션 참조.
이미지 파일 및 스캔한 PDF 파일
사용자 지정 분석은 JPEG, PNG 및 TIFF 이미지를 지원합니다.
다음 표에는 이미지의 최대 파일 크기가 나열되어 있습니다. 스캔한 PDF 파일의 최대 크기는 원본 PDF 파일과 동일합니다.
설명 | 할당량/지침 |
---|---|
이미지 크기(JPG 또는 PNG) | 1바이트~10MB |
이미지 크기(TIFF) | 1바이트~10MB 최대 한 페이지. |
이미지에 대한 추가적인 내용은 이미지 모범 사례를 참조하십시오.
기본적으로 Amazon Comprehend는 Amazon Textract DetectDocumentText
API 작업을 사용하여 이미지 파일 및 스캔한 PDF 파일에서 텍스트를 추출합니다. 이 기본값을 재정의하여 AnalyzeDocument
API 작업을 대신 사용할 수 있습니다. 텍스트 추출 옵션 섹션을 참조하세요.
Amazon Textract 출력 JSON 파일
사용자 지정 엔터티 인식의 경우(사용자 지정 분류는 아님) Amazon Textract AnalyzeDocument
API 작업의 출력 파일을 분석 작업에 대한 입력으로 제공할 수 있습니다.