일반 텍스트 문서 반정형 문서 이미지 파일 및 스캔한 PDF 파일 Amazon Textract 출력 JSON 파일

비동기 사용자 지정 분석을 위한 입력

사용자 지정 비동기 분석 작업에 여러 문서를 입력할 수 있습니다. 다음 주제는 사용할 수 있는 입력 문서 유형에 대해 설명합니다. 최대 파일 크기는 입력 문서의 유형에 따라 달라집니다.

주제

일반 텍스트 문서
반정형 문서
이미지 파일 및 스캔한 PDF 파일
Amazon Textract 출력 JSON 파일

일반 텍스트 문서

모든 일반 텍스트 입력 문서를 UTF-8 형식의 텍스트로 제공합니다. 다음 표에는 최대 파일 크기 및 기타 지침이 나열되어 있습니다.

참고

이러한 제한은 모든 입력 파일이 일반 텍스트인 경우에 적용됩니다.

설명	할당량/지침
파일 형식당 문서 1개에 대한 최대 파일 크기(사용자 지정 분류)	1바이트–10MB
문서 크기(사용자 지정 개체 인식)	1바이트–1MB
최대 파일 수, 파일당 문서 하나	1,000,000
최대 줄 수, 한 줄에 문서 한 개(요청 중인 모든 파일의 경우)	1,000,000
문서 코퍼스 크기(일반 텍스트의 모든 문서 합산)	1바이트–5GB

반정형 문서

반정형 문서에는 기본 PDF 문서와 Word 문서가 포함됩니다.

다음 표에는 최대 파일 크기 및 기타 지침이 나열되어 있습니다.

설명	할당량/지침
문서 크기(PDF)	1바이트–50MB
문서 크기(Docx)	1바이트–5MB
최대 파일 수	500
PDF 또는 Docx 파일의 최대 페이지 수	100
텍스트 추출 후의 문서 코퍼스 크기(일반 텍스트, 모든 파일 합산)	1바이트–5GB

기본적으로 사용자 지정 분석은 Amazon Comprehend 파서를 사용하여 Word 파일 및 디지털 PDF 파일에서 텍스트를 추출합니다. PDF 파일의 경우 이 기본 설정을 재정의하고 Amazon Textract를 사용하여 텍스트를 추출할 수 있습니다. 텍스트 추출 옵션을 설정하는 참조.

이미지 파일 및 스캔한 PDF 파일

사용자 지정 분석은 JPEG, PNG 및 TIFF 이미지를 지원합니다.

다음 표에는 이미지의 최대 파일 크기가 나열되어 있습니다. 스캔한 PDF 파일에는 원본 PDF 파일과 동일한 최대 크기 제한이 적용됩니다.

설명	할당량/지침
이미지 크기(JPG 또는 PNG)	1바이트–10MB
이미지 크기(TIFF)	1바이트–10MB 최대 한 페이지.

이미지에 대한 추가적인 내용은 이미지 모범 사례를 참조하세요.

기본적으로 Amazon Comprehend는 Amazon Textract DetectDocumentText API 작업을 사용하여 이미지 파일 및 스캔한 PDF 파일에서 텍스트를 추출합니다. 이 기본 설정을 재정의하여 AnalyzeDocument API 작업을 대신 사용할 수 있습니다. 텍스트 추출 옵션을 설정하는을(를) 참조하세요.

Amazon Textract 출력 JSON 파일

사용자 지정 엔터티 인식의 경우(사용자 지정 분류는 아님) Amazon Textract AnalyzeDocument API 작업의 출력 파일을 분석 작업에 대한 입력으로 제공할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

실시간 분석을 위한 입력

텍스트 추출 옵션을 설정하는