비동기 분석을 위한 파일 형식 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

비동기 분석을 위한 파일 형식

사용자의 모델을 사용하여 비동기 분석을 실행할 때 입력 문서 형식(One document per line 또는 one document per file)을 선택할 수 있습니다. 사용하는 형식은 다음 표의 설명대로 분석하려는 문서의 유형에 따라 달라집니다.

설명 형식

입력에는 여러 파일이 들어 있습니다. 각 파일에는 입력 문서가 한 개씩 들어 있습니다. 이 형식은 신문 기사나 과학 논문과 같은 대용량 문서 모음에 가장 적합합니다.

또한 기본 문서 분류기를 사용하여 반정형 문서(이미지PDF, 또는 Docx 파일)에 이 형식을 사용합니다.

파일당 문서 하나

입력은 하나 이상의 파일입니다. 파일의 각 라인은 별도의 입력 문서입니다. 이 형식은 문자 메시지나 소셜 미디어 게시물과 같은 짧은 문서에 가장 적합합니다.

라인당 문서 하나

파일당 문서 하나

one document per file 형식을 사용할 경우 각 파일은 하나의 입력 문서를 나타냅니다.

라인당 문서 하나

One document per line 형식을 사용하면 각 문서가 별도의 줄에 배치되며 제목은 사용되지 않습니다. 문서의 레이블을 아직 모르기 때문에 레이블은 각 줄에 포함되지 않습니다. 파일의 각 줄(개별 문서의 끝)은 줄 피드(LF, \n), 캐리지 리턴(CR, \r) 또는 둘 다(CRLF, \r\n)로 끝나야 합니다. UTF-8 라인 구분자(u+2028)를 사용하여 라인을 종료하지 마세요.

다음 예제는 입력 파일의 형식을 보여줍니다.

Text of document 1 \n Text of document 2 \n Text of document 3 \n Text of document 4 \n

두 형식 모두 텍스트 파일에 UTF-8 인코딩을 사용합니다. 이 파일들을 준비한 후 입력 데이터를 위해 사용하는 S3 버킷에 이 파일들을 저장합니다.

분류 작업을 시작할 때 입력 데이터에 이 Amazon S3 위치를 지정합니다. 는 호출 중인 API 엔드포인트와 동일한 리전에 있어야 URI 합니다. 는 단일 파일을 가리킬 URI 수 있습니다('행당 문서 하나' 메서드를 사용하는 경우와 같으며, 데이터 파일 모음의 접두사일 수도 있습니다.

예를 들어 URI 를 사용하는 경우 접두사가 단일 파일인 S3://bucketName/prefix경우 Amazon Comprehend는 해당 파일을 입력으로 사용합니다. 접두사로 시작하는 파일이 두 개 이상인 경우 Amazon Comprehend는 이들 모두를 입력으로 사용합니다.

Amazon Comprehend에 문서 모음 및 출력 파일들이 포함된 S3 버킷에 대한 액세스 권한을 부여하십시오. 자세한 내용은 비동기 작업에 필요한 역할 기반 권한을 참조하십시오.