비동기 분석 작업을 위한 출력 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

비동기 분석 작업을 위한 출력

분석 작업이 완료되면 요청에서 지정한 S3 버킷에 결과가 저장됩니다.

텍스트 입력을 위한 출력

텍스트 입력 문서 형식(멀티클래스 또는 멀티레이블)의 경우 작업 출력은 output.tar.gz로 이름이 지정된 단일 파일로 구성됩니다. 이 파일은 텍스트 파일과 출력이 들어 있는 압축된 아카이브 파일입니다.

멀티클래스 출력

멀티클래스 모드에서 학습된 분류기를 사용하면 그 결과에 classes가 표시됩니다. 이러한 classes는 각각 분류기를 학습시킬 때 범주 세트를 만드는 데 사용되는 클래스입니다.

이러한 출력 필드에 대한 자세한 내용은 Amazon Comprehend 참조ClassifyDocument의 섹션을 참조하세요. Amazon Comprehend API

다음 예제에서는 다음과 같은 함께 상호 배타적인 클래스들을 사용합니다.

DOCUMENTARY SCIENCE_FICTION ROMANTIC_COMEDY SERIOUS_DRAMA OTHER

입력 데이터 형식이 라인당 문서 하나인 경우, 출력 파일에는 입력의 각 라인에 라인 하나가 포함됩니다. 각 라인에는 파일 이름, 입력 라인의 0을 기반으로 하는 라인 번호, 문서 내에서 발견되는 단일 혹은 여러 클래스가 포함됩니다. 이는 개별 인스턴스가 올바르게 분류되었다는 Amazon Comprehend의 확신으로 종결됩니다.

예:

{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]} {"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]} {"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]} {"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

입력 데이터 형식이 파일당 문서 하나인 경우 출력 파일에는 문서당 라인 하나가 포함됩니다. 각 라인에는 파일 이름과 문서에 있는 하나 이상의 클래스가 있습니다. 이는 Amazon Comprehend가 개별 인스턴스를 정확하게 분류했다는 확신으로 종결됩니다.

예:

{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]} {"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]} {"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]} {"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

멀티레이블 출력

멀티레이블 모드에서 학습된 분류기를 사용하면 그 결과에 labels가 표시됩니다. 이러한 labels는 각각 분류기를 학습시킬 때 범주 세트를 만드는 데 사용되는 레이블입니다.

다음 예제에서는 이러한 고유한 레이블을 사용합니다.

SCIENCE_FICTION ACTION DRAMA COMEDY ROMANCE

입력 데이터 형식이 라인당 문서 하나인 경우, 출력 파일에는 입력의 각 라인에 라인 하나가 포함됩니다. 각 라인에는 파일 이름, 입력 라인의 0을 기반으로 하는 라인 번호, 문서 내에서 발견되는 단일 혹은 여러 클래스가 포함됩니다. 이는 개별 인스턴스가 올바르게 분류되었다는 Amazon Comprehend의 확신으로 종결됩니다.

예:

{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]} {"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]} {"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]} {"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

입력 데이터 형식이 파일당 문서 하나인 경우 출력 파일에는 문서당 라인 하나가 포함됩니다. 각 라인에는 파일 이름과 문서에 있는 하나 이상의 클래스가 있습니다. 이는 Amazon Comprehend가 개별 인스턴스를 정확하게 분류했다는 확신으로 종결됩니다.

예:

{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]} {"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]} {"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]} {"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

반구조화된 입력 문서를 위한 출력

반구조화된 입력 문서를 위한 출력에 다음과 같은 추가 필드가 포함될 수 있습니다.

  • DocumentMetadata - 문서에 대한 추출 정보입니다. 메타데이터에는 문서의 페이지 목록과 각 페이지에서 추출한 문자 수가 포함됩니다. 요청에 Byte 파라미터가 포함된 경우 응답에 이 필드가 표시됩니다.

  • DocumentType - 입력 문서의 각 페이지에 대한 문서 유형입니다. 요청에 Byte 파라미터가 포함된 경우 응답에 이 필드가 표시됩니다.

  • 오류(Errors) — 입력 문서를 처리하는 동안 시스템에서 감지한 페이지 수준 오류입니다. 시스템에서 오류가 발생하지 않으면 이 필드는 비어 있습니다.

이러한 출력 필드에 대한 자세한 내용은 Amazon Comprehend 참조ClassifyDocument의 섹션을 참조하세요. Amazon Comprehend API

다음 예제는 2페이지 스캔된 PDF 파일의 출력을 보여줍니다.

[{ #First page output "Classes": [ { "Name": "__label__2 ", "Score": 0.9993996620178223 }, { "Name": "__label__3 ", "Score": 0.0004330444789957255 } ], "DocumentMetadata": { "PageNumber": 1, "Pages": 2 }, "DocumentType": "ScannedPDF", "File": "file.pdf", "Version": "VERSION_NUMBER" }, #Second page output { "Classes": [ { "Name": "__label__2 ", "Score": 0.9993996620178223 }, { "Name": "__label__3 ", "Score": 0.0004330444789957255 } ], "DocumentMetadata": { "PageNumber": 2, "Pages": 2 }, "DocumentType": "ScannedPDF", "File": "file.pdf", "Version": "VERSION_NUMBER" }]