학습 데이터 테스트 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

학습 데이터 테스트

모델을 학습시킨 후 Amazon Comprehend는 사용자 지정 분류기 모델을 테스트합니다. 테스트 데이터세트를 제공하지 않는 경우 Amazon Comprehend는 학습 데이터의 90%를 사용하여 모델을 학습시킵니다. 학습 데이터의 10%를 테스트에 사용할 수 있도록 비축합니다. 테스트 데이터 세트를 제공하는 경우 테스트 데이터에는 학습 데이터 세트의 각 고유 레이블에 대한 예제가 하나 혹은 다수 포함되어야 합니다.

모델을 테스트하면 모델의 정확도를 추정하는 데 사용할 수 있는 지표가 제공됩니다. 콘솔은 콘솔의 분류기 세부 정보 페이지에 있는 분류기 성능 섹션에 지표를 표시합니다. DescribeDocumentClassifier 작업에서 반환된 Metrics 필드에도 반환됩니다.

다음 훈련 데이터 예제에는 , , SCIENCE_DOCUMENTARY, DOCUMENTARY, FICTIONDOCUMENTARYROMANTIC_라는 다섯 가지 레이블이 있습니다COMEDY. , SCIENCE_DOCUMENTARY, FICTIONROMANTIC_의 세 가지 고유한 클래스가 있습니다COMEDY.

1열 2열
DOCUMENTARY 문서 텍스트 1
DOCUMENTARY 문서 텍스트 2
SCIENCE_FICTION 문서 텍스트 3
DOCUMENTARY 문서 텍스트 4
ROMANTIC_COMEDY 문서 텍스트 5

자동 분할(Amazon Comprehend가 테스트에 사용하기 위해 학습 데이터의 10%를 비축하는 경우)의 경우, 학습 데이터에 특정 레이블의 제한된 예가 포함되어 있으면 테스트 데이터 세트에 포함된 해당 레이블의 예는 0개일 수 있습니다. 예를 들어 훈련 데이터 세트에 DOCUMENTARY 클래스 인스턴스 1,000개, SCIENCE_ 인스턴스 900개FICTION, ROMANTIC_COMEDY 클래스 인스턴스 1개가 포함된 경우, 사용 가능한 단일 예제가 있으므로 테스트 데이터 세트에는 SCIENCE인스턴스 100DOCUMENTARY개 및 FICTION90개, 인스턴스 ROMANTIC_COMEDY개는 포함되지 않을 수 있습니다.

모델 학습을 마치면 학습 메트릭을 통해 모델이 필요에 맞게 충분히 정확한지 판단하는 데 사용할 수 있는 정보가 제공됩니다.