기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
분류기 학습 파일 형식
일반 텍스트 모델의 경우 SageMaker Ground Truth를 사용하여 생성한 분류기 훈련 데이터를 CSV 파일 또는 증강 매니페스트 파일로 제공할 수 있습니다. CSV 파일 또는 증강 매니페스트 파일에는 각 훈련 문서의 텍스트와 관련 레이블이 포함됩니다.
기본 문서 모델의 경우 분류기 훈련 데이터를 CSV 파일로 제공합니다. CSV 파일에는 각 훈련 문서의 파일 이름과 관련 레이블이 포함됩니다. 학습 작업을 위해 Amazon S3 입력 폴더에 학습 문서를 포함시킵니다.
CSV 파일
레이블이 지정된 훈련 데이터를 CSV 파일에 UTF-8 인코딩된 텍스트로 제공합니다. 헤더 행은 포함시키지 않습니다. 파일에 헤더 행을 추가하면 런타임 오류가 발생할 수 있습니다.
CSV 파일의 각 행에 대해 첫 번째 열에는 하나 이상의 클래스 레이블이 포함되며 클래스 레이블은 유효한 UTF-8 문자열일 수 있습니다. 의미가 중첩되지 않는 명확한 클래스 이름을 사용하는 것이 좋습니다. 이름에는 공백이 포함될 수 있으며 밑줄이나 하이픈으로 연결된 여러 단어로 구성될 수 있습니다.
행의 값을 구분하는 쉼표 앞이나 뒤의 문자에 공백을 두지 마십시오.
CSV 파일의 정확한 내용은 분류기 모드와 훈련 데이터 유형에 따라 달라집니다. 자세한 내용은 멀티클래스 모드 및 멀티레이블 모드를 참조하세요.
증강 매니페스트 파일
증강 매니페스트 파일은 SageMaker Ground Truth를 사용하여 생성하는 레이블이 지정된 데이터 세트입니다. Ground Truth는 사용자 또는 사용자가 고용한 작업 인력이 기계 학습 모델을 위한 학습 데이터 세트를 구축하는 데 도움이 되는 데이터 레이블 지정 서비스입니다.
Ground Truth 및 Ground Truth가 생성하는 출력에 대한 자세한 내용은 Amazon SageMaker 개발자 안내서의 데이터에 레이블을 지정하기 위해 SageMaker Ground Truth 사용을 참조하세요.
증강 매니페스트 파일은 JSON 줄 형식입니다. 이러한 파일에서 각 줄은 훈련 문서와 관련 레이블이 포함된 전체 JSON 객체입니다. 각 라인의 정확한 내용은 분류기 모드에 따라 다릅니다. 자세한 내용은 멀티클래스 모드 및 멀티레이블 모드를 참조하세요.
Amazon Comprehend에 학습 데이터를 제공할 때는 하나 이상의 레이블 속성 이름을 지정합니다. 지정하는 속성 이름의 수는 증강시킨 매니페스트 파일이 단일 레이블 지정 작업의 출력인지 아니면 체인 레이블 지정 작업의 출력인지에 따라 달라집니다.
파일이 단일 레이블 지정 작업의 출력인 경우 Ground Truth 작업에서 단일 레이블 속성 이름을 지정하십시오.
파일이 체인 레이블 지정 작업의 출력인 경우 체인에 있는 하나 이상의 작업에 대한 레이블 속성 이름을 지정하십시오. 각 레이블 속성 이름은 개별 작업의 주석을 제공합니다. 체인 레이블 지정 작업의 증강 매니페스트 파일에 대해 이러한 속성을 최대 5개까지 지정할 수 있습니다.
체인 레이블 지정 작업에 대한 자세한 내용과 출력의 예는 Amazon SageMaker 개발자 안내서의 체인 레이블 지정 작업을 참조하세요.