데이터세트 파일 유형 및 입력 데이터 형식

포커스 모드

데이터세트 파일 유형 및 입력 데이터 형식 - Amazon SageMaker AI

지침 기반 미세 조정은 레이블이 지정된 데이터세트를 사용하여 특정 자연어 처리(NLP) 작업에서 사전 훈련된 LLM의 성능을 개선합니다. 레이블이 지정된 예제는 프롬프트 응답 쌍으로 형식이 지정되고 지시사항으로 구문이 지정됩니다.

지원되는 데이터세트 파일 유형에 대해 알아보려면 지원되는 데이터세트 파일 유형을 참조하세요.

입력 데이터 형식에 대해 알아보려면 지침 기반 미세 조정을 위한 입력 데이터 형식을 참조하세요.

지원되는 데이터세트 파일 유형

Autopilot은 CSV 파일(기본) 또는 Parquet 파일 형식의 지침 기반 미세 조정 데이터세트를 지원합니다.

CSV(쉼표로 구분된 값)는 사람이 읽을 수 있는 일반 텍스트로 데이터를 저장하는 행 기반 파일 형식으로, 다양한 범위의 애플리케이션에서 지원되므로 데이터 교환에 널리 사용됩니다.
Parquet는 CSV 같이 사람이 읽을 수 있는 파일 형식보다 데이터를 더 효율적으로 저장하고 처리하는 이진수 열 기반 파일 형식입니다. 따라서 빅 데이터 문제에 더 나은 옵션입니다.

데이터세트는 여러 파일로 구성될 수 있으며 각 파일은 특정 템플릿을 준수해야 합니다. 입력 데이터의 형식에 대한 자세한 내용은 지침 기반 미세 조정을 위한 입력 데이터 형식 섹션을 참조하세요.

데이터세트의 각 파일은 다음 형식을 준수해야 합니다.

데이터세트에는 정확히 두 개의 쉼표로 구분되고 이름이 지정된 열 input과 output이 포함되어야 합니다. Autopilot은 추가 열을 허용하지 않습니다.
input 열에는 프롬프트가 포함되고 해당 output 열에는 예상 답변이 포함됩니다. input과 output는 모두 문자열 형식입니다.

다음 예제는 Autopilot의 지침 기반 미세 조정을 위한 입력 데이터 형식을 보여줍니다.


input,output
"<prompt text>","<expected generated text>"

모델의 학습 및 성능을 최적화하려면 최소 1000행의 데이터세트를 사용하는 것이 좋습니다.

또한 Autopilot은 사용 중인 모델 유형에 따라 데이터세트의 행 수와 컨텍스트 길이에 대한 최대 제한을 설정합니다.

데이터세트의 행 수 제한은 여러 파일을 포함하여 데이터세트 내 모든 파일의 누적 행 수에 적용됩니다. 두 가지 채널 유형이 정의된 경우(훈련용과 검증용), 제한은 두 채널 내 모든 데이터세트의 총 행 수에 적용됩니다. 행 수가 임계값을 초과하면 작업이 실패하고 검증 오류가 발생합니다.
데이터세트에 있는 행의 입력 또는 출력 길이가 언어 모델 컨텍스트에 설정된 제한을 초과하면 행이 자동으로 잘립니다. 입력이든 출력이든 데이터세트의 행 중 60% 이상이 잘린 경우 Autopilot은 검증 오류가 발생하여 작업에 실패합니다.

다음 표에는 각 모델에 대한 이러한 제한이 나와 있습니다.

JumpStart 모델 ID	API 요청의 `BaseModelName`	행 제한	컨텍스트 길이 제한
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	1만 행	1024개의 토큰
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	1만 행	1024개의 토큰
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	1만 행	1024개의 토큰
huggingface-llm-falcon-7b-bf16	`Falcon7B`	1,000개 행	1024개의 토큰
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	1,000개 행	1024개의 토큰
huggingface-llm-falcon-40b-bf16	`Falcon40B`	1만 행	1024개의 토큰
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	1만 행	1024개의 토큰
huggingface-text2text-flan-t5-large	`FlanT5L`	1만 행	1024개의 토큰
huggingface-text2text-flan-t5-xl	`FlanT5XL`	1만 행	1024개의 토큰
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	1만 행	1024개의 토큰
meta-textgeneration-llama-2-7b	`Llama2-7B`	1만 행	2048개의 토큰
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	1만 행	2048개의 토큰
meta-textgeneration-llama-2-13b	`Llama2-13B`	7,000행	2048개의 토큰
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	7,000행	2048개의 토큰
huggingface-llm-mistral-7b	`Mistral7B`	1만 행	2048개의 토큰
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	1만 행	2048개의 토큰
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	1만 행	1024개의 토큰
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	1만 행	1024개의 토큰

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

지원되는 모델

하이퍼파라미터