데이터 세트 파일 유형 및 입력 데이터 형식 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 세트 파일 유형 및 입력 데이터 형식

지침 기반 미세 조정은 레이블이 지정된 데이터 세트를 사용하여 특정 자연어 처리(NLP) 작업에 LLMs 대해 사전 훈련된 성능을 개선합니다. 레이블이 지정된 예제는 프롬프트-응답 페어로 형식이 지정되고 지침으로 표현됩니다.

지원되는 데이터 세트 파일 유형에 대해 알아보려면 지원되는 데이터 세트 파일 유형을 참조하세요.

입력 데이터 형식에 대해 알아보려면 지침 기반 미세 조정을 위한 입력 데이터 형식을 참조하세요.

지원되는 데이터 세트 파일 유형

Autopilot은 CSV 파일(기본값) 또는 Parquet 파일로 형식이 지정된 명령 기반 미세 조정 데이터 세트를 지원합니다.

  • CSV (쉼표로 구분된 값)은 사람이 읽을 수 있는 일반 텍스트에 데이터를 저장하는 행 기반 파일 형식이며, 다양한 애플리케이션에서 지원되므로 데이터 교환에 널리 사용됩니다.

  • Parquet는 와 같이 사람이 읽을 수 있는 파일 형식보다 데이터가 더 효율적으로 저장되고 처리되는 이진 열 기반 파일 형식입니다CSV. 따라서 빅 데이터 문제에 더 나은 옵션이 됩니다.

참고

데이터 세트는 여러 파일로 구성될 수 있으며 각 파일은 특정 템플릿을 준수해야 합니다. 입력 데이터의 형식에 대한 자세한 내용은 지침 기반 미세 조정을 위한 입력 데이터 형식 섹션을 참조하세요.

지침 기반 미세 조정을 위한 입력 데이터 형식

데이터 세트의 각 파일은 다음 형식을 준수해야 합니다.

  • 데이터 세트에는 정확히 두 개의 쉼표로 구분되고 이름이 지정된 열 inputoutput이 포함되어야 합니다. Autopilot은 추가 열을 허용하지 않습니다.

  • input 열에는 프롬프트가 포함되고 해당 output 열에는 예상 답변이 포함됩니다. inputoutput는 모두 문자열 형식입니다.

다음 예제는 Autopilot의 지침 기반 미세 조정을 위한 입력 데이터 형식을 보여줍니다.

input,output "<prompt text>","<expected generated text>"
참고

모델의 학습 및 성능을 최적화하려면 최소 1000행의 데이터 세트를 사용하는 것이 좋습니다.

또한 Autopilot은 사용 중인 모델 유형에 따라 데이터 세트의 행 수와 컨텍스트 길이에 대한 최대 제한을 설정합니다.

  • 데이터 세트의 행 수 제한은 여러 파일을 포함하여 데이터 세트 내 모든 파일의 누적 행 수에 적용됩니다. 두 가지 채널 유형이 정의된 경우(교육용과 검증용), 제한은 두 채널 내 모든 데이터 세트의 총 행 수에 적용됩니다. 행 수가 임계값을 초과하면 작업이 실패하고 검증 오류가 발생합니다.

  • 데이터 세트에 있는 행의 입력 또는 출력 길이가 언어 모델 컨텍스트에 설정된 제한을 초과하면 행이 자동으로 잘립니다. 입력이든 출력이든 데이터 세트의 행 중 60% 이상이 잘린 경우 Autopilot은 검증 오류가 발생하여 작업에 실패합니다.

다음 표에는 각 모델에 대한 이러한 제한이 나와 있습니다.

JumpStart 모델 ID BaseModelName API 요청 시 행 제한 컨텍스트 길이 제한
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B 1만 행 1024개의 토큰
huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B 1만 행 1024개의 토큰
huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B 1만 행 1024개의 토큰
huggingface-llm-falcon-7b-bf16 Falcon7B 1,000개 행 1024개의 토큰
huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct 1,000개 행 1024개의 토큰
huggingface-llm-falcon-40b-bf16 Falcon40B 1만 행 1024개의 토큰
huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct 1만 행 1024개의 토큰
huggingface-text2text-flan-t5-large FlanT5L 1만 행 1024개의 토큰
huggingface-text2text-flan-t5-xl FlanT5XL 1만 행 1024개의 토큰
huggingface-text2text-flan-t5-xxll FlanT5XXL 1만 행 1024개의 토큰
meta-textgeneration-llama-2-7b Llama2-7B 1만 행 2048개의 토큰
meta-textgeneration-llama-2-7b-f Llama2-7BChat 1만 행 2048개의 토큰
meta-textgeneration-llama-2-13b Llama2-13B 7,000개 행 2048개의 토큰
meta-textgeneration-llama-2-13b-f Llama2-13BChat 7,000개 행 2048개의 토큰
huggingface-llm-mistral-7b Mistral7B 1만 행 2048개의 토큰
huggingface-llm-mistral-7b-instruct Mistral7BInstruct 1만 행 2048개의 토큰
huggingface-textgeneration1-mpt-7b-bf16 MPT7B 1만 행 1024개의 토큰
huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct 1만 행 1024개의 토큰