데이터 세트 준비 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 세트 준비

모델 사용자 지정 작업을 시작하려면 먼저 학습 데이터세트를 최소한으로 준비해야 합니다. 검증 데이터셋의 지원 여부와 훈련 및 검증 데이터셋의 형식은 다음 요인에 따라 달라집니다.

  • 사용자 지정 작업 유형 (미세 조정 또는 지속적인 사전 교육).

  • 데이터의 입력 및 출력 방식.

미세 조정 및 지속적인 사전 학습 데이터 형식을 위한 모델 지원

다음 표에는 각 모델에 지원되는 미세 조정 및 지속적인 사전 학습 데이터 형식이 자세히 나와 있습니다.

모델 이름 미세 조정: ext-to-text 미세 조정: T & I ext-to-image mage-to-embeddings 지속적인 사전 교육: ext-to-text 미세 조정: 원턴 메시지 미세 조정: 멀티턴 메시징
Amazon Titan Text G1 - Express 아니요 아니요 아니요
Amazon Titan Text G1 - Lite 아니요 아니요 아니요
아마존 타이탄 텍스트 프리미어 아니요 아니요 아니요 아니요
Amazon Titan Image Generator G1 V1 아니요 아니요 아니요
Amazon Titan Multimodal Embeddings G1 G1 아니요 아니요 아니요
Anthropic Claude 3 Haiku 아니요 아니요 아니요
Cohere Command 아니요 아니요 아니요 아니요
Cohere Command Light 아니요 아니요 아니요 아니요
Meta Llama 2 13B 아니요 아니요 아니요 아니요
Meta Llama 2 70B 아니요 아니요 아니요 아니요

다양한 모델을 사용자 지정하는 데 사용되는 훈련 및 검증 데이터세트에 적용되는 기본 할당량을 보려면 을 참조하십시오. 모델 사용자 지정 할당량

사용자 지정 모델을 위한 학습 및 검증 데이터세트를 준비하세요.

사용 사례와 관련된 탭을 선택하세요.

Fine-tuning: Text-to-text

text-to-text 모델을 미세 조정하려면 여러 줄로 구성된 JSONL 파일을 만들어 학습 및 선택적 검증 데이터세트를 준비하세요. JSON 각 JSON 라인은 a와 필드를 모두 포함하는 샘플입니다. prompt completion 토큰 개수의 근사치로 토큰당 6자를 사용합니다. 형식은 다음과 같습니다.

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

다음은 질문-응답 태스크의 예제 항목입니다.

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

text-to-image or image-to-embedding 모델을 미세 조정하려면 여러 줄로 구성된 JSONL 파일을 만들어 훈련 데이터셋을 준비하세요. JSON 검증 데이터세트는 지원되지 않습니다. 각 JSON 줄은 이미지에 URI 대한 Amazon S3와 이미지에 대한 프롬프트가 될 수 caption 있는 a를 포함하는 샘플입니다. image-ref

이미지는 JPEG 또는 PNG 형식이어야 합니다.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

예시는 다음과 같습니다.

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Amazon Bedrock이 이미지 파일에 액세스할 수 있도록 하려면 사용자가 설정했거나 콘솔에서 교육 및 검증 파일에 액세스하고 S3에 출력 파일을 작성할 수 있는 권한 자동으로 설정된 Amazon Bedrock 모델 사용자 지정 서비스 역할에 있는 것과 유사한 IAM 정책을 추가하십시오. 훈련 데이터 세트에 제공하는 Amazon S3 경로는 정책에서 지정하는 폴더에 있어야 합니다.

Continued Pre-training: Text-to-text

text-to-text 모델에 대한 지속적인 사전 교육을 수행하려면 여러 줄로 구성된 파일을 생성하여 교육 및 선택적 검증 데이터 세트를 준비하십시오. JSONL JSON 지속적인 사전 훈련에는 레이블이 지정되지 않은 데이터가 포함되므로 각 JSON 라인은 필드만 포함하는 샘플입니다. input 토큰 개수의 근사치로 토큰당 6자를 사용합니다. 형식은 다음과 같습니다.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

다음은 훈련 데이터에 포함될 수 있는 예제 항목입니다.

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging

싱글턴 메시지 형식을 사용하여 text-to-text 모델을 미세 조정하려면 여러 줄로 구성된 파일을 만들어 학습 및 선택적 검증 데이터 세트를 준비하세요. JSON JSON 두 데이터 파일 모두 다음과 같은 형식이어야 합니다. JSONL 각 줄은 전체 데이터 샘플을 json 형식으로 지정하며, 각 데이터 샘플은 한 줄로 형식을 지정해야 합니다 (각 샘플에서 '\ n' 모두 제거). 한 줄에 여러 데이터 샘플이 있거나 데이터 샘플을 여러 줄로 분할하는 것은 작동하지 않습니다.

필드

  • system(선택 사항): 대화의 컨텍스트를 설정하는 시스템 메시지가 포함된 문자열입니다.

  • messages: 각각 다음을 포함하는 메시지 객체의 배열입니다.

    • role: 다음 중 하나 user 또는 assistant

    • content: 메시지의 텍스트 내용

규칙

  • messages배열에는 메시지 2개가 포함되어야 합니다.

  • 첫 번째 메시지에는 사용자의 이름이 role 포함되어야 합니다.

  • 마지막 메시지에는 role 어시스턴트의 메시지가 포함되어야 합니다.

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging

멀티턴 메시지 형식을 사용하여 text-to-text 모델을 미세 조정하려면 여러 줄로 구성된 JSONL 파일을 만들어 훈련 및 선택적 검증 데이터세트를 준비하세요. JSON 두 데이터 파일 모두 다음과 같은 형식이어야 합니다. JSONL 각 줄은 전체 데이터 샘플을 json 형식으로 지정하며, 각 데이터 샘플은 한 줄로 형식을 지정해야 합니다 (각 샘플에서 '\ n' 모두 제거). 한 줄에 여러 데이터 샘플이 있거나 데이터 샘플을 여러 줄로 분할하는 것은 작동하지 않습니다.

필드

  • system(선택 사항): 대화의 컨텍스트를 설정하는 시스템 메시지가 포함된 문자열입니다.

  • messages: 각각 다음을 포함하는 메시지 객체의 배열입니다.

    • role: 다음 중 하나 user 또는 assistant

    • content: 메시지의 텍스트 내용

규칙

  • messages배열에는 메시지 2개가 포함되어야 합니다.

  • 첫 번째 메시지에는 사용자의 이름이 role 포함되어야 합니다.

  • 마지막 메시지에는 role 어시스턴트의 메시지가 포함되어야 합니다.

  • 메시지는 userassistant 역할 간에 번갈아 나타나야 합니다.

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}