- Fine-tuning: Text-to-text
-
텍스트 투 텍스트 모델의 경우, 훈련 데이터세트를 준비하고 필요한 경우 검증 데이터세트를 준비합니다. 각 JSON 객체는 prompt
및 completion
필드를 모두 포함하는 샘플입니다. 토큰 개수의 근사치로 토큰당 6자를 사용합니다. 형식은 다음과 같습니다.
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
다음은 질문-응답 태스크의 예제 항목입니다.
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
텍스트 투 이미지 또는 이미지 투 임베딩 모델의 경우, 훈련 데이터세트를 준비합니다. 검증 데이터세트는 지원되지 않습니다. 각 JSON 객체는 image-ref
, 이미지용 Amazon S3 URI, 이미지용 프롬프트가 될 수 있는 caption
이 포함된 샘플입니다.
이미지는 JPEG 또는 PNG 형식이어야 합니다.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
예시는 다음과 같습니다.
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Amazon Bedrock이 이미지 파일에 액세스하도록 허용하려면, 사용자가 설정했거나 콘솔에서 자동으로 설정된 Amazon Bedrock 모델 사용자 지정 서비스 역할에 대한 (S3의 훈련 및 검증 파일에 액세스하고 S3에 출력 파일을 쓸 수 있는 권한 섹션과 유사한) IAM 정책을 추가합니다. 훈련 데이터 세트에 제공하는 Amazon S3 경로는 정책에서 지정하는 폴더에 있어야 합니다.
- Continued Pre-training: Text-to-text
-
텍스트 투 텍스트 모델에 대한 지속적인 사전 훈련을 수행하려면 훈련 데이터세트를 준비하고 필요한 경우 검증 데이터세트를 준비합니다. 지속적인 사전 훈련에는 레이블이 지정되지 않은 데이터가 포함되므로 각 JSON 라인은 input
필드만 포함하는 샘플입니다. 토큰 개수의 근사치로 토큰당 6자를 사용합니다. 형식은 다음과 같습니다.
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
다음은 훈련 데이터에 포함될 수 있는 예제 항목입니다.
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
단일 턴 메시징 형식을 사용하여 텍스트 투 텍스트 모델을 미세 조정하려면 훈련 데이터세트를 준비하고 필요한 경우 검증 데이터세트를 준비합니다. 두 데이터 파일 모두 JSONL 형식이어야 합니다. 각 라인은 json 형식으로 전체 데이터 샘플을 지정하며, 각 데이터 샘플은 한 줄로 포맷되어야 합니다(각 샘플 내에서 모든 '\n' 제거). 1개의 라인에 여러 개의 데이터 샘플이 있거나 데이터 샘플이 여러 줄로 분할된 경우 작동하지 않습니다.
필드
규칙
-
messages
배열에는 2개의 메시지가 포함되어야 합니다.
-
첫 번째 메시지에는 사용자의 role
이 있어야 합니다.
-
마지막 메시지에는 어시스턴트의 role
이 있어야 합니다.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
예
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
멀티 턴 메시징 형식을 사용하여 텍스트 투 텍스트 모델을 미세 조정하려면 훈련 데이터세트를 준비하고 필요한 경우 검증 데이터세트를 준비합니다. 두 데이터 파일 모두 JSONL 형식이어야 합니다. 각 라인은 json 형식으로 전체 데이터 샘플을 지정하며, 각 데이터 샘플은 한 줄로 포맷되어야 합니다(각 샘플 내에서 모든 '\n' 제거). 1개의 라인에 여러 개의 데이터 샘플이 있거나 데이터 샘플이 여러 줄로 분할된 경우 작동하지 않습니다.
필드
규칙
-
messages
배열에는 최소 2개의 메시지가 포함되어야 합니다.
-
첫 번째 메시지에는 사용자의 role
이 있어야 합니다.
-
마지막 메시지에는 어시스턴트의 role
이 있어야 합니다.
-
메시지는 user
및 assistant
역할을 번갈아 사용해야 합니다.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
예
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}