- Fine-tuning: Text-to-text
-
text-to-text 모델을 미세 조정하려면 여러 줄로 구성된 JSONL 파일을 만들어 학습 및 선택적 검증 데이터세트를 준비하세요. JSON 각 JSON 라인은 a와 필드를 모두 포함하는 샘플입니다. prompt
completion
토큰 개수의 근사치로 토큰당 6자를 사용합니다. 형식은 다음과 같습니다.
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
다음은 질문-응답 태스크의 예제 항목입니다.
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
text-to-image or image-to-embedding 모델을 미세 조정하려면 여러 줄로 구성된 JSONL 파일을 만들어 훈련 데이터셋을 준비하세요. JSON 검증 데이터세트는 지원되지 않습니다. 각 JSON 줄은 이미지에 URI 대한 Amazon S3와 이미지에 대한 프롬프트가 될 수 caption
있는 a를 포함하는 샘플입니다. image-ref
이미지는 JPEG 또는 PNG 형식이어야 합니다.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
예시는 다음과 같습니다.
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Amazon Bedrock이 이미지 파일에 액세스할 수 있도록 하려면 사용자가 설정했거나 콘솔에서 교육 및 검증 파일에 액세스하고 S3에 출력 파일을 작성할 수 있는 권한 자동으로 설정된 Amazon Bedrock 모델 사용자 지정 서비스 역할에 있는 것과 유사한 IAM 정책을 추가하십시오. 훈련 데이터 세트에 제공하는 Amazon S3 경로는 정책에서 지정하는 폴더에 있어야 합니다.
- Continued Pre-training: Text-to-text
-
text-to-text 모델에 대한 지속적인 사전 교육을 수행하려면 여러 줄로 구성된 파일을 생성하여 교육 및 선택적 검증 데이터 세트를 준비하십시오. JSONL JSON 지속적인 사전 훈련에는 레이블이 지정되지 않은 데이터가 포함되므로 각 JSON 라인은 필드만 포함하는 샘플입니다. input
토큰 개수의 근사치로 토큰당 6자를 사용합니다. 형식은 다음과 같습니다.
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
다음은 훈련 데이터에 포함될 수 있는 예제 항목입니다.
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
싱글턴 메시지 형식을 사용하여 text-to-text 모델을 미세 조정하려면 여러 줄로 구성된 파일을 만들어 학습 및 선택적 검증 데이터 세트를 준비하세요. JSON JSON 두 데이터 파일 모두 다음과 같은 형식이어야 합니다. JSONL 각 줄은 전체 데이터 샘플을 json 형식으로 지정하며, 각 데이터 샘플은 한 줄로 형식을 지정해야 합니다 (각 샘플에서 '\ n' 모두 제거). 한 줄에 여러 데이터 샘플이 있거나 데이터 샘플을 여러 줄로 분할하는 것은 작동하지 않습니다.
필드
규칙
-
messages
배열에는 메시지 2개가 포함되어야 합니다.
-
첫 번째 메시지에는 사용자의 이름이 role
포함되어야 합니다.
-
마지막 메시지에는 role
어시스턴트의 메시지가 포함되어야 합니다.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
예
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
멀티턴 메시지 형식을 사용하여 text-to-text 모델을 미세 조정하려면 여러 줄로 구성된 JSONL 파일을 만들어 훈련 및 선택적 검증 데이터세트를 준비하세요. JSON 두 데이터 파일 모두 다음과 같은 형식이어야 합니다. JSONL 각 줄은 전체 데이터 샘플을 json 형식으로 지정하며, 각 데이터 샘플은 한 줄로 형식을 지정해야 합니다 (각 샘플에서 '\ n' 모두 제거). 한 줄에 여러 데이터 샘플이 있거나 데이터 샘플을 여러 줄로 분할하는 것은 작동하지 않습니다.
필드
규칙
-
messages
배열에는 메시지 2개가 포함되어야 합니다.
-
첫 번째 메시지에는 사용자의 이름이 role
포함되어야 합니다.
-
마지막 메시지에는 role
어시스턴트의 메시지가 포함되어야 합니다.
-
메시지는 user
와 assistant
역할 간에 번갈아 나타나야 합니다.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
예
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}