Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Preparación de los conjuntos de datos
Antes de iniciar un trabajo de personalización de modelos, se debe preparar al menos un conjunto de datos de entrenamiento. La compatibilidad con un conjunto de datos de validación y el formato del conjunto de datos de entrenamiento y validación dependen de los siguientes factores.
Compatibilidad de modelos con el formato de datos de afinación y entrenamiento previo continuo
En la siguiente tabla se muestran los detalles del formato de datos de afinación y entrenamiento previo continuo que admite cada modelo:
Nombre de modelo |
Ajuste fino: ext-to-text |
Ajuste fino: & Text-to-image Image-to-embeddings |
Capacitación previa continua: ext-to-text |
Afinación: mensajería de un solo turno |
Afinación: mensajería de varios turnos |
Amazon Titan Text G1 - Express |
Sí |
No |
Sí |
No |
No |
Amazon Titan Text G1 - Lite |
Sí |
No |
Sí |
No |
No |
Amazon Titan Text Premier |
Sí |
No |
No |
No |
No |
Amazon Titan Image Generator G1 V1 |
Sí |
Sí |
No |
No |
No |
Amazon Titan Multimodal Embeddings G1 1 G |
Sí |
Sí |
No |
No |
No |
Anthropic Claude 3 Haiku |
No |
No |
No |
Sí |
Sí |
Cohere Command |
Sí |
No |
No |
No |
No |
Cohere Command Light |
Sí |
No |
No |
No |
No |
Meta Llama 2 13B |
Sí |
No |
No |
No |
No |
Meta Llama 2 70B |
Sí |
No |
No |
No |
No |
Para ver las cuotas predeterminadas que se aplican a los conjuntos de datos de entrenamiento y validación utilizados para personalizar diferentes modelos, consulte la Suma de las cuotas de los registros de entrenamiento y validación en los Amazon Bedrock endpoints and quotas en la Referencia general de AWS.
Preparación de los conjuntos de datos de entrenamiento y validación para el modelo personalizado
Para preparar conjuntos de datos de entrenamiento y validación para su modelo personalizado, debe crear .jsonl
archivos, cada línea de los cuales es un JSON objeto correspondiente a un registro. Los archivos que cree deben tener el formato del método y modelo de personalización que elija y los registros que contengan deben ajustarse a los requisitos de tamaño.
El formato depende del método de personalización y de la modalidad de entrada y salida del modelo. Elija la pestaña del método que prefiera y, a continuación, siga estos pasos:
- Fine-tuning: Text-to-text
-
Para text-to-text los modelos, prepare un conjunto de datos de entrenamiento y validación opcional. Cada JSON objeto es una muestra que contiene un completion
campo prompt
y. Utilice 6 caracteres por token como una aproximación del número de tokens. El formato es el siguiente.
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
El siguiente es un ejemplo de una tarea de preguntas y respuestas:
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
Para nuestros text-to-image image-to-embedding modelos, prepare un conjunto de datos de entrenamiento. No se admiten conjuntos de datos de validación. Cada JSON objeto es un ejemplo que contiene unimage-ref
, el Amazon S3 URI de una imagen y un caption
que podría ser un mensaje para la imagen.
Las imágenes deben estar en PNG formato JPEG o.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
A continuación, se muestra un elemento de ejemplo:
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Para permitir que Amazon Bedrock acceda a los archivos de imagen, añada una IAM política similar a la del rol del servicio de personalización de modelos de Amazon Bedrock que configuró o que se configuró automáticamente para usted en la consola. Permisos para acceder a los archivos de entrenamiento y validación y escribir los archivos de salida en S3 Las rutas de Amazon S3 que proporcione en el conjunto de datos de entrenamiento deben estar en las carpetas que especifique en la política.
- Continued Pre-training: Text-to-text
-
Para llevar a cabo una formación previa continua sobre un text-to-text modelo, prepare un conjunto de datos de formación y validación opcional. Como la formación previa continua incluye datos sin etiquetar, cada JSON línea es una muestra que contiene solo un campo. input
Utilice 6 caracteres por token como una aproximación del número de tokens. El formato es el siguiente.
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
A continuación aparece un elemento de ejemplo que podría estar en los datos de entrenamiento.
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
Para ajustar un text-to-text modelo mediante el formato de mensajería de un solo paso, prepare un conjunto de datos de entrenamiento y validación opcional. Ambos archivos de datos deben tener ese formato. JSONL Cada línea especifica un ejemplo de datos completo en formato json y cada ejemplo de datos debe tener el formato de una línea (elimine todas las “\n” en cada ejemplo). Una línea con varios ejemplos de datos o dividir un ejemplo de datos en varias líneas no funcionará.
Campos
Reglas
-
La matriz de messages
debe contener 2 mensajes.
-
El primer mensaje debe tener un role
del usuario.
-
El último mensaje debe tener un role
del asistente.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
Ejemplo
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
Para ajustar un text-to-text modelo mediante el formato de mensajería de varios turnos, prepare un conjunto de datos de entrenamiento y validación opcional. Ambos archivos de datos deben tener ese formato. JSONL Cada línea especifica un ejemplo de datos completo en formato json y cada ejemplo de datos debe tener el formato de una línea (elimine todas las “\n” en cada ejemplo). Una línea con varios ejemplos de datos o dividir un ejemplo de datos en varias líneas no funcionará.
Campos
Reglas
-
La matriz messages
debe contener al menos dos mensajes.
-
El primer mensaje debe tener un role
del usuario.
-
El último mensaje debe tener un role
del asistente.
-
Los mensajes deben alternar entre los roles user
y assistant
.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
Ejemplo
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
- Distillation
-
Para preparar conjuntos de datos de entrenamiento y validación para un trabajo de destilación de modelos, consulte. Requisitos previos para la destilación modelo Amazon Bedrock
Seleccione una pestaña para ver los requisitos de los conjuntos de datos de entrenamiento y validación de un modelo:
- Amazon Titan Text Premier
-
Descripción |
Máximo (afinación) |
Suma de los tokens de entrada y salida cuando el tamaño del lote es 1. |
4.096 |
Suma de los tokens de entrada y salida cuando el tamaño del lote es 2, 3 o 4. |
N/A |
Cuota de caracteres por muestra en el conjunto de datos |
Cuota de tokens x 6 |
Tamaño del archivo del conjunto de datos de entrenamiento |
1 GB |
Tamaño del archivo del conjunto de datos de validación |
100 MB |
- Amazon Titan Text G1 - Express
-
Descripción |
Máximo (entrenamiento previo continuo) |
Máximo (afinación) |
Suma de los tokens de entrada y salida cuando el tamaño del lote es 1. |
4.096 |
4.096 |
Suma de los tokens de entrada y salida cuando el tamaño del lote es 2, 3 o 4. |
2048 |
2048 |
Cuota de caracteres por muestra en el conjunto de datos |
Cuota de tokens x 6 |
Cuota de tokens x 6 |
Tamaño del archivo del conjunto de datos de entrenamiento |
10 GB |
1 GB |
Tamaño del archivo del conjunto de datos de validación |
100 MB |
100 MB |
- Amazon Titan Text G1 - Lite
-
Descripción |
Máximo (entrenamiento previo continuo) |
Máximo (afinación) |
Suma de los tokens de entrada y salida cuando el tamaño del lote es 1 o 2. |
4.096 |
4.096 |
Suma de los tokens de entrada y salida cuando el tamaño del lote es 3, 4, 5 o 6. |
2048 |
2048 |
Cuota de caracteres por muestra en el conjunto de datos |
Cuota de tokens x 6 |
Cuota de tokens x 6 |
Tamaño del archivo del conjunto de datos de entrenamiento |
10 GB |
1 GB |
Tamaño del archivo del conjunto de datos de validación |
100 MB |
100 MB |
- Amazon Titan Image Generator G1 V1
-
Descripción |
Mínimo (afinación) |
Máximo (afinación) |
Longitud de la petición de texto en el ejemplo de entrenamiento, en caracteres |
3 |
1 024 |
Registros en un conjunto de datos de entrenamiento |
5 |
10 000 |
Tamaño de la imagen de entrada |
0 |
50 MB |
Altura de la imagen de entrada en píxeles |
512 |
4.096 |
Ancho de la imagen de entrada en píxeles |
512 |
4.096 |
Pixeles totales de la imagen de entrada |
0 |
12.582.912 |
Relación de aspecto de la imagen de entrada |
1:4 |
4:1 |
- Amazon Titan Multimodal Embeddings G1
-
Descripción |
Mínimo (afinación) |
Máximo (afinación) |
Longitud de la petición de texto en el ejemplo de entrenamiento, en caracteres |
0 |
2.560 |
Registros en un conjunto de datos de entrenamiento |
1 000 |
500.000 |
Tamaño de la imagen de entrada |
0 |
5 MB |
Altura de la imagen de entrada en píxeles |
128 |
4096 |
Ancho de la imagen de entrada en píxeles |
128 |
4096 |
Pixeles totales de la imagen de entrada |
0 |
12.528.912 |
Relación de aspecto de la imagen de entrada |
1:4 |
4:1 |
- Cohere Command
-
Descripción |
Máximo (afinación) |
Tokens de entrada |
4.096 |
Tokens de salida |
2048 |
Cuota de caracteres por muestra en el conjunto de datos |
Cuota de tokens x 6 |
Registros en un conjunto de datos de entrenamiento |
10 000 |
Registros en un conjunto de datos de validación |
1 000 |
- Meta Llama 2
-
Descripción |
Máximo (afinación) |
Tokens de entrada |
4.096 |
Tokens de salida |
2048 |
Cuota de caracteres por muestra en el conjunto de datos |
Cuota de tokens x 6 |
- Meta Llama 3.1
-
Descripción |
Máximo (afinación) |
Tokens de entrada |
16,000 |
Tokens de salida |
16,000 |
Cuota de caracteres por muestra en el conjunto de datos |
Cuota de tokens x 6 |