Compatibilidad de modelos con el formato de datos de afinación y entrenamiento previo continuo Preparación de los conjuntos de datos de entrenamiento y validación para el modelo personalizado

Preparación de los conjuntos de datos

Antes de iniciar un trabajo de personalización de modelos, se debe preparar al menos un conjunto de datos de entrenamiento. La compatibilidad con un conjunto de datos de validación y el formato del conjunto de datos de entrenamiento y validación dependen de los siguientes factores.

El tipo de trabajo de personalización (afinación o entrenamiento previo continuo).
Las modalidades de entrada y salida de los datos.

Compatibilidad de modelos con el formato de datos de afinación y entrenamiento previo continuo

En la siguiente tabla se muestran los detalles del formato de datos de afinación y entrenamiento previo continuo que admite cada modelo:

Nombre de modelo	Ajuste fino: ext-to-text	Ajuste fino: & Text-to-image Image-to-embeddings	Ajuste preciso: texto+ y texto+vídeo a texto Image-to-Text	Capacitación previa continua: ext-to-text	Afinación: mensajería de un solo turno	Afinación: mensajería de varios turnos
Amazon Nova Pro	Sí	Sí	Sí	No	Sí	Sí
Amazon Nova Lite	Sí	Sí	Sí	No	Sí	Sí
Amazon Nova Micro	Sí	No	No	No	Sí	Sí
Amazon Titan Text G1 - Express	Sí	No	No	Sí	No	No
Amazon Titan Text G1 - Lite	Sí	No	No	Sí	No	No
Amazon Titan Text Premier	Sí	No	No	No	No	No
Amazon Titan Image Generator G1 V1	Sí	Sí	No	No	No	No
Amazon Titan Multimodal Embeddings G1 G1	Sí	Sí	No	No	No	No
Anthropic Claude 3 Haiku	No	No	No	No	Sí	Sí
Cohere Command	Sí	No	No	No	No	No
Cohere Command Light	Sí	No	No	No	No	No
Meta Llama 2 13B	Sí	No	No	No	No	No
Meta Llama 2 70B	Sí	No	No	No	No	No

Para ver las cuotas predeterminadas que se aplican a los conjuntos de datos de entrenamiento y validación utilizados para personalizar diferentes modelos, consulte la Suma de las cuotas de los registros de entrenamiento y validación en los Amazon Bedrock endpoints and quotas en la Referencia general de AWS.

Preparación de los conjuntos de datos de entrenamiento y validación para el modelo personalizado

Para preparar conjuntos de datos de entrenamiento y validación para el modelo personalizado, debe crear archivos .jsonl. Cada línea del archivo es un objeto JSON que se corresponde con un registro. Los archivos que cree deben tener el formato del método y modelo de personalización que elija y los registros que contengan deben ajustarse a los requisitos de tamaño.

El formato depende del método de personalización y de la modalidad de entrada y salida del modelo. Elige la pestaña del método que prefieras y, a continuación, sigue los pasos:

Fine-tuning: Text-to-text

Para text-to-text los modelos, prepare un conjunto de datos de entrenamiento y validación opcional. Cada objeto JSON es una muestra que contiene tanto un campo prompt como completion. Utilice 6 caracteres por token como una aproximación del número de tokens. El formato es el siguiente.


{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}

El siguiente es un ejemplo de una tarea de preguntas y respuestas:


{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Fine-tuning: Text-to-image & Image-to-embeddings

Para nuestros text-to-image image-to-embedding modelos, prepare un conjunto de datos de entrenamiento. No se admiten conjuntos de datos de validación. Cada objeto JSON es un ejemplo que contiene una image-ref, el URI de Amazon S3 de una imagen y un caption que podría ser una petición para la imagen.

Las imágenes deben tener formato PNG o JPEG.


{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

A continuación, se muestra un elemento de ejemplo:


{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Para permitir que Amazon Bedrock acceda a los archivos de imagen, agregue una política de IAM similar a la de Permisos para acceder a los archivos de entrenamiento y validación y escribir los archivos de salida en S3 al rol de servicio de personalización de modelos de Amazon Bedrock que ha configurado o que se ha configurado automáticamente para usted en la consola. Las rutas de Amazon S3 que proporcione en el conjunto de datos de entrenamiento deben estar en las carpetas que especifique en la política.

Continued Pre-training: Text-to-text

Para llevar a cabo una formación previa continua sobre un text-to-text modelo, prepare un conjunto de datos de formación y validación opcional. Como el entrenamiento previo continuo incluye datos sin etiquetar, cada línea de JSON es un ejemplo que contiene solo un campo input. Utilice 6 caracteres por token como una aproximación del número de tokens. El formato es el siguiente.


{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}

A continuación aparece un elemento de ejemplo que podría estar en los datos de entrenamiento.


{"input": "AWS stands for Amazon Web Services"}

Fine-tuning: Single-turn messaging

Para ajustar un text-to-text modelo mediante el formato de mensajería de un solo paso, prepare un conjunto de datos de capacitación y validación opcional. Ambos archivos de datos deben estar en formato JSONL. Cada línea especifica un ejemplo de datos completo en formato json y cada ejemplo de datos debe tener el formato de una línea (elimine todas las “\n” en cada ejemplo). Una línea con varios ejemplos de datos o dividir un ejemplo de datos en varias líneas no funcionará.

Campos

system (opcional): una cadena que contiene un mensaje del sistema que establece el contexto de la conversación.
messages: una matriz de objetos del mensaje y cada uno contiene:
- role: user o assistant
- content: contenido del texto del mensaje

Reglas

La matriz de messages debe contener dos mensajes.
El primer mensaje debe tener un role del usuario.
El último mensaje debe tener un role del asistente.


{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Ejemplo


{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

Fine-tuning: Multi-turn messaging

Para ajustar un text-to-text modelo mediante el formato de mensajería de varios turnos, prepare un conjunto de datos de entrenamiento y validación opcional. Ambos archivos de datos deben estar en formato JSONL. Cada línea especifica un ejemplo de datos completo en formato json y cada ejemplo de datos debe tener el formato de una línea (elimine todas las “\n” en cada ejemplo). Una línea con varios ejemplos de datos o dividir un ejemplo de datos en varias líneas no funcionará.

Campos

system (opcional): una cadena que contiene un mensaje del sistema que establece el contexto de la conversación.
messages: una matriz de objetos del mensaje y cada uno contiene:
- role: user o assistant
- content: contenido del texto del mensaje

Reglas

La matriz messages debe contener al menos dos mensajes.
El primer mensaje debe tener un role del usuario.
El último mensaje debe tener un role del asistente.
Los mensajes deben alternar entre los roles user y assistant.


{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Ejemplo


{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Distillation

Para preparar conjuntos de datos de entrenamiento y validación para un trabajo de destilación de modelos, consulte. Requisitos previos para la destilación modelo Amazon Bedrock

Seleccione una pestaña para ver los requisitos de los conjuntos de datos de entrenamiento y validación de un modelo:

Amazon Nova

Modelo	Muestras mínimas	Número máximo de muestras	Longitud del contexto
Amazon Nova Micro	100	20 km	32 k
Amazon Nova Lite	8	20 000 (10 000 para el documento)	32 k
Amazon Nova Pro	100	10 mil	32 k

Restricciones de imagen y vídeo

Tamaño máximo del archivo de imagen	10 MB
Máximo de vídeos	1 por muestra
Duración o duración máxima del vídeo	90 segundos
Tamaño máximo del archivo de vídeo	50 MB
Formatos de imágenes admitidas	PNG, JPEG, GIF, WEBP
Formatos de vídeo compatibles	MOV, MKV MP4, WEBM

Amazon Titan Text Premier

Descripción	Máximo (afinación)
Suma de los tokens de entrada y salida cuando el tamaño del lote es 1.	4.096
Suma de los tokens de entrada y salida cuando el tamaño del lote es 2, 3 o 4.	N/A
Cuota de caracteres por muestra en el conjunto de datos	Cuota de tokens x 6
Tamaño del archivo del conjunto de datos de entrenamiento	1 GB
Tamaño del archivo del conjunto de datos de validación	100 MB

Amazon Titan Text G1 - Express

Descripción	Máximo (entrenamiento previo continuo)	Máximo (afinación)
Suma de los tokens de entrada y salida cuando el tamaño del lote es 1.	4.096	4.096
Suma de los tokens de entrada y salida cuando el tamaño del lote es 2, 3 o 4.	2048	2048
Cuota de caracteres por muestra en el conjunto de datos	Cuota de tokens x 6	Cuota de tokens x 6
Tamaño del archivo del conjunto de datos de entrenamiento	10 GB	1 GB
Tamaño del archivo del conjunto de datos de validación	100 MB	100 MB

Amazon Titan Text G1 - Lite

Descripción	Máximo (entrenamiento previo continuo)	Máximo (afinación)
Suma de los tokens de entrada y salida cuando el tamaño del lote es 1 o 2.	4.096	4.096
Suma de los tokens de entrada y salida cuando el tamaño del lote es 3, 4, 5 o 6.	2048	2048
Cuota de caracteres por muestra en el conjunto de datos	Cuota de tokens x 6	Cuota de tokens x 6
Tamaño del archivo del conjunto de datos de entrenamiento	10 GB	1 GB
Tamaño del archivo del conjunto de datos de validación	100 MB	100 MB

Amazon Titan Image Generator G1 V1

Descripción	Mínimo (afinación)	Máximo (afinación)
Longitud de la petición de texto en el ejemplo de entrenamiento, en caracteres	3	1 024
Registros en un conjunto de datos de entrenamiento	5	10 000
Tamaño de la imagen de entrada	0	50 MB
Altura de la imagen de entrada en píxeles	512	4.096
Ancho de la imagen de entrada en píxeles	512	4.096
Pixeles totales de la imagen de entrada	0	12.582.912
Relación de aspecto de la imagen de entrada	1:4	4:1

Amazon Titan Multimodal Embeddings G1

Descripción	Mínimo (afinación)	Máximo (afinación)
Longitud de la petición de texto en el ejemplo de entrenamiento, en caracteres	0	2.560
Registros en un conjunto de datos de entrenamiento	1 000	500.000
Tamaño de la imagen de entrada	0	5 MB
Altura de la imagen de entrada en píxeles	128	4096
Ancho de la imagen de entrada en píxeles	128	4096
Pixeles totales de la imagen de entrada	0	12.528.912
Relación de aspecto de la imagen de entrada	1:4	4:1

Cohere Command

Descripción	Máximo (afinación)
Tokens de entrada	4.096
Tokens de salida	2048
Cuota de caracteres por muestra en el conjunto de datos	Cuota de tokens x 6
Registros en un conjunto de datos de entrenamiento	10 000
Registros en un conjunto de datos de validación	1 000

Meta Llama 2

Descripción	Máximo (afinación)
Tokens de entrada	4.096
Tokens de salida	2048
Cuota de caracteres por muestra en el conjunto de datos	Cuota de tokens x 6

Meta Llama 3.1

Descripción	Máximo (afinación)
Tokens de entrada	16,000
Tokens de salida	16,000
Cuota de caracteres por muestra en el conjunto de datos	Cuota de tokens x 6

Para ver las pautas de preparación de datos de Amazon Nova, consulte Pautas para preparar los datos para Amazon Nova.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Requisitos previos para la personalización de modelos

[Opcional] Proteja sus trabajos de personalización de modelos mediante un VPC