Preparar los conjuntos de datos - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparar los conjuntos de datos

Antes de empezar un trabajo de personalización de modelos, es necesario preparar un conjunto de datos de entrenamiento como mínimo. La compatibilidad con un conjunto de datos de validación y el formato del conjunto de datos de entrenamiento y validación dependen de los siguientes factores.

  • El tipo de trabajo de personalización (ajuste detallado o formación previa continua).

  • Las modalidades de entrada y salida de los datos.

Soporte de modelos para el ajuste preciso y la continuación del formato de los datos previos al entrenamiento

En la siguiente tabla se muestran los detalles del formato de datos previo al entrenamiento continuo y el ajuste preciso que admite cada modelo respectivo:

Nombre de modelo Ajuste de precisión: ext-to-text Ajuste fino: & Text-to-image Image-to-embeddings Capacitación previa continua: ext-to-text Ajuste preciso: mensajería en un solo turno Ajuste preciso: mensajería en varios turnos
Amazon Titan Text G1 - Express No No No
Amazon Titan Text G1 - Lite No No No
Amazon Titan Text Premier No No No No
Amazon Titan Image Generator G1 V1 No No No
Amazon Titan Multimodal Embeddings G1 G1 No No No
Anthropic Claude 3 Haiku No No No
Cohere Command No No No No
Cohere Command Light No No No No
Meta Llama 2 13B No No No No
Meta Llama 2 70B No No No No

Para ver las cuotas predeterminadas que se aplican a los conjuntos de datos de entrenamiento y validación utilizados para personalizar diferentes modelos, consulte la suma de las cuotas de los registros de entrenamiento y validación en los puntos de enlace de Amazon Bedrock y las cuotas en. Referencia general de AWS

Prepare conjuntos de datos de entrenamiento y validación para su modelo personalizado

Para preparar conjuntos de datos de entrenamiento y validación para su modelo personalizado, debe crear .jsonl archivos, cada línea de los cuales es un JSON objeto correspondiente a un registro. Los archivos que cree deben tener el formato del método y modelo de personalización que elija y los registros que contengan deben cumplir los requisitos de tamaño.

El formato depende del método de personalización y de la modalidad de entrada y salida del modelo. Seleccione la pestaña correspondiente al método que prefiera y siga los pasos:

Fine-tuning: Text-to-text

Para text-to-text los modelos, prepare un conjunto de datos de entrenamiento y validación opcional. Cada JSON objeto es una muestra que contiene un completion campo prompt y. Utilice 6 caracteres por token como una aproximación del número de tokens. El formato es el siguiente.

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

El siguiente es un ejemplo de una tarea de preguntas y respuestas:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

Para nuestros text-to-image image-to-embedding modelos, prepare un conjunto de datos de entrenamiento. No se admiten los conjuntos de datos de validación. Cada JSON objeto es una muestra que contiene unimage-ref, el Amazon S3 URI de una imagen y un caption que podría ser un mensaje para la imagen.

Las imágenes deben estar en PNG formato JPEG o.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

A continuación, se muestra un elemento de ejemplo:

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Para permitir que Amazon Bedrock acceda a los archivos de imagen, añada una IAM política similar a la del rol del servicio de personalización de modelos de Amazon Bedrock que configuró o que se configuró automáticamente para usted en la consola. Permisos para acceder a los archivos de formación y validación y para escribir los archivos de salida en S3 Las rutas de Amazon S3 que proporcione en el conjunto de datos de entrenamiento deben estar en las carpetas que especifique en la política.

Continued Pre-training: Text-to-text

Para llevar a cabo una formación previa continua sobre un text-to-text modelo, prepare un conjunto de datos de formación y validación opcional. Como la formación previa continua incluye datos sin etiquetar, cada JSON línea es una muestra que contiene solo un campo. input Utilice 6 caracteres por token como una aproximación del número de tokens. El formato es el siguiente.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

A continuación aparece un elemento de ejemplo que podría estar en los datos de entrenamiento.

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging

Para ajustar un text-to-text modelo mediante el formato de mensajería de un solo paso, prepare un conjunto de datos de entrenamiento y validación opcional. Ambos archivos de datos deben tener ese formato. JSONL Cada línea especifica una muestra de datos completa en formato json y cada muestra de datos debe tener el formato de 1 línea (elimine todas las '\n' de cada muestra). Una línea con varias muestras de datos o dividir una muestra de datos en varias líneas no funcionará.

Campos

  • system(opcional): cadena que contiene un mensaje del sistema que establece el contexto de la conversación.

  • messages: Matriz de objetos de mensaje, cada uno de los cuales contiene:

    • role: user O assistant

    • content: El contenido textual del mensaje

Reglas

  • La messages matriz debe contener 2 mensajes

  • El primer mensaje debe tener una role del usuario

  • El último mensaje debe tener una role del asistente

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Ejemplo

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging

Para ajustar un text-to-text modelo mediante el formato de mensajería de varios turnos, prepare un conjunto de datos de entrenamiento y validación opcional. Ambos archivos de datos deben tener ese formato. JSONL Cada línea especifica una muestra de datos completa en formato json y cada muestra de datos debe tener el formato de 1 línea (elimine todas las '\n' de cada muestra). Una línea con varias muestras de datos o dividir una muestra de datos en varias líneas no funcionará.

Campos

  • system(opcional): cadena que contiene un mensaje del sistema que establece el contexto de la conversación.

  • messages: Matriz de objetos de mensaje, cada uno de los cuales contiene:

    • role: user O assistant

    • content: El contenido textual del mensaje

Reglas

  • La messages matriz debe contener 2 mensajes

  • El primer mensaje debe tener una role del usuario

  • El último mensaje debe tener una role del asistente

  • Los mensajes deben alternar entre assistant funciones user y funciones.

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Ejemplo

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Seleccione una pestaña para ver los requisitos de los conjuntos de datos de entrenamiento y validación de un modelo:

Amazon Titan Text Premier
Descripción Máximo (ajuste preciso)
Suma de los tokens de entrada y salida cuando el tamaño del lote es 1. 4.096
Suma de los tokens de entrada y salida cuando el tamaño del lote es 2, 3 o 4 N/A
Cuota de caracteres por muestra en el conjunto de datos Cuota de tokens x 6
Tamaño del archivo del conjunto de datos de entrenamiento 1 GB
Tamaño del archivo del conjunto de datos de validación 100 MB
Amazon Titan Text G1 - Express
Descripción Máximo (formación previa continua) Máximo (ajuste preciso)
Suma de los tokens de entrada y salida cuando el tamaño del lote es 1. 4.096 4.096
Suma de los tokens de entrada y salida cuando el tamaño del lote es 2, 3 o 4 2048 2048
Cuota de caracteres por muestra en el conjunto de datos Cuota de tokens x 6 Cuota de tokens x 6
Tamaño del archivo del conjunto de datos de entrenamiento 10 GB 1 GB
Tamaño del archivo del conjunto de datos de validación 100 MB 100 MB
Amazon Titan Text G1 - Lite
Descripción Máximo (formación previa continua) Máximo (ajuste preciso)
Suma de los tokens de entrada y salida cuando el tamaño del lote es 1 o 2 4.096 4.096
Suma de los tokens de entrada y salida cuando el tamaño del lote es 3, 4, 5 o 6 2048 2048
Cuota de caracteres por muestra en el conjunto de datos Cuota de tokens x 6 Cuota de tokens x 6
Tamaño del archivo del conjunto de datos de entrenamiento 10 GB 1 GB
Tamaño del archivo del conjunto de datos de validación 100 MB 100 MB
Amazon Titan Image Generator G1 V1
Descripción Mínimo (ajuste fino) Máximo (ajuste fino)
Longitud del mensaje de texto en el ejemplo de entrenamiento, en caracteres 3 1 024
Registros en un conjunto de datos de entrenamiento 5 10 000
Introduzca el tamaño de la imagen 0 50 MB
Altura de la imagen de entrada en píxeles 512 4.096
Ancho de imagen de entrada en píxeles 512 4.096
Pixeles totales de la imagen de entrada 0 12.582.912
Relación de aspecto de la imagen de entrada 1:4 4:1
Amazon Titan Multimodal Embeddings G1
Descripción Mínimo (ajuste fino) Máximo (ajuste fino)
Longitud del mensaje de texto en el ejemplo de entrenamiento, en caracteres 0 2.560
Registros en un conjunto de datos de entrenamiento 1 000 500.000
Introduzca el tamaño de la imagen 0 5 MB
Altura de la imagen de entrada en píxeles 128 4096
Ancho de imagen de entrada en píxeles 128 4096
Pixeles totales de la imagen de entrada 0 12.528.912
Relación de aspecto de la imagen de entrada 1:4 4:1
Cohere Command
Descripción Máximo (ajuste fino)
Tokens de entrada 4.096
Tokens de salida 2048
Cuota de caracteres por muestra en el conjunto de datos Cuota de tokens x 6
Registros en un conjunto de datos de entrenamiento 10 000
Registros en un conjunto de datos de validación 1 000
Meta Llama 2
Descripción Máximo (ajuste preciso)
Tokens de entrada 4.096
Tokens de salida 2048
Cuota de caracteres por muestra en el conjunto de datos Cuota de tokens x 6