Tipos de archivos de conjuntos de datos y formato de datos de entrada - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Tipos de archivos de conjuntos de datos y formato de datos de entrada

El ajuste preciso basado en la instrucción utiliza conjuntos de datos etiquetados para mejorar el rendimiento de las tareas previamente entrenadas en el procesamiento del lenguaje natural () específicas. LLMs NLP Los ejemplos etiquetados tienen el formato de pares de preguntas y respuestas y están redactados como instrucciones.

Para obtener más información sobre los tipos de archivos de conjuntos de datos compatibles, consulte Tipos de archivos de conjuntos de datos compatibles.

Para obtener más información sobre el formato de datos de entrada, consulte Formato de datos de entrada para el ajuste basado en instrucciones.

Tipos de archivos de conjuntos de datos compatibles

El piloto automático admite conjuntos de datos de ajuste preciso basados en instrucciones formateados como archivos (predeterminado) o como archivos Parquet. CSV

  • CSV(valores separados por comas) es un formato de archivo basado en filas que almacena los datos en texto plano legible para las personas, y es una opción popular para el intercambio de datos, ya que es compatible con una amplia gama de aplicaciones.

  • Parquet es un formato de archivo binario basado en columnas en el que los datos se almacenan y procesan de manera más eficiente que en formatos de archivo legibles por humanos, como. CSV Esto lo convierte en una mejor opción para los problemas de big data.

nota

El conjunto de datos puede constar de varios archivos, cada uno de los cuales debe ajustarse a una plantilla específica. Para obtener más información sobre cómo dar formato a datos de entrada, consulte Formato de datos de entrada para el ajuste basado en instrucciones.

Formato de datos de entrada para el ajuste basado en instrucciones

Cada archivo del conjunto de datos debe tener el siguiente formato:

  • El conjunto de datos debe contener exactamente dos columnas nombradas y separadas por comas: input y output. El piloto automático no permite columnas adicionales.

  • Las columnas input contienen las instrucciones y las correspondientes output contienen la respuesta esperada. Tanto input como output están en formato de cadena.

El siguiente ejemplo muestra el formato de datos de entrada para el ajuste basado en instrucciones en Piloto automático.

input,output "<prompt text>","<expected generated text>"
nota

Recomendamos utilizar conjuntos de datos con un mínimo de 1000 filas para garantizar un aprendizaje y un rendimiento óptimos del modelo.

Además, Piloto automático establece un límite máximo en el número de filas del conjunto de datos, así como la longitud del contexto en función del tipo de modelo que se utilice.

  • Los límites del número de filas de un conjunto de datos se aplican al recuento acumulado de filas en todos los archivos del conjunto de datos, incluidos varios archivos. Si hay dos tipos de canales definidos (uno para entrenamiento y otro para validación), el límite se aplica al número total de filas en todos los conjuntos de datos de ambos canales. Cuando el número de filas supera el umbral, el trabajo falla y se produce un error de validación.

  • Cuando la longitud de la entrada o salida de una fila del conjunto de datos supera el límite establecido en el contexto del modelo de lenguaje, queda truncado automáticamente. Si más del 60 % de las filas del conjunto de datos están truncadas, ya sea en la entrada o en la salida, el piloto automático falla y se produce un error de validación.

La siguiente tabla presenta esos límites para cada modelo.

JumpStart ID del modelo BaseModelNameen API solicitud Límite de fila Límite de longitud del contexto
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B 10 000 filas 1024 tokens
huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B 10 000 filas 1024 tokens
huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B 10 000 filas 1024 tokens
huggingface-llm-falcon-7b-bf16 Falcon7B 1000 filas 1024 tokens
huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct 1000 filas 1024 tokens
huggingface-llm-falcon-40b-bf16 Falcon40B 10 000 filas 1024 tokens
huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct 10 000 filas 1024 tokens
huggingface-text2text-flan-t5-large FlanT5L 10 000 filas 1024 tokens
huggingface-text2text-flan-t5-xl FlanT5XL 10 000 filas 1024 tokens
huggingface-text2text-flan-t5-xxll FlanT5XXL 10 000 filas 1024 tokens
meta-textgeneration-llama-2-7b Llama2-7B 10 000 filas 2048 tokens
meta-textgeneration-llama-2-7b-f Llama2-7BChat 10 000 filas 2048 tokens
meta-textgeneration-llama-2-13b Llama2-13B 7.000 filas 2048 tokens
meta-textgeneration-llama-2-13b-f Llama2-13BChat 7.000 filas 2048 tokens
huggingface-llm-mistral-7b Mistral7B 10 000 filas 2048 tokens
huggingface-llm-mistral-7b-instruct Mistral7BInstruct 10 000 filas 2048 tokens
huggingface-textgeneration1-mpt-7b-bf16 MPT7B 10 000 filas 1024 tokens
huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct 10 000 filas 1024 tokens