Tipos de arquivo de conjuntos de dados Formato dos dados de entrada

Tipos de arquivo de conjunto de dados e formato de dados de entrada

O ajuste fino baseado em instruções usa conjuntos de dados rotulados para melhorar o desempenho de tarefas pré-treinadas LLMs em tarefas específicas de processamento de linguagem natural (PNL). Os exemplos rotulados são formatados como prompts, pares de respostas a prompt e expressos como instruções.

Para saber mais sobre os tipos de arquivo de conjunto de dados compatíveis, consulte Tipos de arquivos compatíveis do conjunto de dados compatíveis.

Para saber mais sobre o formato de dados de entrada, consulte Formato de dados de entrada para ajuste fino baseado em instruções.

Tipos de arquivos compatíveis do conjunto de dados compatíveis

O Autopilot é compatível com conjuntos de dados de ajuste de acordo com as instruções formatados como arquivos CSV (padrão) ou como arquivos Parquet.

CSV (valores separados por vírgula) é um formato de arquivo em linhas que armazena dados em texto simples legível por humanos, o que é uma escolha frequente para troca de dados, pois é compatível com uma ampla variedade de aplicações.
O Parquet é um formato de arquivo em colunas, binário, no qual os dados são armazenados e processados com mais eficiência do que em formatos de arquivo de leitura humana como o CSV. Isso os torna uma opção melhor para problemas de big data.

nota

O conjunto de dados pode consistir em vários arquivos, cada um dos quais deve seguir um modelo específico. Para obter informações sobre como formatar seus dados de entrada, consulte Formato de dados de entrada para ajuste fino baseado em instruções.

Formato de dados de entrada para ajuste fino baseado em instruções

Cada arquivo do conjunto de dados deve seguir o seguinte formato:

O conjunto de dados deve conter exatamente duas colunas separadas por vírgula e nomeadas, input e output. O Autopilot não permite colunas adicionais.
As colunas input contêm os prompts e as output correspondentes contêm a resposta esperada. Tanto o input quanto output estão no formato de string.

O exemplo a seguir ilustra o formato de dados de entrada para o ajuste fino baseado em instruções no Autopilot.


input,output
"<prompt text>","<expected generated text>"

nota

Recomendamos usar conjuntos de dados com no mínimo 1.000 linhas para garantir o aprendizado e o performance ideais do modelo.

Além disso, o Autopilot define um limite máximo para o número de linhas no conjunto de dados e o tamanho do contexto com base no tipo de modelo que está sendo usado.

Os limites do número de linhas em um conjunto de dados se aplicam à contagem cumulativa de linhas em todos os arquivos dentro do conjunto de dados, incluindo vários arquivos. Se houver dois tipos de canais definidos (um para treinamento e outro para validação), o limite se aplicará ao número total de linhas em todos os conjuntos de dados em ambos os canais. Quando o número de linhas excede o limite, o trabalho falha com um erro de validação.
Quando o comprimento da entrada ou saída de uma linha no conjunto de dados excede o limite definido no contexto do modelo de linguagem, ele é automaticamente truncado. Se mais de 60% das linhas no conjunto de dados estiverem truncadas, seja na entrada ou na saída, o Autopilot falhará no trabalho com um erro de validação.

A tabela a seguir apresenta esses limites para cada modelo.

JumpStart ID do modelo	`BaseModelName` na solicitação de API	Limite de linhas	Limite de comprimento do contexto
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	10.000 linhas	1.024 tokens
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	10.000 linhas	1.024 tokens
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	10.000 linhas	1.024 tokens
huggingface-llm-falcon-7b-bf16	`Falcon7B`	1.000 linhas	1.024 tokens
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	1.000 linhas	1.024 tokens
huggingface-llm-falcon-40b-bf16	`Falcon40B`	10.000 linhas	1.024 tokens
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	10.000 linhas	1.024 tokens
huggingface-text2text-flan-t5-large	`FlanT5L`	10.000 linhas	1.024 tokens
huggingface-text2text-flan-t5-xl	`FlanT5XL`	10.000 linhas	1.024 tokens
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	10.000 linhas	1.024 tokens
meta-textgeneration-llama-2-7b	`Llama2-7B`	10.000 linhas	2.048 tokens
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	10.000 linhas	2.048 tokens
meta-textgeneration-llama-2-13b	`Llama2-13B`	7.000 linhas	2.048 tokens
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	7.000 linhas	2.048 tokens
huggingface-llm-mistral-7b	`Mistral7B`	10.000 linhas	2.048 tokens
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	10.000 linhas	2.048 tokens
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	10.000 linhas	1.024 tokens
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	10.000 linhas	1.024 tokens

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Modelos compatíveis

Hiperparâmetros