As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Tipos de arquivo de conjunto de dados e formato de dados de entrada
O ajuste fino baseado em instruções usa conjuntos de dados rotulados para melhorar o desempenho de tarefas pré-treinadas LLMs em tarefas específicas de processamento de linguagem natural (). NLP Os exemplos rotulados são formatados como pares de pronto-resposta e expressos como instruções.
Para saber mais sobre os tipos de arquivo de conjunto de dados compatíveis, consulte Tipos de arquivo de conjunto de dados compatíveis.
Para saber mais sobre o formato de dados de entrada, consulte Formato de dados de entrada para ajuste fino baseado em instruções.
Tipos de arquivo de conjunto de dados compatíveis
O Autopilot suporta conjuntos de dados de ajuste fino baseados em instruções formatados como CSV arquivos (padrão) ou como arquivos Parquet.
-
CSV(valores separados por vírgula) é um formato de arquivo baseado em linhas que armazena dados em texto simples legível por humanos, que é uma escolha popular para troca de dados, pois é suportado por uma ampla variedade de aplicativos.
-
O Parquet é um formato de arquivo binário baseado em colunas em que os dados são armazenados e processados com mais eficiência do que em formatos de arquivo legíveis por humanos, como. CSV Isso o torna uma opção melhor para problemas de big data.
nota
O conjunto de dados pode consistir em vários arquivos, cada um dos quais deve seguir um modelo específico. Para obter informações sobre como formatar seus dados de entrada, consulte Formato de dados de entrada para ajuste fino baseado em instruções.
Formato de dados de entrada para ajuste fino baseado em instruções
Cada arquivo no conjunto de dados deve seguir o seguinte formato:
-
O conjunto de dados deve conter exatamente duas colunas separadas por vírgula e nomeadas,
input
eoutput
. O piloto automático não permite colunas adicionais. -
As colunas
input
contêm as solicitações e as correspondentesoutput
contêm a resposta esperada. Tanto oinput
quantooutput
estão no formato de string.
O exemplo a seguir ilustra o formato de dados de entrada para o ajuste fino baseado em instruções no Autopilot.
input,output "<prompt text>","<expected generated text>"
nota
Recomendamos usar conjuntos de dados com no mínimo 1.000 linhas para garantir o aprendizado e o performance ideais do modelo.
Além disso, o Autopilot define um limite máximo para o número de linhas no conjunto de dados e o tamanho do contexto com base no tipo de modelo que está sendo usado.
-
Os limites do número de linhas em um conjunto de dados se aplicam à contagem cumulativa de linhas em todos os arquivos dentro do conjunto de dados, incluindo vários arquivos. Se houver dois tipos de canais definidos (um para treinamento e outro para validação), o limite se aplica ao número total de linhas em todos os conjuntos de dados em ambos os canais. Quando o número de linhas excede o limite, o trabalho falha com um erro de validação.
-
Quando o comprimento da entrada ou saída de uma linha no conjunto de dados excede o limite definido no contexto do modelo de linguagem, ele é automaticamente truncado. Se mais de 60% das linhas no conjunto de dados estiverem truncadas, seja na entrada ou na saída, o Autopilot falhará no trabalho com um erro de validação.
A tabela a seguir apresenta esses limites para cada modelo.
JumpStart ID do modelo | BaseModelName a API pedido |
Limite de linhas | Limite de comprimento do contexto |
---|---|---|---|
huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B |
10.000 linhas | 1.024 tokens |
huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B |
10.000 linhas | 1.024 tokens |
huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B |
10.000 linhas | 1.024 tokens |
huggingface-llm-falcon-7b-bf16 | Falcon7B |
1.000 linhas | 1.024 tokens |
huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct |
1.000 linhas | 1.024 tokens |
huggingface-llm-falcon-40b-bf16 | Falcon40B |
10.000 linhas | 1.024 tokens |
huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct |
10.000 linhas | 1.024 tokens |
huggingface-text2text-flan-t5-large | FlanT5L |
10.000 linhas | 1.024 tokens |
huggingface-text2text-flan-t5-xl | FlanT5XL |
10.000 linhas | 1.024 tokens |
huggingface-text2text-flan-t5-xxll | FlanT5XXL |
10.000 linhas | 1.024 tokens |
meta-textgeneration-llama-2-7b | Llama2-7B |
10.000 linhas | 2.048 tokens |
meta-textgeneration-llama-2-7b-f | Llama2-7BChat |
10.000 linhas | 2.048 tokens |
meta-textgeneration-llama-2-13b | Llama2-13B |
7.000 linhas | 2.048 tokens |
meta-textgeneration-llama-2-13b-f | Llama2-13BChat |
7.000 linhas | 2.048 tokens |
huggingface-llm-mistral-7b | Mistral7B |
10.000 linhas | 2.048 tokens |
huggingface-llm-mistral-7b-instruct | Mistral7BInstruct |
10.000 linhas | 2.048 tokens |
huggingface-textgeneration1-mpt-7b-bf16 | MPT7B |
10.000 linhas | 1.024 tokens |
huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct |
10.000 linhas | 1.024 tokens |