Modelos de lenguaje grandes compatibles para el ajuste
Con la API de Piloto automático, los usuarios pueden afinar modelos de lenguaje grandes (LLM) que funcionan con Amazon SageMaker JumpStart.
nota
Para afinar modelos que requieren la aceptación de un acuerdo de licencia para el usuario final, debe declarar explícitamente la aceptación del EULA al crear su trabajo de AutoML. Tenga en cuenta que, después de afinar un modelo previamente entrenado, cambian las ponderaciones del modelo original, por lo que no tendrá que aceptar más adelante un EULA al implementar el modelo afinado.
Para obtener información sobre cómo aceptar el EULA al crear un trabajo de afinamiento con la API de AutoML, consulte Cómo configurar la aceptación del EULA al afinar un modelo mediante la API de AutoML.
Puede obtener todos los detalles de cada modelo buscando el ID de modelo de JumpStart en la siguiente tabla de modelos
En la siguiente tabla se enumeran los modelos de JumpStart compatibles que se pueden afinar con un trabajo de AutoML.
ID de modelo de JumpStart | BaseModelName en una solicitud de API |
Descripción |
---|---|---|
huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B |
Dolly 3B es un modelo de lenguaje grande que sigue instrucciones de 2800 millones de parámetros, basado en pythia-2.8b |
huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B |
Dolly 7B es un modelo de lenguaje grande que sigue instrucciones de 6900 millones de parámetros, basado en pythia-6.9b |
huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B |
Dolly 12B es un modelo de lenguaje grande que sigue instrucciones de 12 000 millones de parámetros, basado en pythia-12b |
huggingface-llm-falcon-7b-bf16 | Falcon7B |
Falcon 7B es un modelo de lenguaje grande y causal de 7000 millones de parámetros entrenado sobre 1 500 000 de millones de tokens mejorados con corpus seleccionados. Falcon-7B está entrenado únicamente con datos en inglés y francés, y no generaliza adecuadamente en otros idiomas. Dado que el modelo se entrenó con grandes cantidades de datos web, contiene los estereotipos y sesgos que se encuentran habitualmente en Internet. |
huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct |
Falcon 7B Instruct es un modelo de lenguaje grande causal de 7000 millones de parámetros basado en Falcon 7B y afinado a partir de una combinación de 250 millones de tokens de conjuntos de datos de chats/instrucciones. Falcon 7B Instruct está entrenado sobre todo con datos en inglés y no generaliza adecuadamente en otros idiomas. Además, al estar entrenado a partir de un corpus representativo de la web a gran escala, incluye los estereotipos y sesgos que suelen encontrarse en Internet. |
huggingface-llm-falcon-40b-bf16 | Falcon40B |
Falcon 40B es un modelo de lenguaje grande y causal de 40 000 millones de parámetros entrenado sobre 1 000 000 de millones de tokens mejorados con corpus seleccionados. Está entrenado principalmente en inglés, alemán, español y francés, con capacidades limitadas en italiano, portugués, polaco, holandés, rumano, checo y sueco. No generaliza adecuadamente en otros idiomas. Además, al estar entrenado a partir de un corpus representativo de la web a gran escala, incluye los estereotipos y sesgos que suelen encontrarse en Internet. |
huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct |
Falcon 40B Instruct es un modelo de lenguaje grande causal de 40 000 millones de parámetros basado en Falcon40B y afinado a partir de una combinación de Baize. Está entrenado principalmente con datos en inglés y francés, y no generaliza adecuadamente en otros idiomas. Además, al estar entrenado a partir de un corpus representativo de la web a gran escala, incluye los estereotipos y sesgos que suelen encontrarse en Internet. |
huggingface-text2text-flan-t5-large | FlanT5L |
La familia de modelos Flan-T5 |
huggingface-text2text-flan-t5-xl | FlanT5XL |
La familia de modelos Flan-T5 |
huggingface-text2text-flan-t5-xxll | FlanT5XXL |
La familia de modelos Flan-T5 |
meta-textgeneration-llama-2-7b | Llama2-7B |
Llama 2 es una colección de modelos de texto generativo preentrenados y afinados, con una escala que oscila entre 7000 y 70 000 millones de parámetros. Llama2-7B es el modelo de 7000 millones de parámetros diseñado para su uso en inglés y que se puede adaptar a una variedad de tareas de generación de lenguaje natural. |
meta-textgeneration-llama-2-7b-f | Llama2-7BChat |
Llama 2 es una colección de modelos de texto generativo preentrenados y afinados, con una escala que oscila entre 7000 y 70 000 millones de parámetros. Llama2-7B es el modelo de chat de 7000 millones de parámetros que está optimizado para casos de uso de diálogo. |
meta-textgeneration-llama-2-13b | Llama2-13B |
Llama 2 es una colección de modelos de texto generativo preentrenados y afinados, con una escala que oscila entre 7000 y 70 000 millones de parámetros. Llama2-13B es el modelo de 13 000 millones de parámetros diseñado para su uso en inglés y que se puede adaptar a una variedad de tareas de generación de lenguaje natural. |
meta-textgeneration-llama-2-13b-f | Llama2-13BChat |
Llama 2 es una colección de modelos de texto generativo preentrenados y afinados, con una escala que oscila entre 7000 y 70 000 millones de parámetros. Llama2-13B es el modelo de chat de 13 000 millones de parámetros que está optimizado para casos de uso de diálogo. |
huggingface-llm-mistral-7b | Mistral7B |
Mistral 7B es un código de 7000 millones de parámetros y un modelo de generación de texto en inglés de uso general. Se puede usar en una variedad de casos de uso, incluidos resumen de texto, clasificación, finalización de texto o finalización de código. |
huggingface-llm-mistral-7b-instruct | Mistral7BInstruct |
Mistral 7B Instruct es la versión afinada de Mistral 7B para casos de uso conversacionales. Se especializó utilizando una variedad de conjuntos de datos de conversaciones disponibles públicamente en inglés. |
huggingface-textgeneration1-mpt-7b-bf16 | MPT7B |
MPT 7B es un modelo de lenguaje grande transformador de estilo decodificador, con 6700 millones de parámetros, preentrenado desde cero con 1 billón de tokens de texto y código en inglés. Está preparado para gestionar contextos de gran longitud. |
huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct |
MPT 7B Instruct es un modelo para tareas de seguimiento de instrucciones abreviadas. Se creó afinando MPT 7B a partir de un conjunto de datos derivado de databricks-dolly-15k |