Modelos de lenguaje grandes compatibles para el ajuste - Amazon SageMaker

Modelos de lenguaje grandes compatibles para el ajuste

Con la API de Piloto automático, los usuarios pueden afinar modelos de lenguaje grandes (LLM) que funcionan con Amazon SageMaker JumpStart.

nota

Para afinar modelos que requieren la aceptación de un acuerdo de licencia para el usuario final, debe declarar explícitamente la aceptación del EULA al crear su trabajo de AutoML. Tenga en cuenta que, después de afinar un modelo previamente entrenado, cambian las ponderaciones del modelo original, por lo que no tendrá que aceptar más adelante un EULA al implementar el modelo afinado.

Para obtener información sobre cómo aceptar el EULA al crear un trabajo de afinamiento con la API de AutoML, consulte Cómo configurar la aceptación del EULA al afinar un modelo mediante la API de AutoML.

Puede obtener todos los detalles de cada modelo buscando el ID de modelo de JumpStart en la siguiente tabla de modelos y, a continuación, siguiendo el enlace de la columna Origen. Estos detalles pueden incluir los idiomas compatibles con el modelo, los sesgos que pueda presentar, los conjuntos de datos empleados para el afinamiento, etc.

En la siguiente tabla se enumeran los modelos de JumpStart compatibles que se pueden afinar con un trabajo de AutoML.

ID de modelo de JumpStart BaseModelName en una solicitud de API Descripción
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B es un modelo de lenguaje grande que sigue instrucciones de 2800 millones de parámetros, basado en pythia-2.8b. Está entrenado en el conjunto de datos de afinamiento de instrucción/respuesta databricks-dolly-15k y puede realizar tareas como lluvia de ideas, clasificación, preguntas y respuestas, generación de texto, extracción de información y resumen.

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B es un modelo de lenguaje grande que sigue instrucciones de 6900 millones de parámetros, basado en pythia-6.9b. Está entrenado en el conjunto de datos de afinamiento de instrucción/respuesta databricks-dolly-15k y puede realizar tareas como lluvia de ideas, clasificación, preguntas y respuestas, generación de texto, extracción de información y resumen.

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B es un modelo de lenguaje grande que sigue instrucciones de 12 000 millones de parámetros, basado en pythia-12b. Está entrenado en el conjunto de datos de afinamiento de instrucción/respuesta databricks-dolly-15k y puede realizar tareas como lluvia de ideas, clasificación, preguntas y respuestas, generación de texto, extracción de información y resumen.

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon 7B es un modelo de lenguaje grande y causal de 7000 millones de parámetros entrenado sobre 1 500 000 de millones de tokens mejorados con corpus seleccionados. Falcon-7B está entrenado únicamente con datos en inglés y francés, y no generaliza adecuadamente en otros idiomas. Dado que el modelo se entrenó con grandes cantidades de datos web, contiene los estereotipos y sesgos que se encuentran habitualmente en Internet.

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon 7B Instruct es un modelo de lenguaje grande causal de 7000 millones de parámetros basado en Falcon 7B y afinado a partir de una combinación de 250 millones de tokens de conjuntos de datos de chats/instrucciones. Falcon 7B Instruct está entrenado sobre todo con datos en inglés y no generaliza adecuadamente en otros idiomas. Además, al estar entrenado a partir de un corpus representativo de la web a gran escala, incluye los estereotipos y sesgos que suelen encontrarse en Internet.

huggingface-llm-falcon-40b-bf16 Falcon40B

Falcon 40B es un modelo de lenguaje grande y causal de 40 000 millones de parámetros entrenado sobre 1 000 000 de millones de tokens mejorados con corpus seleccionados. Está entrenado principalmente en inglés, alemán, español y francés, con capacidades limitadas en italiano, portugués, polaco, holandés, rumano, checo y sueco. No generaliza adecuadamente en otros idiomas. Además, al estar entrenado a partir de un corpus representativo de la web a gran escala, incluye los estereotipos y sesgos que suelen encontrarse en Internet.

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon 40B Instruct es un modelo de lenguaje grande causal de 40 000 millones de parámetros basado en Falcon40B y afinado a partir de una combinación de Baize. Está entrenado principalmente con datos en inglés y francés, y no generaliza adecuadamente en otros idiomas. Además, al estar entrenado a partir de un corpus representativo de la web a gran escala, incluye los estereotipos y sesgos que suelen encontrarse en Internet.

huggingface-text2text-flan-t5-large FlanT5L

La familia de modelos Flan-T5 es un conjunto de modelos de lenguaje grandes que se afinan sobre múltiples tareas y pueden seguir entrenándose. Estos modelos son aptos para tareas como la traducción de idiomas, la generación de textos, la finalización de oraciones, la desambiguación del sentido de las palabras, la síntesis o la respuesta a preguntas. Flan T5 L es un modelo de lenguaje grande de 780 millones de parámetros entrenado sobre numerosos idiomas. Encontrará la lista de idiomas compatibles con Flan T5 L en los detalles del modelo obtenidos al buscar por ID de modelo en la tabla de modelos de JumpStart.

huggingface-text2text-flan-t5-xl FlanT5XL

La familia de modelos Flan-T5 es un conjunto de modelos de lenguaje grandes que se afinan sobre múltiples tareas y pueden seguir entrenándose. Estos modelos son aptos para tareas como la traducción de idiomas, la generación de textos, la finalización de oraciones, la desambiguación del sentido de las palabras, la síntesis o la respuesta a preguntas. Flan T5 XL es un modelo de lenguaje grande de 3000 millones de parámetros que se ha entrenado en numerosos idiomas. Encontrará la lista de idiomas compatibles con Flan T5 L en los detalles del modelo obtenidos al buscar por ID de modelo en la tabla de modelos de JumpStart.

huggingface-text2text-flan-t5-xxll FlanT5XXL

La familia de modelos Flan-T5 es un conjunto de modelos de lenguaje grandes que se afinan sobre múltiples tareas y pueden seguir entrenándose. Estos modelos son aptos para tareas como la traducción de idiomas, la generación de textos, la finalización de oraciones, la desambiguación del sentido de las palabras, la síntesis o la respuesta a preguntas. Flan T5 XXL es un modelo de 11 000 millones de parámetros. Encontrará la lista de idiomas compatibles con Flan T5 XXL en los detalles del modelo obtenidos al buscar por ID de modelo en la tabla de modelos de JumpStart.

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 es una colección de modelos de texto generativo preentrenados y afinados, con una escala que oscila entre 7000 y 70 000 millones de parámetros. Llama2-7B es el modelo de 7000 millones de parámetros diseñado para su uso en inglés y que se puede adaptar a una variedad de tareas de generación de lenguaje natural.

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 es una colección de modelos de texto generativo preentrenados y afinados, con una escala que oscila entre 7000 y 70 000 millones de parámetros. Llama2-7B es el modelo de chat de 7000 millones de parámetros que está optimizado para casos de uso de diálogo.

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 es una colección de modelos de texto generativo preentrenados y afinados, con una escala que oscila entre 7000 y 70 000 millones de parámetros. Llama2-13B es el modelo de 13 000 millones de parámetros diseñado para su uso en inglés y que se puede adaptar a una variedad de tareas de generación de lenguaje natural.

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 es una colección de modelos de texto generativo preentrenados y afinados, con una escala que oscila entre 7000 y 70 000 millones de parámetros. Llama2-13B es el modelo de chat de 13 000 millones de parámetros que está optimizado para casos de uso de diálogo.

huggingface-llm-mistral-7b Mistral7B

Mistral 7B es un código de 7000 millones de parámetros y un modelo de generación de texto en inglés de uso general. Se puede usar en una variedad de casos de uso, incluidos resumen de texto, clasificación, finalización de texto o finalización de código.

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct es la versión afinada de Mistral 7B para casos de uso conversacionales. Se especializó utilizando una variedad de conjuntos de datos de conversaciones disponibles públicamente en inglés.

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPT 7B es un modelo de lenguaje grande transformador de estilo decodificador, con 6700 millones de parámetros, preentrenado desde cero con 1 billón de tokens de texto y código en inglés. Está preparado para gestionar contextos de gran longitud.

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT 7B Instruct es un modelo para tareas de seguimiento de instrucciones abreviadas. Se creó afinando MPT 7B a partir de un conjunto de datos derivado de databricks-dolly-15k y de los conjuntos de datos Anthropic Helpful and Harmless (HH-RLHF).