Algoritmo Asignación latente de Dirichlet (LDA)

Modo de enfoque

Algoritmo Asignación latente de Dirichlet (LDA) - Amazon SageMaker AI

Elección entre Latent Dirichlet Allocation (LDA) y Neural Topic Model (NTM)Interfaz de entrada/salida para el algoritmo LDA EC2 Recomendación de instancias para el algoritmo LDA Cuadernos de ejemplo

El algoritmo de asignación latente de Dirichlet (LDA) de Amazon SageMaker AI es un algoritmo de aprendizaje no supervisado que intenta describir un conjunto de observaciones como una mezcla de categorías distintas. LDA se utiliza normalmente para detectar un número especificado por el usuario de temas compartidos por los documentos dentro de un cuerpo de textos. Aquí, cada observación es un documento, las características son la presencia (o recuento de apariciones) de cada palabra y las categorías son los temas. Puesto que el método no se supervisa, los temas no se especifican inicialmente y no se garantiza que se sigan los procedimientos de categorización naturales de los documentos. Los temas se aprenden como una distribución de probabilidad a través de las palabras que se generan en cada documento. Cada documento, a su vez, se describe como una combinación de temas.

El contenido exacto de dos documentos con combinaciones de temas similares no será el mismo. Sin embargo, en general, se puede esperar que estos documentos usen con más frecuencia un subconjunto compartido de palabras que cuando se compara con un documento de una combinación de temas diferentes. Esto permite a LDA detectar estos grupos de palabras y utilizaros para formar temas. A continuación mostramos un ejemplo muy sencillo, a partir de un conjunto de documentos en los que las únicas palabras que aparecen en ellos son: comer, dormir, jugar, maullar y ladrar, LDA produciría temas como estos:

Tema	comer	dormir	jugar	maullar	ladrar
Tema 1	0.1	0.3	0.2	0.4	0.0
Tema 2	0.2	0.1	0.4	0.0	0.3

Puede deducir que los documentos que tienen una mayor probabilidad de formar parte del Tema 1 tienen que ver con los gatos (que es más probable que maúllen y duerman) y es más probable que los documentos que formen parte del tema 2 tengan que ver con los perros (que prefieren jugar y ladrar). Puede encontrar estos temas a pesar de que las palabras "perro" y "gato" no aparezcan nunca en ninguno de los textos.

Temas

Elección entre Latent Dirichlet Allocation (LDA) y Neural Topic Model (NTM)
Interfaz de entrada/salida para el algoritmo LDA
EC2 Recomendación de instancias para el algoritmo LDA
Cuadernos de muestra de LDA
Funcionamiento de LDA
Hiperparámetros de LDA
Ajustar un modelo LDA

Elección entre Latent Dirichlet Allocation (LDA) y Neural Topic Model (NTM)

Los modelos temáticos se utilizan comúnmente para producir temas a partir de corpus que (1) encapsulan de manera uniforme el significado semántico y (2) describen bien los documentos. Por lo tanto, los modelos de temas tienen como objetivo minimizar la perplejidad y maximizar la uniformidad de los temas.

La perplejidad es una métrica intrínseca de evaluación del modelado del lenguaje que mide la inversa de la probabilidad media geométrica por palabra en los datos de la prueba. Una puntuación de perplejidad más baja indica un mejor rendimiento de generalización. Las investigaciones han demostrado que la probabilidad calculada por palabra a menudo no se ajusta al juicio humano, y puede no estar correlacionada en absoluto, por lo que se ha introducido la uniformidad temática. Cada tema deducido del modelo consta de palabras, y la uniformidad entre los temas se calcula con las N palabras principales del modelo para ese tema concreto. Suele definirse como el promedio o la mediana de las puntuaciones de similitud de palabras por pares de las palabras de ese tema; por ejemplo, información mutua puntual (PMI). Un modelo prometedor genera temas uniformes o temas con puntuaciones altas de uniformidad temática.

Si bien el objetivo es formar un modelo temático que minimice la perplejidad y maximice la uniformidad temática, a menudo existe un equilibrio entre el LDA y el NTM. Una investigación reciente de Amazon (Dinget y otros, 2018) ha demostrado que el NTM puede lograr una alta uniformidad temática, pero el LDA, entrenado con un muestreo fragmentado de Gibbs, logra una mayor perplejidad. Existe un equilibrio entre la perplejidad y la uniformidad de los temas. Desde un punto de vista práctico en cuanto al hardware y la potencia de cómputo, el hardware de SageMaker NTM es más flexible que el LDA y se puede escalar mejor, ya que NTM puede ejecutarse en la CPU y la GPU y se puede paralelizar en varias instancias de GPU, mientras que el LDA solo admite el entrenamiento de CPU en una sola instancia.

Temas

Interfaz de entrada/salida para el algoritmo LDA
EC2 Recomendación de instancias para el algoritmo LDA
Cuadernos de muestra de LDA
Funcionamiento de LDA
Hiperparámetros de LDA
Ajustar un modelo LDA

Interfaz de entrada/salida para el algoritmo LDA

LDA espera que se proporcionen datos sobre el canal de capacitación y admite de forma opcional un canal de prueba, que se puntúa mediante el modelo final. LDA es compatible con los formatos de archivo recordIO-wrapped-protobuf (denso y disperso) y CSV. Para CSV, los datos deben ser densos y tener la dimensión igual a número de registros * tamaño del vocabulario. Es posible capacitar la LDA en File o Pipe al utilizar recordIO-wrapped protobuf, pero solo en modo de archivo para el formato CSV.

Para la inferencia, se admiten los tipos de contenido text/csv, application/json y application/x-recordio-protobuf. Es posible pasar los datos dispersos para application/json y application/x-recordio-protobuf. La inferencia de LDA devuelve predicciones application/json o application/x-recordio-protobuf , que incluyen el vector topic_mixture para cada observación.

Para obtener más información sobre los formatos de capacitación e inferencia, consulte los Cuadernos de muestra de LDA.

EC2 Recomendación de instancias para el algoritmo LDA

Actualmente, LDA solo es compatible con la capacitación de CPU de una instancia. Se recomiendan las instancias de CPU para el alojamiento o la inferencia.

Cuadernos de muestra de LDA

Para ver un ejemplo de cuaderno que muestra cómo entrenar el algoritmo de asignación de Dirichlet latente de SageMaker IA en un conjunto de datos y, luego, cómo implementar el modelo entrenado para realizar inferencias sobre las combinaciones de temas en los documentos de entrada, consulte la LDA de Introducción a la IA. SageMaker Para obtener instrucciones sobre cómo crear instancias de Jupyter Notebook y acceder a ellas, que puede utilizar para ejecutar el ejemplo en IA, consulte. SageMaker Instancias de Amazon SageMaker Notebook Una vez que haya creado una instancia de bloc de notas y la haya abierto, seleccione la pestaña Ejemplos de SageMaker IA para ver una lista de todos los ejemplos de SageMaker IA. Los blocs de notas de modelado de ejemplos que utilizan los algoritmos NTM se encuentran en la sección de introducción a algoritmos de Amazon. Para abrir un cuaderno, haga clic en la pestaña Usar y seleccione Crear copia.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Ajuste de modelo

Cómo funciona

Tema siguiente:

Cómo funciona

Tema anterior:

Ajuste de modelo

¿Necesita ayuda?

En esta página

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Algoritmo Asignación latente de Dirichlet (LDA)

Temas

Elección entre Latent Dirichlet Allocation (LDA) y Neural Topic Model (NTM)

Temas

Interfaz de entrada/salida para el algoritmo LDA

EC2 Recomendación de instancias para el algoritmo LDA

Cuadernos de muestra de LDA

Tema siguiente:

Tema anterior:

¿Necesita ayuda?

En esta página

Related resources

¿Le ha servido de ayuda esta página?

Related resources