Algoritmo del modelo de tema neuronal (NTM) - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Algoritmo del modelo de tema neuronal (NTM)

Amazon SageMaker NTM es un algoritmo de aprendizaje no supervisado que se utiliza para organizar un corpus de documentos en temas que contienen agrupaciones de palabras en función de su distribución estadística. Los documentos que contienen presencias frecuentes de palabras como "moto", "coche", "tren", "distancia" y "velocidad", es probable que compartan un tema de "transporte", por ejemplo. El modelado de temas se puede utilizar para clasificar o resumir documentos en función de los temas detectados o para recuperar información o contenido recomendado en función de similitudes por tema. Los temas de los documentos que se NTM aprenden se caracterizan por ser una representación latente porque se deducen de las distribuciones de palabras observadas en el corpus. La semántica de los temas se infiere normalmente mediante el examen de las palabras más importantes que contienen. Puesto que el método no es supervisado, se especifican previamente solo los números de temas, no los propios temas. Además, no se garantiza que los temas sigan los procedimientos de categorización naturales de los documentos.

Los modelos de temas proporcionan una forma de visualizar contenido de un gran cuerpo de documentos en términos de temas aprendidos. Los documentos relevantes para cada tema deben indexarse o buscarse en función de las etiquetas de temas blandas. Las representaciones latentes de documentos pueden utilizarse para buscar documentos similares en el espacio del tema. También puede utilizar las representaciones latentes de documentos que aprende el modelo del tema para la entrada en otro algoritmo supervisado como un clasificador de documentos. Puesto que se prevé que las representaciones latentes de documentos capturen la semántica de los documentos subyacentes, se espera que los algoritmos basados en parte en estas representaciones tengan un mejor rendimiento que los basados solo en características léxicas.

Aunque puedes usar tanto Amazon SageMaker NTM como los LDA algoritmos para el modelado de temas, son algoritmos distintos y se puede esperar que produzcan resultados diferentes en los mismos datos de entrada.

Para obtener más información sobre las matemáticas subyacentesNTM, consulte Inferencia variacional neuronal para el procesamiento de textos.

Interfaz de entrada/salida para el algoritmo NTM

El modelo de temas SageMaker neuronales de Amazon admite cuatro canales de datos: tren, validación, prueba y auxiliar. Los canales de datos de validación, prueba y auxiliar son opcionales. Si especifica cualquiera de estos canales opcionales, establezca el valor del S3DataDistributionType parámetro para ellos FullyReplicated. Si proporciona datos de validación, la pérdida en estos datos se registra en cada fecha de inicio y el modelo detiene la capacitación cuando detecta que esa pérdida de validación no mejora. Si no proporciona datos de validación, el algoritmo detiene los datos basados anteriormente en la capacitación, pero esto puede ser menos eficiente. Si proporciona datos de prueba, el algoritmo informa de la pérdida de prueba del modelo final.

Los canales de datos de tren, validación y prueba NTM admiten formatos de CSV archivo y densos recordIO-wrapped-protobuf (densos y dispersos). Para el formato CSV, cada fila debe representarse densamente con recuentos de cero para las palabras no presentes en el documento correspondiente y tener la dimensión igual a: (número de registros) * (tamaño de vocabulario). Puede usar el modo de archivo o el modo de canalización para capacitar modelos con datos con formato recordIO-wrapped-protobuf o CSV. El canal auxiliar se utiliza para suministrar un archivo de texto que contiene vocabulario. Al proporcionar el archivo de vocabulario, los usuarios pueden ver las palabras principales de cada uno de los temas impresos en el registro en lugar de su número enteroIDs. Disponer del archivo de vocabulario también permite NTM calcular las puntuaciones de coherencia de los temas incrustados en palabras (WETC), una nueva métrica que se muestra en el registro y que refleja de forma eficaz las similitudes entre las palabras principales de cada tema. La ContentType correspondiente al canal auxiliar estext/plain, en la que cada línea contiene una sola palabra, en el orden correspondiente al número entero IDs proporcionado en los datos. El archivo de vocabulario debe tener un nombre vocab.txt y, actualmente, solo se admite la codificación UTF -8.

Para la inferencia, se admiten los tipos de contenido text/csv, application/json, application/jsonlines y application/x-recordio-protobuf. Es posible pasar los datos dispersos para application/json y application/x-recordio-protobuf. NTMretornos de inferencia application/json o application/x-recordio-protobuf predicciones, que incluyen el topic_weights vector de cada observación.

Consulte la entrada del blog y el cuaderno complementario para obtener más información sobre el uso del canal auxiliar y las WETC puntuaciones. Para obtener más información sobre cómo calcular la WETC puntuación, consulte Modelado de tópicos neuronales con reconocimiento de coherencia. Usamos lo WETC descrito por pares en este paper para el Amazon SageMaker Neural Topic Model.

Para obtener más información sobre los formatos de archivo de entrada y salida, consulte NTMFormatos de respuesta para inferencia y Blocs de notas de muestra de NTM.

EC2Recomendación de instancia para el algoritmo NTM

NTMEl entrenamiento admite ambos GPU tipos de CPU instancias. Recomendamos GPU las instancias, pero para determinadas cargas de trabajo, las CPU instancias pueden reducir los costes de formación. CPUlas instancias deberían ser suficientes para realizar inferencias. NTMtraining es compatible con las familias de GPU instancias P2, P3, G4dn y G5 para el entrenamiento y la inferencia.

Blocs de notas de muestra de NTM

Para ver un ejemplo de cuaderno en el que se utiliza el SageMaker NTM algoritmo para descubrir temas en documentos a partir de una fuente de datos sintética en la que se conocen las distribuciones de los temas, consulte la Introducción a las funciones básicas de. NTM Para obtener instrucciones sobre cómo crear instancias de Jupyter Notebook y acceder a ellas en SageMaker las que puede ejecutar el ejemplo, consulte. Instancias de Amazon SageMaker Notebook Una vez que haya creado una instancia de bloc de notas y la haya abierto, seleccione la pestaña SageMaker Ejemplos para ver una lista de todos los SageMaker ejemplos. El tema Modelado de cuadernos de ejemplo con los NTM algoritmos se encuentra en la sección Introducción a los algoritmos de Amazon. Para abrir un cuaderno, haga clic en la pestaña Usar y seleccione Crear copia.