Algorithmus für neuronales Themenmodell (NTM) - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Algorithmus für neuronales Themenmodell (NTM)

Amazon SageMaker NTM ist ein Algorithmus für unbeaufsichtigtes Lernen, der verwendet wird, um einen Korpus von Dokumenten in Themen zu organisieren, die Wortgruppierungen auf der Grundlage ihrer statistischen Verteilung enthalten. Dokumente mit häufigen Vorkommen von Wörtern wie "Fahrrad", "Auto", "Zug", "Laufleistung" und "Geschwindigkeit" haben wahrscheinlich das gemeinsame Thema "Transport". Die Themenmodellierung kann verwendet werden, um Dokumente basierend auf den erkannten Themen zu klassifizieren oder zusammenzufassen oder um Informationen abzurufen oder Inhalte basierend auf Themengemeinsamkeiten zu empfehlen. Die Themen aus Dokumenten, die NTM lernen, werden als latente Repräsentation bezeichnet, da die Themen aus den beobachteten Wortverteilungen im Korpus abgeleitet werden. Die Semantik der Themen wird in der Regel abgeleitet, indem die enthaltenen Wörter mit dem höchsten Rang untersucht werden. Da die Methode unüberwacht ist, wird nur die Anzahl der Themen, jedoch nicht die Themen selbst vorab definiert. Darüber hinaus kann nicht garantiert werden, dass die Kategorisierung der Themen so aussieht, wie sie ein Mensch vornehmen würde.

Themenmodellierung bietet eine Möglichkeit zur Visualisierung der Inhalte eines großen Dokumentkorpus im Hinblick auf die gelernten Themen. Für das Thema relevante Dokumente können indiziert werden oder man kann auf der Basis weicher Themenkennzeichnungen nach ihnen suchen. Die latenten Darstellungen der Dokumente können auch verwendet werden, um ähnliche Dokumente im Themenraum zu finden. Sie können die latenten Darstellungen von Dokumenten, die das Themenmodell lernt, auch als Eingabe für einen anderen überwachten Algorithmus verwenden, wie z. B. einen Dokumenten-Classifier. Da latente Darstellungen von Dokumenten die Semantik der zugrunde liegenden Dokumente erfassen sollen, ist davon auszugehen, dass Algorithmen, die teilweise auf diesen Darstellungen basieren, bessere Ergebnisse liefern als Algorithmen, denen nur lexikalische Merkmale zugrunde liegen.

Sie können zwar SageMaker NTM sowohl Amazon als auch LDA Algorithmen für die Themenmodellierung verwenden, es handelt sich jedoch um unterschiedliche Algorithmen, von denen erwartet werden kann, dass sie mit denselben Eingabedaten unterschiedliche Ergebnisse liefern.

Weitere Informationen zur Mathematik, die dahinter stecktNTM, finden Sie unter Neuronale Variationsinferenz für die Textverarbeitung.

Eingabe-/Ausgabeschnittstelle für den Algorithmus NTM

Amazon SageMaker Neural Topic Model unterstützt vier Datenkanäle: Train, Validation, Test und Auxiliary. Die Validierungs-, Test- und Zusatzdatenkanäle sind optional. Wenn Sie einen der folgenden optionalen Kanäle angeben, legen Sie den Wert des S3DataDistributionType-Parameters für sie auf FullyReplicated fest. Wenn Sie die Validierungsdaten bereitstellen, wird der Datenverlust für jede Epoche protokolliert und das Modell stoppt das Training, sobald es erkennt, dass der Validierungsverlust sich nicht verbessert. Wenn Sie keine Validierungsdaten bereitstellen, stoppt der Algorithmus früh auf Basis der Trainingsdaten, dies kann jedoch weniger effizient sein. Wenn Sie die Testdaten bereitstellen, erfasst der Algorithmus den Testverlust des letzten Modells.

Die Datenkanäle trainieren, validieren und testen, sodass sie sowohl recordIO-wrapped-protobuf (dichte als auch spärliche) als auch CSV Dateiformate NTM unterstützen. Wird das CSV-Format verwendet, muss jede Zeile dicht mit Nullzählern für Wörter dargestellt werden, die im entsprechenden Dokument nicht vorhanden sind und folgende Dimension haben: (Anzahl Datensätze) * (Vokabulargröße). Sie können entweder den Datei- oder den Pipe-Modus verwenden, um Modelle mit Daten, die als recordIO-wrapped-protobuf oder CSV formatiert sind, zu trainieren. Der Zusatzkanal wird verwendet, um eine Textdatei mit Vokabular bereitzustellen. Durch die Bereitstellung der Vokabeldatei können Benutzer anstelle der IDs Ganzzahl die wichtigsten Wörter für jedes der Themen im Protokoll sehen. Mit Hilfe der Vokabeldatei können auch die Werte für Word Embedding Topic Coherence (WETC) berechnet werden. Dabei handelt es sich NTM um eine neue Metrik, die im Protokoll angezeigt wird und die Ähnlichkeit der wichtigsten Wörter in jedem Thema effektiv erfasst. ContentTypeFür den Hilfskanal gilttext/plain, dass jede Zeile ein einzelnes Wort enthält, und zwar in der Reihenfolge, die der in den Daten IDs angegebenen Ganzzahl entspricht. Die Vokabeldatei muss benannt werden vocab.txt und derzeit wird nur die UTF -8-Kodierung unterstützt.

Für die Inferenz werden die Inhaltstypen text/csv, application/json, application/jsonlines und application/x-recordio-protobuf unterstützt. Daten mit geringer Dichte können auch für application/json und application/x-recordio-protobuf übergeben werden. NTMRückschlüsse application/json oder application/x-recordio-protobuf Vorhersagen, die den topic_weights Vektor für jede Beobachtung enthalten.

Weitere Informationen zur Verwendung des Hilfskanals und zu den WETC Ergebnissen finden Sie im Blogbeitrag und im zugehörigen Notizbuch. Weitere Informationen zur Berechnung der WETC Punktzahl finden Sie unter Kohärenzbewusstes Modellieren neuronaler Themen. Wir haben das in diesem paper WETC beschriebene paarweise für das Amazon SageMaker Neural Topic Model verwendet.

Weitere Informationen über die Eingabe- und Ausgabedateiformate finden Sie unter NTMAntwortformate für Inferenz und unter NTM-Beispiel-Notebooks.

EC2Instanzempfehlung für den Algorithmus NTM

NTMTraining unterstützt GPU sowohl CPU Instanztypen als auch Instanztypen. Wir empfehlen GPU Instances, aber bei bestimmten Workloads können CPU Instances zu niedrigeren Schulungskosten führen. CPUInstanzen sollten für Rückschlüsse ausreichend sein. NTMTraining unterstützt die GPU Instanzfamilien P2, P3, G4dn und G5 für Training und Inferenz.

NTM-Beispiel-Notebooks

Ein Beispielnotizbuch, das den SageMaker NTM Algorithmus verwendet, um Themen in Dokumenten aus einer synthetischen Datenquelle aufzudecken, deren Themenverteilungen bekannt sind, finden Sie in der Einführung in die Grundfunktionen von. NTM Anweisungen zum Erstellen und Zugreifen auf Jupyter-Notebook-Instanzen, in denen Sie das Beispiel ausführen können, finden Sie unter. SageMaker Amazon SageMaker Notebook-Instances Nachdem Sie eine Notebook-Instanz erstellt und geöffnet haben, wählen Sie die Registerkarte SageMaker Beispiele, um eine Liste aller Beispiele anzuzeigen. SageMaker Das Thema Beispiel-Notebooks zur Modellierung mithilfe der NTM Algorithmen finden Sie im Abschnitt Einführung in Amazon-Algorithmen. Zum Öffnen eines Notebooks klicken Sie auf die Registerkarte Use (Verwenden) und wählen Sie Create copy (Kopie erstellen) aus.