Algorithmus für neuronale Themenmodellierung (NTM)

Fokusmodus

Algorithmus für neuronale Themenmodellierung (NTM) - Amazon SageMaker KI

E/A-Schnittstelle für den NTM-Algorithmus EC2 Instanzempfehlung für den NTM-Algorithmus Beispiel-Notebooks

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon SageMaker AI NTM ist ein Algorithmus für unbeaufsichtigtes Lernen, der verwendet wird, um einen Korpus von Dokumenten in Themen zu organisieren, die Wortgruppierungen auf der Grundlage ihrer statistischen Verteilung enthalten. Dokumente mit häufigen Vorkommen von Wörtern wie "Fahrrad", "Auto", "Zug", "Laufleistung" und "Geschwindigkeit" haben wahrscheinlich das gemeinsame Thema "Transport". Die Themenmodellierung kann verwendet werden, um Dokumente basierend auf den erkannten Themen zu klassifizieren oder zusammenzufassen oder um Informationen abzurufen oder Inhalte basierend auf Themengemeinsamkeiten zu empfehlen. Die Themen aus Dokumenten, die NTM lernt, werden als latente Darstellung bezeichnet, da die Themen aus den beobachteten Wortverteilungen im Datensatz abgeleitet werden. Die Semantik der Themen wird in der Regel abgeleitet, indem die enthaltenen Wörter mit dem höchsten Rang untersucht werden. Da die Methode unüberwacht ist, wird nur die Anzahl der Themen, jedoch nicht die Themen selbst vorab definiert. Darüber hinaus kann nicht garantiert werden, dass die Kategorisierung der Themen so aussieht, wie sie ein Mensch vornehmen würde.

Themenmodellierung bietet eine Möglichkeit zur Visualisierung der Inhalte eines großen Dokumentkorpus im Hinblick auf die gelernten Themen. Für das Thema relevante Dokumente können indiziert werden oder man kann auf der Basis weicher Themenkennzeichnungen nach ihnen suchen. Die latenten Darstellungen der Dokumente können auch verwendet werden, um ähnliche Dokumente im Themenraum zu finden. Sie können die latenten Darstellungen von Dokumenten, die das Themenmodell lernt, auch als Eingabe für einen anderen überwachten Algorithmus verwenden, wie z. B. einen Dokumenten-Classifier. Da latente Darstellungen von Dokumenten die Semantik der zugrunde liegenden Dokumente erfassen sollen, ist davon auszugehen, dass Algorithmen, die teilweise auf diesen Darstellungen basieren, bessere Ergebnisse liefern als Algorithmen, denen nur lexikalische Merkmale zugrunde liegen.

Sie können zwar sowohl den Amazon SageMaker AI NTM- als auch den LDA-Algorithmus für die Themenmodellierung verwenden, es handelt sich jedoch um unterschiedliche Algorithmen, von denen erwartet werden kann, dass sie mit denselben Eingabedaten unterschiedliche Ergebnisse liefern.

Weitere Informationen zu den mathematischen Hintergründen von NTM finden Sie unter Neural Variational Inference for Text Processing.

Themen

E/A-Schnittstelle für den NTM-Algorithmus
EC2 Instanzempfehlung für den NTM-Algorithmus
NTM-Beispiel-Notebooks
NTM-Hyperparameter
Optimieren eines NTM-Modells
NTM-Antwortformate

E/A-Schnittstelle für den NTM-Algorithmus

Das Amazon SageMaker AI Neural Topic Model unterstützt vier Datenkanäle: Train, Validation, Test und Auxiliary. Die Validierungs-, Test- und Zusatzdatenkanäle sind optional. Wenn Sie einen der folgenden optionalen Kanäle angeben, legen Sie den Wert des S3DataDistributionType-Parameters für sie auf FullyReplicated fest. Wenn Sie die Validierungsdaten bereitstellen, wird der Datenverlust für jede Epoche protokolliert und das Modell stoppt das Training, sobald es erkennt, dass der Validierungsverlust sich nicht verbessert. Wenn Sie keine Validierungsdaten bereitstellen, stoppt der Algorithmus früh auf Basis der Trainingsdaten, dies kann jedoch weniger effizient sein. Wenn Sie die Testdaten bereitstellen, erfasst der Algorithmus den Testverlust des letzten Modells.

Die Trainings-, Validierungs- und Testdatenkanäle für NTM unterstützen sowohl recordIO-wrapped-protobuf (mit hoher und niedriger Dichte) als auch CSV als Dateiformate. Wird das CSV-Format verwendet, muss jede Zeile dicht mit Nullzählern für Wörter dargestellt werden, die im entsprechenden Dokument nicht vorhanden sind und folgende Dimension haben: (Anzahl Datensätze) * (Vokabulargröße). Sie können entweder den Datei- oder den Pipe-Modus verwenden, um Modelle mit Daten, die als recordIO-wrapped-protobuf oder CSV formatiert sind, zu trainieren. Der Zusatzkanal wird verwendet, um eine Textdatei mit Vokabular bereitzustellen. Durch die Bereitstellung der Vokabeldatei können Benutzer anstelle der Ganzzahl die wichtigsten Wörter für jedes der Themen im Protokoll sehen IDs. Wenn die Vokabulardatei vorliegt, kann NTM außerdem die Word Embedding Topic Coherence (WETC)-Bewertungen berechnen. Diese neue Metrik wird im Protokoll zur effektiven Erfassung von Ähnlichkeiten zwischen den wichtigsten Wörtern in jedem Thema angezeigt. Der ContentType Hilfskanal ist so angeordnettext/plain, dass jede Zeile ein einzelnes Wort enthält, und zwar in der Reihenfolge, die der in den Daten IDs angegebenen Ganzzahl entspricht. Die Vokabulardatei muss den Namen vocab.txt tragen. Derzeit wird nur UTF-8-Codierung unterstützt.

Für die Inferenz werden die Inhaltstypen text/csv, application/json, application/jsonlines und application/x-recordio-protobuf unterstützt. Daten mit geringer Dichte können auch für application/json und application/x-recordio-protobuf übergeben werden. Die NTM-Inferenz gibt – application/jsonoder application/x-recordio-protobuf-Prognosen zurück, in denen der topic_weights-Vektor für jede einzelne Beobachtung enthalten ist.

Weitere Informationen zur Verwendung des Zusatzkanal und der WETC-Bewertungen finden Sie in unserem Blog-Beitrag und im begleitenden Notebook. Weitere Informationen zum Berechnen der WETC-Bewertung finden Sie unter Coherence-Aware Neural Topic Modeling. Wir haben das in diesem paper beschriebene paarweise WETC für das Amazon SageMaker AI Neural Topic Model verwendet.

Weitere Informationen über die Eingabe- und Ausgabedateiformate finden Sie unter NTM-Antwortformate für Inferenz und unter NTM-Beispiel-Notebooks.

EC2 Instanzempfehlung für den NTM-Algorithmus

NTM-Trainings unterstützen sowohl GPU- und CPU-Instance-Typen. Wir empfehlen GPU-Instances, aber bei bestimmten Arbeitslasten können CPU-Instances die Trainingskosten senken. CPU-Instances sollten für Inferenz ausreichend sein. NTM-Training unterstützt die GPU-Instancefamilien P2, P3, G4dn und G5 für Training und Inferenz.

NTM-Beispiel-Notebooks

Ein Beispielnotizbuch, das den SageMaker AI NTM-Algorithmus verwendet, um Themen in Dokumenten aus einer synthetischen Datenquelle aufzudecken, deren Themenverteilungen bekannt sind, finden Sie in der Einführung in die grundlegenden Funktionen von NTM. Anweisungen zum Erstellen und Zugreifen auf Jupyter-Notebook-Instanzen, mit denen Sie das Beispiel in KI ausführen können, finden Sie unter. SageMaker Amazon SageMaker Notebook-Instances Nachdem Sie eine Notebook-Instanz erstellt und geöffnet haben, wählen Sie den Tab SageMaker KI-Beispiele aus, um eine Liste aller KI-Beispiele zu sehen. SageMaker Die Beispiel-Notebooks zur Themenmodellierung unter Verwendung der NTM-Algorithmen finden Sie im Abschnitt Einführung in die Amazon-Algorithmen. Zum Öffnen eines Notebooks klicken Sie auf die Registerkarte Use (Verwenden) und wählen Sie Create copy (Kopie erstellen) aus.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Modell-Abstimmung

Hyperparameter

Nächstes Thema:

Hyperparameter

Vorheriges Thema:

Modell-Abstimmung

Brauchen Sie Hilfe?

Auf dieser Seite

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden