Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Integrierte SageMaker Algorithmen für Textdaten
SageMaker bietet Algorithmen, die auf die Analyse von Textdokumenten zugeschnitten sind, die bei der Verarbeitung natürlicher Sprache, der Klassifizierung oder Zusammenfassung von Dokumenten, der Themenmodellierung oder -klassifizierung sowie der Sprachtranskription oder -übersetzung verwendet werden.
-
BlazingText Algorithmus – Eine hochoptimierte Implementierung von Word2VEC und Textklassifizierungsalgorithmen, die sich problemlos auf große Datensätze skalieren lässt. Es ist nützlich für viele nachgelagerte Aufgaben der Verarbeitung natürlicher Sprache (NLP).
-
Latent Dirichlet Allocation (LDA)-Algorithmus—dieser Algorithmus eignet sich für die Bestimmung von Themen in einer Reihe von Dokumenten. Er ist ein unüberwachter Algorithmus, was bedeutet, dass während der Schulung keine Beispieldaten mit Antworten verwendet werden.
-
Algorithmus für neuronales Themenmodell (NTM)—eine weitere unüberwachte Methode zur Bestimmung von Themen in einer Reihe von Dokumente mithilfe eines neuronalen Netzwerkansatzes.
-
Object2Vec-Algorithmus—ein Allzweck-Algorithmus zur neuronalen Einbettung, der für Empfehlungssysteme, Dokumentenklassifizierung und Satzeinbettung verwendet werden kann.
-
Sequence-to-Sequence Algorithmus—dieser überwachte Algorithmus wird allgemein für neuronale Machine Übersetzung verwendet.
-
Textklassifizierung - TensorFlow—ein überwachter Algorithmus, der Transfer-Learning mit verfügbaren vortrainierten Modellen für die Textklassifizierung unterstützt.
Name des Algorithmus | Kanalname | Schulungseingangsmodus | Dateityp | Instance-Klasse | Parallelisierbar |
---|---|---|---|---|---|
BlazingText | "train" | Datei oder Pipe | Textdatei (ein Satz pro Zeile mit durch Leerzeichen getrennten Token) | GPU (nur einzelne Instance) oder CPU | Nein |
LDA | "train" und (optional) "test" | Datei oder Pipe | recordIO-protobuf oder CSV | CPU (nur einzelne Instance) | Nein |
Neural Topic Modeling | "train" und (optional) "validation", "test" oder beides | Datei oder Pipe | recordIO-protobuf oder CSV | GPU oder CPU | Ja |
Object2Vec | "train" und (optional) "validation", "test" oder beides | Datei | JSON-Zeilen | GPU oder CPU (nur einzelne Instance) | Nein |
Seq2Seq Modeling | "train", "validation" und "vocab" | Datei | recordIO-protobuf | GPU (nur einzelne Instance) | Nein |
Textklassifizierung – TensorFlow | Training und Validierung | Datei | CSV | CPU oder GPU | Ja (nur für mehrere GPUs auf einer einzigen Instance) |