Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Autopilot-Datensätze und Aufgabentypen
Für tabellarische Daten (d. h. Daten, bei denen jede Spalte ein Feature mit einem bestimmten Datentyp und jede Zeile eine Beobachtung enthält) bietet Ihnen Autopilot die Möglichkeit, den Aufgabentyp für überwachtes Lernen anzugeben, der für die Modellkandidaten des AutoML-Jobs zur Verfügung steht, z. B. binäre Klassifikation oder Regression, oder ihn anhand der von Ihnen bereitgestellten Daten für Sie zu erkennen. Autopilot unterstützt auch mehrere Datenformate und Datentypen.
Autopilot-Datensätze, Datentypen und Formate
Autopilot unterstützt tabellarische Daten, die als CSV Dateien oder als Parquet-Dateien formatiert sind: Jede Spalte enthält ein Feature mit einem bestimmten Datentyp und jede Zeile enthält eine Beobachtung. Die Eigenschaften dieser beiden Dateiformate unterscheiden sich erheblich.
-
CSV(comma-separated-values) ist ein zeilenbasiertes Dateiformat, das Daten in für Menschen lesbarem Klartext speichert. Dies ist eine beliebte Wahl für den Datenaustausch, da sie von einer Vielzahl von Anwendungen unterstützt werden.
-
Parquet ist ein Dateiformat auf Spaltenbasis, bei dem die Daten effizienter gespeichert und verarbeitet werden als bei einem Dateiformat auf Zeilenbasis. Dies macht sie zu einer besseren Option für Big-Data-Aufgaben.
Für Spalten akzeptierte Datentypen sind u.a. numerische, kategorische, Text- und Zeitreihen, die aus Ketten von kommagetrennten Zahlen bestehen. Wenn Autopilot erkennt, dass es sich um Zeitreihen-Sequenzen handelt, verarbeitet er diese mithilfe spezieller Feature-Wandler, die von der tsfresh
Autopilot unterstützt die Erstellung von Modellen für maschinelles Lernen auf großen Datensätzen von bis zu Hunderten von. GBs Einzelheiten zu den standardmäßigen Ressourcenbeschränkungen für Eingabedatensätze und wie diese erhöht werden können finden Sie unter Autopilot-Kontingente.
Aufgabentypen für Autopilot
Für die tabellarischen Daten geben Sie die für die Modellkandidaten beim überwachten Lernen verfügbaren Aufgabentypen wie folgt näher an:
Regression
Regression schätzt die Werte einer abhängigen Zielvariablen basierend auf einer oder mehreren anderen Variablen oder Attributen, die mit ihr korreliert sind. Ein Beispiel ist die Vorhersage der Hauspreise mit Features wie Anzahl der Badezimmer und Schlafzimmer, Quadratmeterzahl des Hauses und des Gartens. Die Regressionsanalyse kann ein Modell erstellen, das eines oder mehrere dieser Funktionen als Eingabe verwendet und den Preis eines Hauses prognostiziert.
Binäre Klassifikation
Binäre Klassifikation ist eine Art von überwachtem Lernen, die eine Person basierend auf ihren Attributen einer von zwei vordefinierten und sich gegenseitig ausschließenden Klassen zuweist. Dies wird überwacht, weil die Modelle anhand von Beispielen trainiert werden, bei denen die Attribute mit korrekt bezeichneten Objekten bereitgestellt werden. Eine medizinische Diagnose, ob eine Person eine Krankheit hat oder nicht, basierend auf den Ergebnissen von diagnostischen Tests, ist ein Beispiel für binäre Klassifikation.
Mehrklassen-Klassifizierung
Mehrklassen-Klassifizierung ist eine Art von überwachtem Lernen, das eine Person basierend auf ihren Attributen einer von mehreren Klassen zuweist. Es wird überwacht, da die Modelle anhand von Beispielen trainiert werden, bei denen die Attribute mit korrekt bezeichneten Objekten bereitgestellt werden. Ein Beispiel ist die Voraussage des Themas, das für ein Textdokument am relevantesten ist. Der Themenbereich eines Dokuments kann als Religion oder Politik oder Finanzen eingestuft werden, als eine von mehreren anderen vordefinierten Themenklassen.