Autopilot-Datensätze und Aufgabentypen - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Autopilot-Datensätze und Aufgabentypen

Für tabellarische Daten (d. h. Daten, bei denen jede Spalte ein Feature mit einem bestimmten Datentyp und jede Zeile eine Beobachtung enthält) bietet Ihnen Autopilot die Möglichkeit, den Aufgabentyp für überwachtes Lernen anzugeben, der für die Modellkandidaten des AutoML-Jobs zur Verfügung steht, z. B. binäre Klassifikation oder Regression, oder ihn anhand der von Ihnen bereitgestellten Daten für Sie zu erkennen. Autopilot unterstützt auch mehrere Datenformate und Datentypen.

Autopilot-Datensätze, Datentypen und Formate

Autopilot unterstützt tabellarische Daten, die als CSV Dateien oder als Parquet-Dateien formatiert sind: Jede Spalte enthält ein Feature mit einem bestimmten Datentyp und jede Zeile enthält eine Beobachtung. Die Eigenschaften dieser beiden Dateiformate unterscheiden sich erheblich.

  • CSV(comma-separated-values) ist ein zeilenbasiertes Dateiformat, das Daten in für Menschen lesbarem Klartext speichert. Dies ist eine beliebte Wahl für den Datenaustausch, da sie von einer Vielzahl von Anwendungen unterstützt werden.

  • Parquet ist ein Dateiformat auf Spaltenbasis, bei dem die Daten effizienter gespeichert und verarbeitet werden als bei einem Dateiformat auf Zeilenbasis. Dies macht sie zu einer besseren Option für Big-Data-Aufgaben.

Für Spalten akzeptierte Datentypen sind u.a. numerische, kategorische, Text- und Zeitreihen, die aus Ketten von kommagetrennten Zahlen bestehen. Wenn Autopilot erkennt, dass es sich um Zeitreihen-Sequenzen handelt, verarbeitet er diese mithilfe spezieller Feature-Wandler, die von der tsfresh-Bibliothek bereitgestellt werden. Diese Bibliothek verwendet die Zeitreihen als Eingabe und gibt ein Feature aus, z. B. den höchsten absoluten Wert der Zeitreihe oder deskriptive Statistiken zur Autokorrelation. Die so ausgegebenen Features dienen dann als Eingaben für einen der drei Aufgabentypen.

Autopilot unterstützt die Erstellung von Modellen für maschinelles Lernen auf großen Datensätzen von bis zu Hunderten von. GBs Einzelheiten zu den standardmäßigen Ressourcenbeschränkungen für Eingabedatensätze und wie diese erhöht werden können finden Sie unter Autopilot-Kontingente.

Aufgabentypen für Autopilot

Für die tabellarischen Daten geben Sie die für die Modellkandidaten beim überwachten Lernen verfügbaren Aufgabentypen wie folgt näher an:

Regression

Regression schätzt die Werte einer abhängigen Zielvariablen basierend auf einer oder mehreren anderen Variablen oder Attributen, die mit ihr korreliert sind. Ein Beispiel ist die Vorhersage der Hauspreise mit Features wie Anzahl der Badezimmer und Schlafzimmer, Quadratmeterzahl des Hauses und des Gartens. Die Regressionsanalyse kann ein Modell erstellen, das eines oder mehrere dieser Funktionen als Eingabe verwendet und den Preis eines Hauses prognostiziert.

Binäre Klassifikation

Binäre Klassifikation ist eine Art von überwachtem Lernen, die eine Person basierend auf ihren Attributen einer von zwei vordefinierten und sich gegenseitig ausschließenden Klassen zuweist. Dies wird überwacht, weil die Modelle anhand von Beispielen trainiert werden, bei denen die Attribute mit korrekt bezeichneten Objekten bereitgestellt werden. Eine medizinische Diagnose, ob eine Person eine Krankheit hat oder nicht, basierend auf den Ergebnissen von diagnostischen Tests, ist ein Beispiel für binäre Klassifikation.

Mehrklassen-Klassifizierung

Mehrklassen-Klassifizierung ist eine Art von überwachtem Lernen, das eine Person basierend auf ihren Attributen einer von mehreren Klassen zuweist. Es wird überwacht, da die Modelle anhand von Beispielen trainiert werden, bei denen die Attribute mit korrekt bezeichneten Objekten bereitgestellt werden. Ein Beispiel ist die Voraussage des Themas, das für ein Textdokument am relevantesten ist. Der Themenbereich eines Dokuments kann als Religion oder Politik oder Finanzen eingestuft werden, als eine von mehreren anderen vordefinierten Themenklassen.