Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erstellen Sie einen AutoML-Job für die Textklassifizierung mithilfe der API
Die folgenden Anweisungen zeigen, wie Sie einen Amazon SageMaker Autopilot-Job als Pilotversuch für Problemtypen mit der Textklassifizierung mithilfe von SageMaker AI API Reference erstellen.
Anmerkung
Aufgaben wie Text- und Bildklassifizierung, Zeitreihenprognosen und Feinabstimmung großer Sprachmodelle sind ausschließlich über die Version 2 der AutoML-REST-API verfügbar. Wenn Ihre bevorzugte Sprache Python ist, können Sie direkt auf AWS SDK for Python (Boto3)
Benutzer, die den Komfort einer Benutzeroberfläche bevorzugen, können Amazon SageMaker Canvas verwenden, um auf vortrainierte Modelle und generative KI-Grundmodelle zuzugreifen oder benutzerdefinierte Modelle zu erstellen, die auf bestimmte Text-, Bildklassifizierungs-, Prognoseanforderungen oder generative KI zugeschnitten sind.
Sie können programmgesteuert ein Autopilot-Textklassifizierungsexperiment erstellen, indem Sie die CreateAutoMLJobV2
API-Aktion in einer beliebigen Sprache aufrufen, die von Amazon SageMaker Autopilot oder dem unterstützt wird. AWS CLI
Informationen darüber, wie diese API-Aktion in eine Funktion in der Sprache Ihrer Wahl übersetzt wird, finden Sie im Abschnitt Siehe auch von CreateAutoMLJobV2
und wählen Sie ein SDK aus. Als Beispiel für Python-Benutzer finden Sie die vollständige Anforderungssyntax von create_auto_ml_job_v2
in AWS SDK for Python (Boto3).
Im Folgenden finden Sie eine Sammlung von obligatorischen und optionalen Eingabeanforderungsparametern für die CreateAutoMLJobV2
API-Aktion, die bei der Textklassifizierung verwendet wird.
Erforderliche Parameter
Wenn Sie CreateAutoMLJobV2
aufrufen, um ein Autopilot-Experiment zur Textklassifizierung zu erstellen, müssen Sie die folgenden Werte angeben:
-
In
AutoMLJobName
, um den Namen Ihres Auftrags anzugeben. -
Mindestens eine
AutoMLJobChannel
inAutoMLJobInputDataConfig
um Ihre Datenquelle anzugeben. -
Ein
AutoMLProblemTypeConfig
vom TypTextClassificationJobConfig
. -
Ein
OutputDataConfig
um den Amazon S3-Ausgabepfad zum Speichern der Artefakte Ihres AutoML-Auftrags anzugeben. -
Ein
RoleArn
, zur Angabe der ARN der Rolle, die für den Zugriff auf Ihre Daten verwendet wird.
Alle anderen Parameter sind optional.
Optionale Parameter
Die folgenden Abschnitte enthalten Einzelheiten zu einigen optionalen Parametern, die Sie an Ihren AutoML-Auftrag zur Textklassifizierung übergeben können.
Sie können Ihren eigenen Validierungsdatensatz und ein benutzerdefiniertes Datenteilungsverhältnis angeben oder den Datensatz automatisch von Autopilot teilen lassen.
Jedes AutoMLJobChannel
Objekt (siehe den erforderlichen Parameter Auto MLJob InputDataConfig) hat einenChannelType
, der entweder auf training
oder validation
Werte gesetzt werden kann, die angeben, wie die Daten bei der Erstellung eines Modells für maschinelles Lernen verwendet werden sollen.
Es muss mindestens eine Datenquelle bereitgestellt werden, und es sind maximal zwei Datenquellen zulässig: eine für Trainingsdaten und eine für Validierungsdaten. Wie Sie die Daten in Trainings- und Validierungsdatensätze aufteilen, hängt davon ab, ob Sie über eine oder zwei Datenquellen verfügen.
Wie Sie die Daten in Trainings- und Validierungsdatensätze aufteilen, hängt davon ab, ob Sie über eine oder zwei Datenquellen verfügen.
-
Wenn Sie nur über eine Datenquelle verfügen, wird die
ChannelType
standardmäßig auftraining
eingestellt und muss diesen Wert haben.-
Wenn der Wert
ValidationFraction
inAutoMLDataSplitConfig
nicht festgelegt ist, werden standardmäßig 0,2 (20%) der Daten aus dieser Quelle für die Validierung verwendet. -
Wenn für
ValidationFraction
ein Wert zwischen 0 und 1 festgelegt wird, wird der Datensatz anhand des angegebenen Wertes aufgeteilt. Dabei gibt der Wert den Anteil des Datensatzes an, der für die Validierung verwendet wird.
-
-
Wenn Sie über zwei Datenquellen verfügen, muss der
ChannelType
für eines derAutoMLJobChannel
Objekte auftraining
gesetzt werden, den Standardwert. DerChannelType
der anderen Datenquelle muss aufvalidation
gesetzt werden. Die beiden Datenquellen müssen dasselbe Format haben, entweder CSV oder Parquet, und dasselbe Schema. In diesem Fall dürfen Sie den Wert fürValidationFraction
nicht festlegen, da alle Daten aus jeder Quelle entweder für das Training oder für die Validierung verwendet werden. Das Einstellen dieses Werts verursacht einen Fehler.
Um die automatische Bereitstellung für den besten Modellkandidaten eines AutoML-Auftrags zu ermöglichen, fügen Sie eine ModelDeployConfig
in die AutoML-Auftragsanfrage hinzu. Dies ermöglicht die Bereitstellung des besten Modells auf einem SageMaker KI-Endpunkt. Im Folgenden finden Sie die verfügbaren Konfigurationen für die individuelle Anpassung.
-
Damit Autopilot den Endpunktnamen erzeugen kann, stellen Sie
AutoGenerateEndpointName
aufTrue
. -
Um Ihren eigenen Namen für den Endpunkt anzugeben, legen Sie
AutoGenerateEndpointName to
fest.False
and provide a name of your choice in EndpointName