

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Vorbereitung der Trainingsdaten für Klassifikatoren
<a name="prep-classifier-data"></a>

Für die benutzerdefinierte Klassifizierung trainieren Sie das Modell entweder im Mehrklassenmodus oder im Modus mit mehreren Bezeichnungen. Der Mehrklassenmodus ordnet jedem Dokument eine einzelne Klasse zu. Der Modus mit mehreren Bezeichnungen ordnet jedem Dokument eine oder mehrere Klassen zu. Die Eingabedateiformate sind für jeden Modus unterschiedlich. Wählen Sie daher den zu verwendenden Modus aus, bevor Sie die Trainingsdaten erstellen. 

**Anmerkung**  
Die Amazon Comprehend Comprehend-Konsole bezeichnet den Mehrklassenmodus als Single-Label-Modus.

Die benutzerdefinierte Klassifizierung unterstützt Modelle, die Sie mit Klartextdokumenten trainieren, und Modelle, die Sie mit systemeigenen Dokumenten (wie PDF, Word oder Bildern) trainieren. Weitere Informationen zu Klassifikatormodellen und den unterstützten Dokumenttypen finden Sie unter. [Modelle zur Trainingsklassifizierung](training-classifier-model.md)

So bereiten Sie Daten für das Training eines benutzerdefinierten Klassifikatormodells vor: 

1. Identifizieren Sie die Klassen, die dieser Klassifikator analysieren soll. Entscheiden Sie, welcher Modus verwendet werden soll (mehrere Klassen oder mehrere Beschriftungen).

1. Entscheiden Sie sich für den Modelltyp des Klassifikators, je nachdem, ob das Modell für die Analyse von Klartextdokumenten oder halbstrukturierten Dokumenten bestimmt ist. 

1. Sammeln Sie Beispiele für Dokumente für jede der Klassen. Informationen zu den Mindestanforderungen an die Schulung finden Sie unter[Allgemeine Kontingente für die Klassifizierung von Dokumenten](guidelines-and-limits.md#limits-class-general).

1. Wählen Sie für ein Nur-Text-Modell das zu verwendende Trainingsdateiformat (CSV-Datei oder erweiterte Manifestdatei). Um ein systemeigenes Dokumentmodell zu trainieren, verwenden Sie immer eine CSV-Datei. 

**Topics**
+ [Formate der Classifier-Trainingsdateien](prep-class-data-format.md)
+ [Mehrklassenmodus](prep-classifier-data-multi-class.md)
+ [Modus mit mehreren Bezeichnungen](prep-classifier-data-multi-label.md)

# Formate der Classifier-Trainingsdateien
<a name="prep-class-data-format"></a>

Für ein Klartextmodell können Sie Classifier-Trainingsdaten als CSV-Datei oder als erweiterte Manifestdatei bereitstellen, die Sie mit SageMaker AI Ground Truth erstellen. Die CSV-Datei oder erweiterte Manifestdatei enthält den Text für jedes Schulungsdokument und die zugehörigen Bezeichnungen.

Für ein systemeigenes Dokumentenmodell stellen Sie Classifier-Trainingsdaten als CSV-Datei bereit. Die CSV-Datei enthält den Dateinamen für jedes Schulungsdokument und die zugehörigen Labels. Sie fügen die Schulungsdokumente in den Amazon S3 S3-Eingabeordner für den Schulungsjob ein.

## CSV-Dateien
<a name="prep-data-csv"></a>

Sie stellen beschriftete Trainingsdaten als UTF-8-codierten Text in einer CSV-Datei bereit. Fügen Sie keine Kopfzeile hinzu. Das Hinzufügen einer Kopfzeile zu Ihrer Datei kann zu Laufzeitfehlern führen.

Für jede Zeile in der CSV-Datei enthält die erste Spalte eine oder mehrere Klassenbezeichnungen. Eine Klassenbezeichnung kann eine beliebige gültige UTF-8-Zeichenfolge sein. Wir empfehlen, klare Klassennamen zu verwenden, deren Bedeutung sich nicht überschneidet. Der Name kann Leerzeichen enthalten und aus mehreren Wörtern bestehen, die durch Unterstriche oder Bindestriche miteinander verbunden sind.

Lassen Sie vor oder nach den Kommas, die die Werte in einer Zeile trennen, keine Leerzeichen stehen. 

Der genaue Inhalt der CSV-Datei hängt vom Klassifikatormodus und der Art der Trainingsdaten ab. Einzelheiten finden Sie in den Abschnitten zu [Mehrklassenmodus](prep-classifier-data-multi-class.md) und[Modus mit mehreren Bezeichnungen](prep-classifier-data-multi-label.md).

## Erweiterte Manifestdatei
<a name="prep-data-annotations"></a>

Eine erweiterte Manifestdatei ist ein beschrifteter Datensatz, den Sie mit SageMaker AI Ground Truth erstellen. Ground Truth ist ein Datenkennzeichnungsdienst, der Ihnen — oder einer von Ihnen beschäftigten Belegschaft — dabei hilft, Trainingsdatensätze für Modelle des maschinellen Lernens zu erstellen. 

Weitere Informationen zu Ground Truth und den damit erzeugten Ergebnissen finden Sie unter [Use SageMaker AI Ground Truth to Label Data](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) im *Amazon SageMaker AI Developer Guide*.

Erweiterte Manifestdateien sind im JSON-Zeilenformat. In diesen Dateien ist jede Zeile ein vollständiges JSON-Objekt, das ein Schulungsdokument und die zugehörigen Beschriftungen enthält. Der genaue Inhalt jeder Zeile hängt vom Klassifikatormodus ab. Einzelheiten finden Sie in den Abschnitten zu [Mehrklassenmodus](prep-classifier-data-multi-class.md) und[Modus mit mehreren Bezeichnungen](prep-classifier-data-multi-label.md).

Wenn Sie Amazon Comprehend Ihre Trainingsdaten zur Verfügung stellen, geben Sie einen oder mehrere Namen für Labelattribute an. Wie viele Attributnamen Sie angeben, hängt davon ab, ob Ihre erweiterte Manifestdatei das Ergebnis eines einzelnen Label-Jobs oder eines verketteten Labeling-Jobs ist.

Wenn Ihre Datei das Ergebnis eines einzelnen Label-Jobs ist, geben Sie den Namen des einzelnen Label-Attributs aus dem Ground Truth Job an. 

Wenn Ihre Datei das Ergebnis eines verketteten Beschriftungsauftrags ist, geben Sie den Namen des Labelattributs für einen oder mehrere Jobs in der Kette an. Jeder Name eines Labelattributs enthält die Anmerkungen zu einem einzelnen Auftrag. Sie können bis zu 5 dieser Attribute für erweiterte Manifestdateien aus verketteten Labeling-Jobs angeben. 

Weitere Informationen zu verketteten Labeling-Jobs und Beispiele für das Ergebnis, das sie produzieren, finden Sie unter [Chaining Labeling-Jobs](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html) im Amazon SageMaker AI Developer Guide.

# Mehrklassenmodus
<a name="prep-classifier-data-multi-class"></a>

Im Mehrklassenmodus weist die Klassifizierung jedem Dokument eine Klasse zu. Die einzelnen Klassen schließen sich gegenseitig aus. Sie können beispielsweise einen Film als Komödie oder Science-Fiction klassifizieren, aber nicht als beides. 

**Anmerkung**  
Die Amazon Comprehend Comprehend-Konsole bezeichnet den Mehrklassenmodus als Single-Label-Modus.

**Topics**
+ [Modelle im Klartext-Format](#prep-multi-class-plaintext)
+ [Systemeigene Dokumentenmodelle](#prep-multi-class-structured)

## Modelle im Klartext-Format
<a name="prep-multi-class-plaintext"></a>

Um ein Klartextmodell zu trainieren, können Sie beschriftete Trainingsdaten als CSV-Datei oder als erweiterte Manifestdatei von SageMaker AI Ground Truth bereitstellen.

### CSV-Datei
<a name="prep-multi-class-plaintext-csv"></a>

Allgemeine Informationen zur Verwendung von CSV-Dateien zum Trainieren von Klassifikatoren finden Sie unter. [CSV-Dateien](prep-class-data-format.md#prep-data-csv)

Stellen Sie die Trainingsdaten als zweispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte den Klassenbeschriftungswert. Die zweite Spalte enthält ein Beispiel-Textdokument für diese Klasse. Jede Zeile muss mit den Zeichen\$1noder\$1 r\$1nenden.

Das folgende Beispiel zeigt eine CSV-Datei mit drei Dokumenten.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator dahingehend trainiert, zu erkennen, ob es sich bei einer E-Mail-Nachricht um Spam handelt:

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### Erweiterte Manifestdatei
<a name="prep-multi-class-plaintext-manifest"></a>

Allgemeine Hinweise zur Verwendung erweiterter Manifestdateien für das Training von Klassifikatoren finden Sie unter[Erweiterte Manifestdatei](prep-class-data-format.md#prep-data-annotations).

Bei Klartextdokumenten ist jede Zeile der erweiterten Manifestdatei ein vollständiges JSON-Objekt, das ein Trainingsdokument, einen einzelnen Klassennamen und andere Metadaten von Ground Truth enthält. Das folgende Beispiel zeigt eine erweiterte Manifestdatei zum Trainieren eines benutzerdefinierten Klassifikators zur Erkennung von Spam-E-Mail-Nachrichten:

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 Das folgende Beispiel zeigt ein JSON-Objekt aus der erweiterten Manifestdatei, das aus Gründen der Lesbarkeit formatiert ist: 

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

In diesem Beispiel stellt das `source` Attribut den Text des Schulungsdokuments bereit, und das `MultiClassJob` Attribut weist den Index einer Klasse aus einer Klassifikationsliste zu. Das `job-name` Attribut ist der Name, den Sie für den Labeling-Job in Ground Truth definiert haben. 

 Wenn Sie den Classifier-Trainingsjob in Amazon Comprehend starten, geben Sie denselben Namen für den Labeling-Job an. 

## Systemeigene Dokumentenmodelle
<a name="prep-multi-class-structured"></a>

Ein systemeigenes Dokumentmodell ist ein Modell, das Sie mit systemeigenen Dokumenten (wie PDF, DOCX und Bildern) trainieren. Sie stellen die Trainingsdaten als CSV-Datei bereit.

### CSV-Datei
<a name="prep-multi-class-structured-csv"></a>

Allgemeine Informationen zur Verwendung von CSV-Dateien für Trainingsklassifikatoren finden Sie unter[CSV-Dateien](prep-class-data-format.md#prep-data-csv).

Stellen Sie die Trainingsdaten als dreispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte den Klassenbeschriftungswert. Die zweite Spalte enthält den Dateinamen eines Beispieldokuments für diese Klasse. Die dritte Spalte enthält die Seitenzahl. Die Seitenzahl ist optional, wenn es sich bei dem Beispieldokument um ein Bild handelt.

Das folgende Beispiel zeigt eine CSV-Datei, die auf drei Eingabedokumente verweist. 

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator trainiert, um zu erkennen, ob es sich bei einer E-Mail-Nachricht um Spam handelt. Seite 2 der PDF-Datei enthält das Spam-Beispiel. 

```
SPAM,email-content-3.pdf,2
```

# Modus mit mehreren Bezeichnungen
<a name="prep-classifier-data-multi-label"></a>

Im Modus mit mehreren Bezeichnungen stehen einzelne Klassen für unterschiedliche Kategorien, die sich nicht gegenseitig ausschließen. Bei der Klassifizierung mit mehreren Bezeichnungen werden jedem Dokument eine oder mehrere Klassen zugewiesen. Sie können beispielsweise einen Film als Dokumentarfilm und einen anderen als Science-Fiction, Action und Comedy klassifizieren. 

Zu Schulungszwecken unterstützt der Multi-Label-Modus bis zu 1 Million Beispiele mit bis zu 100 eindeutigen Klassen.

**Topics**
+ [Modelle im Klartext-Format](#prep-multi-label-plaintext)
+ [Systemeigene Dokumentenmodelle](#prep-multi-label-structured)

## Modelle im Klartext-Format
<a name="prep-multi-label-plaintext"></a>

Um ein Klartextmodell zu trainieren, können Sie beschriftete Trainingsdaten als CSV-Datei oder als erweiterte Manifestdatei von SageMaker AI Ground Truth bereitstellen.

### CSV-Datei
<a name="prep-multi-label-plaintext-csv"></a>

Allgemeine Informationen zur Verwendung von CSV-Dateien zum Trainieren von Klassifikatoren finden Sie unter. [CSV-Dateien](prep-class-data-format.md#prep-data-csv)

Stellen Sie die Trainingsdaten als zweispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte die Klassenbeschriftungswerte und die zweite Spalte ein Beispieltextdokument für diese Klassen. Um mehr als eine Klasse in die erste Spalte einzugeben, verwenden Sie ein Trennzeichen (z. B. ein \$1) zwischen den einzelnen Klassen.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator trainiert, um Genres in Filmzusammenfassungen zu erkennen:

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

Das Standardtrennzeichen zwischen Klassennamen ist ein senkrechter Strich (\$1). Sie können jedoch ein anderes Zeichen als Trennzeichen verwenden. Das Trennzeichen muss sich von allen Zeichen in Ihren Klassennamen unterscheiden. Wenn Ihre Klassen beispielsweise CLASS\$11, CLASS\$12 und CLASS\$13 sind, ist der Unterstrich (**\$1**) Teil des Klassennamens. Verwenden Sie also keinen Unterstrich als Trennzeichen für die Trennung von Klassennamen.

### Erweiterte Manifestdatei
<a name="prep-multi-label-plaintext-manifest"></a>

Allgemeine Hinweise zur Verwendung erweiterter Manifestdateien für das Training von Klassifikatoren finden Sie unter[Erweiterte Manifestdatei](prep-class-data-format.md#prep-data-annotations).

Bei Klartextdokumenten ist jede Zeile der erweiterten Manifestdatei ein vollständiges JSON-Objekt. Es enthält ein Schulungsdokument, Klassennamen und andere Metadaten von Ground Truth. Das folgende Beispiel ist eine erweiterte Manifestdatei, mit der ein benutzerdefinierter Klassifikator trainiert wird, um Genres in Filmzusammenfassungen zu erkennen:

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 Das folgende Beispiel zeigt ein JSON-Objekt aus der erweiterten Manifestdatei, das aus Gründen der Lesbarkeit formatiert ist: 

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

In diesem Beispiel stellt das `source` Attribut den Text des Schulungsdokuments bereit, und das `MultiLabelJob` Attribut weist die Indizes mehrerer Klassen aus einer Klassifikationsliste zu. Der Jobname in den `MultiLabelJob` Metadaten ist der Name, den Sie für den Labeling-Job in Ground Truth definiert haben. 

## Systemeigene Dokumentenmodelle
<a name="prep-multi-label-structured"></a>

Ein systemeigenes Dokumentmodell ist ein Modell, das Sie mit systemeigenen Dokumenten (wie PDF-, DOCX- und Bilddateien) trainieren. Sie stellen beschriftete Trainingsdaten als CSV-Datei bereit.

### CSV-Datei
<a name="prep-multi-label-structured-csv"></a>

Allgemeine Informationen zur Verwendung von CSV-Dateien für Trainingsklassifikatoren finden Sie unter[CSV-Dateien](prep-class-data-format.md#prep-data-csv).

Stellen Sie die Trainingsdaten als dreispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte die Klassenbeschriftungswerte. Die zweite Spalte enthält den Dateinamen eines Beispieldokuments für diese Klassen. Die dritte Spalte enthält die Seitenzahl. Die Seitenzahl ist optional, wenn es sich bei dem Beispieldokument um ein Bild handelt.

Um mehr als eine Klasse in die erste Spalte einzugeben, verwenden Sie ein Trennzeichen (z. B. ein \$1) zwischen den einzelnen Klassen.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator trainiert, um Genres in Filmzusammenfassungen zu erkennen. Seite 2 der PDF-Datei enthält das Beispiel eines comedy/teen Films.

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

Das Standardtrennzeichen zwischen Klassennamen ist ein senkrechter Strich (\$1). Sie können jedoch ein anderes Zeichen als Trennzeichen verwenden. Das Trennzeichen muss sich von allen Zeichen in Ihren Klassennamen unterscheiden. Wenn Ihre Klassen beispielsweise CLASS\$11, CLASS\$12 und CLASS\$13 sind, ist der Unterstrich (**\$1**) Teil des Klassennamens. Verwenden Sie also keinen Unterstrich als Trennzeichen für die Trennung von Klassennamen.