Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Vorbereiten von Eingabedaten von Erstanbietern
<a name="prepare-input-data"></a>

[In den folgenden Schritten wird beschrieben, wie Sie Daten von Erstanbietern für die Verwendung in einem [regelbasierten Abgleichsworkflow, einem auf maschinellem Lernen basierenden Abgleichsworkflow](creating-matching-workflow-rule-based.md)[oder einem ID-Mapping-Workflow](create-matching-workflow-ml.md) vorbereiten.](create-id-mapping-workflow.md) 

## Schritt 1: Bereiten Sie Datentabellen von Erstanbietern vor
<a name="prepare-first-party-tables"></a>

Für jeden passenden Workflowtyp gibt es unterschiedliche Empfehlungen und Richtlinien, um den Erfolg sicherzustellen.

Informationen zur Erstellung von Datentabellen von Erstanbietern finden Sie in der folgenden Tabelle: 


**Richtlinien für Datentabellen von Erstanbietern**  

| Workflow-Typ | Erforderlich | 
| --- | --- | 
| Regelbasierter Abgleichs-Workflow mit erweitertem Regeltyp |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/entityresolution/latest/userguide/prepare-input-data.html)  | 
| regelbasierter Abgleichs-Workflow mit einfachem Regeltyp |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/entityresolution/latest/userguide/prepare-input-data.html)  | 
| Auf maschinellem Lernen basierender Matching-Workflow |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/entityresolution/latest/userguide/prepare-input-data.html)  | 
| Arbeitsablauf für die ID-Zuordnung  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/entityresolution/latest/userguide/prepare-input-data.html)  | 

## Schritt 2: Speichern Sie Ihre Eingabedatentabelle in einem unterstützten Datenformat
<a name="save-input-data"></a>

Wenn Sie Ihre Eingabedaten von Erstanbietern bereits in einem unterstützten Datenformat gespeichert haben, können Sie diesen Schritt überspringen. 

Um sie verwenden zu können AWS Entity Resolution, müssen die Eingabedaten in einem Format vorliegen, das AWS Entity Resolution unterstützt. 

AWS Entity Resolution unterstützt die folgenden Datenformate:
+ Kommagetrennter Wert (CSV)
+ Parquet

## Schritt 3: Laden Sie Ihre Eingabedatentabelle auf Amazon S3 hoch
<a name="upload-to-s3"></a>

Wenn Sie Ihre First-Party-Datentabelle bereits in Amazon S3 haben, können Sie diesen Schritt überspringen.

**Anmerkung**  
Sie können die Eingabedaten in Amazon S3Resources in jeder Region der AWS kommerziellen Partition speichern, in der S3 unterstützt wird. Auf diese Daten kann aus einer anderen Region oder AWS-Konto bei der Ausführung des passenden Workflows zugegriffen werden.

**So laden Sie Ihre Eingabedatentabelle auf Amazon S3 hoch**

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die Amazon S3 S3-Konsole unter [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/).

1. Wählen Sie **Buckets** und dann einen Bucket zum Speichern Ihrer Datentabelle aus. 

1. Wählen Sie **Hochladen** und folgen Sie dann den Anweisungen.

1. Wählen Sie die Registerkarte **Objekte**, um das Präfix anzuzeigen, in dem Ihre Daten gespeichert sind. Notieren Sie sich den Namen des Ordners.

   Sie können den Ordner auswählen, um die Datentabelle anzuzeigen.

## Schritt 4: Erstellen Sie eine AWS Glue Tabelle
<a name="create-glue-table"></a>

**Anmerkung**  
Wenn Sie partitionierte AWS Glue Tabellen benötigen, fahren Sie mit [Schritt 4: Erstellen Sie eine partitionierte Tabelle AWS Glue](#create-partitioned-glue-table) fort.

Die Eingabedaten in Amazon S3 müssen katalogisiert AWS Glue und als AWS Glue Tabelle dargestellt werden. Weitere Informationen zum Erstellen einer AWS Glue Tabelle mit Amazon S3 als Eingabe finden Sie unter [Arbeiten mit Crawlern auf der AWS Glue Konsole](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html) im *AWS Glue Entwicklerhandbuch*.

In diesem Schritt richten Sie einen Crawler ein, der alle Dateien in AWS Glue Ihrem S3-Bucket crawlt und eine Tabelle erstellt. AWS Glue 

**Anmerkung**  
AWS Entity Resolution unterstützt derzeit keine Amazon S3 S3-Standorte, bei denen Sie registriert sind AWS Lake Formation.

**Um eine AWS Glue Tabelle zu erstellen**

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Wählen Sie in der Navigationsleiste **Crawlers** aus.

1. Wählen Sie Ihren S3-Bucket aus der Liste aus und wählen Sie dann **Crawler erstellen** aus.

1. **Geben Sie auf der Seite **„Crawler-Eigenschaften festlegen**“ einen **Crawler-Namen** und eine optionale **Beschreibung** ein und wählen Sie dann Weiter aus.**

1. Fahren Sie mit der **Seite Crawler hinzufügen** fort und geben Sie die Details an. 

1. **Wählen Sie auf der Seite „IAM-Rolle** **auswählen“ die Option **Vorhandene IAM-Rolle auswählen aus** und klicken Sie dann auf Weiter.**

   Sie können bei Bedarf auch **eine IAM-Rolle erstellen** wählen oder Ihren Administrator die IAM-Rolle erstellen lassen.

1. **Behalten Sie unter **Einen Zeitplan für diesen Crawler erstellen** die Standardeinstellung **Frequenz** (Bei **Bedarf ausführen) bei** und wählen Sie dann Weiter aus.**

1. **Geben **Sie für Configure the Crawler's output** die AWS Glue Datenbank ein und wählen Sie dann Next aus.**

1. Überprüfen Sie alle Details und wählen Sie dann **Fertig stellen.**

1. Aktivieren Sie auf der Seite **Crawler** das Kontrollkästchen neben Ihrem S3-Bucket und wählen Sie dann **Crawler ausführen** aus.

1. Nachdem der Crawler fertig ausgeführt wurde, wählen Sie in der AWS Glue Navigationsleiste **Datenbanken** und dann Ihren Datenbanknamen aus.

1. Wählen Sie auf der **Datenbankseite** **Tabellen in \$1Ihr Datenbankname\$1** aus.

   1. Sehen Sie sich die Tabellen in der AWS Glue Datenbank an.

   1. Um das Schema einer Tabelle anzuzeigen, wählen Sie eine bestimmte Tabelle aus.

   1. Notieren Sie sich den AWS Glue Datenbanknamen und den AWS Glue Tabellennamen.

Sie sind jetzt bereit, ein Schema-Mapping zu erstellen. Weitere Informationen finden Sie unter [Eine Schemazuordnung erstellen](create-schema-mapping.md).

## Schritt 4: Erstellen Sie eine partitionierte Tabelle AWS Glue
<a name="create-partitioned-glue-table"></a>

**Anmerkung**  
Die AWS Glue Partitionierungsfunktion in AWS Entity Resolution wird nur in Workflows zur ID-Zuordnung unterstützt. Mit dieser AWS Glue Partitionierungsfunktion können Sie bestimmte Partitionen für die Verarbeitung auswählen. AWS Entity Resolution  
Wenn Sie keine partitionierten AWS Glue Tabellen benötigen, können Sie diesen Schritt überspringen.

Eine partitionierte AWS Glue Tabelle spiegelt automatisch neue Partitionen in der AWS Glue Tabelle wider, wenn Sie der Datenstruktur neue Ordner hinzufügen (z. B. einen neuen Tagesordner unter einem Monat). 

Wenn Sie eine partitionierte AWS Glue Tabelle erstellen, können Sie angeben AWS Entity Resolution, welche Partitionen Sie in einem ID-Zuordnungs-Workflow verarbeiten möchten. Jedes Mal, wenn Sie den ID-Zuordnungs-Workflow ausführen, werden dann nur die Daten in diesen Partitionen verarbeitet, anstatt alle Daten in der gesamten AWS Glue Tabelle zu verarbeiten. Diese Funktion ermöglicht eine genauere, effizientere und kostengünstigere Datenverarbeitung und bietet Ihnen mehr Kontrolle und Flexibilität bei der Verwaltung Ihrer Aufgaben zur Entitätsauflösung. AWS Entity Resolution

Sie können in einem ID-Zuordnungs-Workflow eine partitionierte AWS Glue Tabelle für das Quellkonto erstellen. 

Sie müssen zuerst die Eingabedaten in Amazon S3 katalogisieren AWS Glue und als AWS Glue Tabelle darstellen. Weitere Informationen zum Erstellen einer AWS Glue Tabelle mit Amazon S3 als Eingabe finden Sie unter [Arbeiten mit Crawlern auf der AWS Glue Konsole](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html) im *AWS Glue Entwicklerhandbuch*.

In diesem Schritt richten Sie einen Crawler ein, der alle Dateien in AWS Glue Ihrem S3-Bucket crawlt und dann eine partitionierte Tabelle erstellt. AWS Glue 

**Anmerkung**  
AWS Entity Resolution unterstützt derzeit keine Amazon S3 S3-Standorte, bei denen Sie registriert sind AWS Lake Formation.

**Um eine partitionierte Tabelle AWS Glue zu erstellen**

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Wählen Sie in der Navigationsleiste **Crawlers** aus.

1. Wählen Sie Ihren S3-Bucket aus der Liste aus und wählen Sie dann **Crawler erstellen** aus.

1. **Geben Sie auf der Seite **„Crawler-Eigenschaften festlegen**“ einen **Crawler-Namen** und optional eine **Beschreibung** ein und wählen Sie dann Weiter aus.**

1. Fahren Sie mit der **Seite Crawler hinzufügen** fort und geben Sie die Details an. 

1. **Wählen Sie auf der Seite „IAM-Rolle** **auswählen“ die Option **Vorhandene IAM-Rolle auswählen aus** und klicken Sie dann auf Weiter.**

   Sie können bei Bedarf auch **eine IAM-Rolle erstellen** wählen oder Ihren Administrator die IAM-Rolle erstellen lassen.

1. **Behalten Sie unter **Einen Zeitplan für diesen Crawler erstellen** die Standardeinstellung **Frequenz** (Bei **Bedarf ausführen) bei** und wählen Sie dann Weiter aus.**

1. **Geben **Sie für Configure the Crawler's output** die AWS Glue Datenbank ein und wählen Sie dann Next aus.**

1. Überprüfen Sie alle Details und wählen Sie dann **Fertig stellen.**

1. Aktivieren Sie auf der Seite **Crawler** das Kontrollkästchen neben Ihrem S3-Bucket und wählen Sie dann **Crawler ausführen** aus.

1. Nachdem der Crawler fertig ausgeführt wurde, wählen Sie in der AWS Glue Navigationsleiste **Datenbanken** und dann Ihren Datenbanknamen aus.

1. Wählen Sie auf der **Datenbankseite** unter **Tabellen** die Tabelle aus, die partitioniert werden soll.

1. Wählen Sie **in der Tabellenübersicht** die Dropdownliste **Aktionen** aus und wählen Sie dann Tabelle **bearbeiten** aus.

   1. Wählen Sie unter **Tabelleneigenschaften** die Option **Hinzufügen** aus.

   1. Geben Sie für den neuen **Schlüssel** ein**aerPushDownPredicateString**.

   1. Geben Sie für den neuen **Wert** ein**'<PartitionKey>=<PartitionValue'**.

   1. Notieren Sie sich den AWS Glue Datenbanknamen und den AWS Glue Tabellennamen.

Sie sind jetzt bereit für: 
+ [Erstellen Sie ein Schema-Mapping](create-schema-mapping.md) und dann [einen ID-Mapping-Workflow für ein solches AWS-Konto](creating-id-mapping-workflow-same-account.md).
+ [Erstellen Sie eine ID-Namespace-Quelle](create-id-namespace-source.md), [erstellen Sie ein ID-Namespace-Ziel](create-id-namespace-target.md) und [erstellen Sie dann einen ID-Zuordnungs-Workflow für zwei. AWS-Konten](creating-id-mapping-workflow-two-accounts.md)