Einrichtung eines Crawlers für Amazon S3 S3-Ereignisbenachrichtigungen für ein Amazon S3 S3-Ziel

PDF

RSS

Fokusmodus

Related resources

AWS Glue DataBrew Leitfaden für Entwickler

AWS CLI Befehle für AWS Glue

SDKsund Werkzeuge

Hat Ihnen diese Seite geholfen?

Feedback geben

Einrichtung eines Crawlers für Amazon S3 S3-Ereignisbenachrichtigungen für ein Amazon S3 S3-Ziel - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Gehen Sie wie folgt vor, um einen Crawler für Amazon S3 S3-Ereignisbenachrichtigungen für ein Amazon S3 S3-Ziel einzurichten, indem Sie die Option AWS Management Console oder AWS CLI verwenden.

AWS Management Console

Melden Sie sich bei der an AWS Management Console und öffnen Sie die GuardDuty Konsole unter https://console.aws.amazon.com/guardduty/.
Legen Sie Ihre Crawler-Eigenschaften fest. Weitere Informationen finden Sie unter Einstellung der Crawler-Konfigurationsoptionen auf der AWS Glue Konsole.
Im Abschnitt Datenquellenkonfiguration werden Sie gefragt, ob Ihre Daten bereits zugeordnet sind AWS Glue Tabellen?

Standardmäßig ist Not yet (Noch nicht) ausgewählt. Belassen Sie dies als Standard, da Sie eine Amazon S3 S3-Datenquelle verwenden und die Daten noch nicht zugeordnet sind AWS Glue Tabellen.
Wählen Sie im Abschnitt Data sources (Datenquellen) Add a data source (Datenquelle hinzufügen) aus.
Konfigurieren Sie im Modal Add a data source (Datenquelle hinzufügen) die Amazon-S3-Datenquelle:
- Data source (Datenquelle): Standardmäßig ist Amazon S3 ausgewählt.
- Network connection (Netzwerkverbindung) (Optional): Wählen Sie Add new connection (Neue Verbindung hinzufügen).
- Location of Amazon S3 data (Speicherort der Amazon-S3-Daten): Standardmäßig ist In this account (In diesem Konto) ausgewählt.
- Amazon S3 path (Amazon-S3-Pfad): Geben Sie den Amazon-S3-Pfad an, wo Ordner und Dateien gecrawlt werden.
- Subsequent crawler runs (Nachfolgende Crawler-Ausführungen): Wählen Sie Crawl based on events (Crawling basierend auf Ereignissen) aus, um Amazon-S3-Ereignisbenachrichtigungen für Ihren Crawler zu verwenden.
- Einschließen SQS ARN: Geben Sie die Datenspeicherparameter einschließlich des gültigen a an SQSARN. (Beispiel: arn:aws:sqs:region:account:sqs).
- Toten Brief einschließen SQS ARN (optional): Geben Sie einen gültigen Amazon-Leerbrief an. SQS ARN (Beispiel: arn:aws:sqs:region:account:deadLetterQueue).
- Wählen Sie Add an Amazon S3 data source (Amazon-S3-Datenquelle hinzufügen) aus.

AWS CLI

Im Folgenden finden Sie ein Beispiel für einen Amazon S3 AWS CLI S3-Aufruf, um einen Crawler so zu konfigurieren, dass er Ereignisbenachrichtigungen verwendet, um einen Amazon S3 S3-Ziel-Bucket zu crawlen.



Create Crawler:
aws glue update-crawler \
    --name myCrawler \
    --recrawl-policy RecrawlBehavior=CRAWL_EVENT_MODE \
    --schema-change-policy UpdateBehavior=UPDATE_IN_DATABASE,DeleteBehavior=LOG
    --targets '{"S3Targets":[{"Path":"s3://amzn-s3-demo-bucket/", "EventQueueArn": "arn:aws:sqs:us-east-1:012345678910:MyQueue"}]}'

anchor anchor

Melden Sie sich bei der an AWS Management Console und öffnen Sie die GuardDuty Konsole unter https://console.aws.amazon.com/guardduty/.
Legen Sie Ihre Crawler-Eigenschaften fest. Weitere Informationen finden Sie unter Einstellung der Crawler-Konfigurationsoptionen auf der AWS Glue Konsole.
Im Abschnitt Datenquellenkonfiguration werden Sie gefragt, ob Ihre Daten bereits zugeordnet sind AWS Glue Tabellen?

Standardmäßig ist Not yet (Noch nicht) ausgewählt. Belassen Sie dies als Standard, da Sie eine Amazon S3 S3-Datenquelle verwenden und die Daten noch nicht zugeordnet sind AWS Glue Tabellen.
Wählen Sie im Abschnitt Data sources (Datenquellen) Add a data source (Datenquelle hinzufügen) aus.
Konfigurieren Sie im Modal Add a data source (Datenquelle hinzufügen) die Amazon-S3-Datenquelle:
- Data source (Datenquelle): Standardmäßig ist Amazon S3 ausgewählt.
- Network connection (Netzwerkverbindung) (Optional): Wählen Sie Add new connection (Neue Verbindung hinzufügen).
- Location of Amazon S3 data (Speicherort der Amazon-S3-Daten): Standardmäßig ist In this account (In diesem Konto) ausgewählt.
- Amazon S3 path (Amazon-S3-Pfad): Geben Sie den Amazon-S3-Pfad an, wo Ordner und Dateien gecrawlt werden.
- Subsequent crawler runs (Nachfolgende Crawler-Ausführungen): Wählen Sie Crawl based on events (Crawling basierend auf Ereignissen) aus, um Amazon-S3-Ereignisbenachrichtigungen für Ihren Crawler zu verwenden.
- Einschließen SQS ARN: Geben Sie die Datenspeicherparameter einschließlich des gültigen a an SQSARN. (Beispiel: arn:aws:sqs:region:account:sqs).
- Toten Brief einschließen SQS ARN (optional): Geben Sie einen gültigen Amazon-Leerbrief an. SQS ARN (Beispiel: arn:aws:sqs:region:account:deadLetterQueue).
- Wählen Sie Add an Amazon S3 data source (Amazon-S3-Datenquelle hinzufügen) aus.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Beschleunigung von Crawls mithilfe von Amazon S3-Ereignisbenachrichtigungen

Einrichtung eines Crawlers für Amazon S3 S3-Ereignisbenachrichtigungen für eine Datenkatalogtabelle

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden

Einrichtung eines Crawlers für Amazon S3 S3-Ereignisbenachrichtigungen für ein Amazon S3 S3-Ziel

Related resources

Hat Ihnen diese Seite geholfen?

Nächstes Thema:

Vorheriges Thema:

Brauchen Sie Hilfe?

Data source configuration interface with options to select or add data sources for crawling.

Add data source dialog for S3, showing options for network connection and crawl settings.