Crawlen eines Amazon S3 S3-Datenspeichers mithilfe eines Endpunkts VPC - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Crawlen eines Amazon S3 S3-Datenspeichers mithilfe eines Endpunkts VPC

Aus Sicherheits-, Prüf- oder Kontrollgründen möchten Sie möglicherweise, dass auf Ihren Amazon S3-Datenspeicher oder auf Amazon S3 gestützte Datenkatalogtabellen nur über eine Amazon Virtual Private Cloud Cloud-Umgebung (AmazonVPC) zugegriffen wird. In diesem Thema wird beschrieben, wie Sie mithilfe des Verbindungstyps eine Verbindung zum Amazon S3 S3-Datenspeicher oder zu Amazon S3 S3-gestützten Datenkatalogtabellen in einem VPC Endpunkt herstellen und testen. Network

Führen Sie die folgenden Aufgaben aus, um einen Crawler im Datenspeicher auszuführen:

Voraussetzungen

Vergewissern Sie sich, dass Sie diese Voraussetzungen für die Einrichtung Ihres Amazon S3 S3-Datenspeichers oder Ihrer Amazon S3 S3-gestützten Datenkatalogtabellen für den Zugriff über eine Amazon Virtual Private Cloud Cloud-Umgebung (AmazonVPC) erfüllt haben.

  • Ein konfigurierterVPC. Zum Beispiel: vpc-01685961063b0d84b. Weitere Informationen finden Sie unter Erste Schritte mit Amazon VPC im VPCAmazon-Benutzerhandbuch.

  • Ein Amazon S3 S3-Endpunkt, der an den angeschlossen istVPC. Zum Beispiel: vpc-01685961063b0d84b. Weitere Informationen finden Sie unter Endpoints for Amazon S3 im VPCAmazon-Benutzerhandbuch.

    Beispiel für einen Amazon S3 S3-Endpunkt, der an einen angeschlossen istVPC.
  • Ein Routeneintrag, der auf den VPC Endpunkt zeigt. Zum Beispiel vpce-0ec5da4d265227786 in der vom Endpunkt verwendeten Routentabelle (vpce-0ec5da4d265227786). VPC

    Beispiel für einen Routeneintrag, der auf den Endpunkt zeigt. VPC
  • Ein ACL daran angeschlossenes Netzwerk VPC ermöglicht den Datenverkehr.

  • Eine mit dem verbundene Sicherheitsgruppe VPC lässt den Datenverkehr zu.

Herstellen der Verbindung zu Amazon S3

In der Regel erstellen Sie Ressourcen in Amazon Virtual Private Cloud (AmazonVPC), sodass nicht über das öffentliche Internet auf sie zugegriffen werden kann. Standardmäßig AWS Glue kann nicht auf Ressourcen in einem zugegriffen VPC werden. Um den Zugriff auf Ressourcen in Ihrem AWS Glue zu ermöglichenVPC, müssen Sie zusätzliche VPC spezifische Konfigurationsinformationen angeben, einschließlich VPC Subnetz IDs und Sicherheitsgruppe. IDs Um eine Network-Verbindung herzustellen, benötigen Sie folgende Informationen:

  • Eine ID VPC

  • Ein Subnetz innerhalb des VPC

  • Eine Sicherheitsgruppen-ID

Eine Network-Verbindung einrichten:

  1. Wählen Sie im Navigationsbereich der AWS Glue -Konsole Add connection (Verbindung hinzufügen) aus.

  2. Geben Sie den Verbindungsnamen ein und wählen Sie Network (Netzwerk) als Verbindungstyp. Wählen Sie Next (Weiter).

    Auswahl des Verbindungstyps.
  3. Konfigurieren Sie die VPC Informationen zu Subnetz und Sicherheitsgruppen.

    • VPC: Wählen Sie den VPC Namen, der Ihren Datenspeicher enthält.

    • Subnetz: Wählen Sie das Subnetz in Ihrem. VPC

    • Sicherheitsgruppen: Wählen Sie eine oder mehrere Sicherheitsgruppen aus, die den Zugriff auf den Datenspeicher in Ihrem ermöglichen. VPC

    Auswahl des Verbindungstyps.
  4. Wählen Sie Weiter.

  5. Überprüfen Sie die Verbindungsinformationen und wählen Sie Finish (Beenden) aus.

    Auswahl des Verbindungstyps.

Testen der Verbindung zu Amazon S3

Sobald Sie Ihre Network Verbindung hergestellt haben, können Sie die Konnektivität zu Ihrem Amazon S3 S3-Datenspeicher an einem VPC Endpunkt testen.

Beim Testen einer Verbindung können folgende Fehler auftreten:

  • INTERNETCONNECTIONERROR: weist auf ein Problem mit der Internetverbindung hin

  • INVALIDBUCKETERROR: weist auf ein Problem mit dem Amazon S3 S3-Bucket hin

  • S3 CONNECTIONERROR: weist auf einen Verbindungsfehler mit Amazon S3 hin

  • INVALIDCONNECTIONTYPE: gibt an, dass der Verbindungstyp nicht den erwarteten Wert hat, NETWORK

  • INVALIDCONNECTIONTESTTYPE: weist auf ein Problem mit der Art des Netzwerkverbindungstests hin

  • INVALIDTARGET: zeigt an, dass der Amazon S3 S3-Bucket nicht richtig spezifiziert wurde

So testen Sie eine Network-Verbindung:

  1. Wählen Sie die Netzwerkverbindung in der AWS Glue -Konsole aus.

  2. Wählen Sie Test connection (Verbindung testen) aus.

  3. Wählen Sie die IAM Rolle aus, die Sie im vorherigen Schritt erstellt haben, und geben Sie einen Amazon S3 S3-Bucket an.

  4. Wählen Sie zum Starten des Tests Test connection (Verbindung testen) aus. Es kann einige Augenblicke dauern, um das Ergebnis zu zeigen.

Testen der Verbindung.

Wenn Ihnen ein Fehler angezeigt wird, gehen Sie folgendermaßen vor:

  • Die richtigen Berechtigungen werden für die ausgewählte Rolle bereitgestellt.

  • Der richtige Amazon S3 Bucket wird bereitgestellt.

  • Die Sicherheitsgruppen und das Netzwerk ACL ermöglichen den erforderlichen eingehenden und ausgehenden Datenverkehr.

  • Der von VPC Ihnen angegebene ist mit einem Amazon S3 VPC S3-Endpunkt verbunden.

Sobald Sie die Verbindung erfolgreich getestet haben, können Sie einen Crawler erstellen.

Erstellen eines Crawlers für einen Amazon-S3-Datenspeicher

Jetzt können Sie einen Crawler erstellen, der die Network-Verbindung angibt, die Sie erstellt haben. Weitere Informationen zum Erstellen eines Crawlers finden Sie unter Konfiguration eines Crawlers.

  1. Wählen Sie zunächst im Navigationsbereich der AWS Glue Konsole Crawlers aus.

  2. Wählen Sie Add crawler (Crawler hinzufügen).

  3. Geben Sie dem Crawler einen Namen und klicken Sie auf Next (Weiter).

  4. Wählen Sie bei der Aufforderung zur Datenquelle S3 aus und geben Sie das Präfix für den Amazon S3 Bucket und die Verbindung an, die Sie zuvor erstellt haben.

    Testen der Verbindung.
  5. Fügen Sie ggf. einen anderen Datenspeicher auf derselben Netzwerkverbindung hinzu.

  6. Wählen Sie die IAM Rolle aus. Die IAM Rolle muss den Zugriff auf den AWS Glue Service und den Amazon S3 S3-Bucket ermöglichen. Weitere Informationen finden Sie unter Konfiguration eines Crawlers.

    Testen der Verbindung.
  7. Definieren Sie den Zeitplan für den Crawler.

  8. Wählen Sie eine vorhandene Datenbank im Data Catalog aus oder erstellen Sie einen neuen Datenbankeintrag.

    Testen der Verbindung.
  9. Beenden Sie die verbleibende Einrichtung.

Erstellen eines Crawlers für Amazon-S3-unterstützte Datenkatalog-Tabellen

Sie können jetzt einen Crawler erstellen, der die von Ihnen erstellte Network-Verbindung und einen Katalogquelltyp angibt. Weitere Informationen zum Erstellen eines Crawlers finden Sie unter Konfiguration eines Crawlers.

  1. Wählen Sie zunächst im Navigationsbereich der AWS Glue Konsole Crawlers aus.

  2. Wählen Sie Add crawler (Crawler hinzufügen).

  3. Geben Sie dem Crawler einen Namen und klicken Sie auf Next (Weiter).

  4. Wenn Sie nach dem Crawler-Quellentyp gefragt werden, wählen Sie Bestehende Katalogtabellen, und geben Sie die vorhandenen Katalogtabellen an, die aus der Liste der verfügbaren Tabellen gecrawlt werden sollen.

    Auswahl des Crawler-Quelltyps.
  5. Wählen Sie die IAM Rolle aus. Die IAM Rolle muss den Zugriff auf den AWS Glue Service und den Amazon S3 S3-Bucket ermöglichen. Weitere Informationen finden Sie unter Konfiguration eines Crawlers.

  6. Definieren Sie den Zeitplan für den Crawler.

  7. Wählen Sie eine vorhandene Datenbank im Data Catalog aus oder erstellen Sie einen neuen Datenbankeintrag.

  8. Beenden Sie die verbleibende Einrichtung und überprüfen Sie Ihre Schritte.

    Auswahl des Crawler-Quelltyps.

Ausführen eines Crawlers

Führen Sie Ihren Crawler aus.

Führen Sie Ihren Crawler on demand aus.

Fehlerbehebung

Informationen zur Fehlerbehebung im Zusammenhang mit Amazon S3 S3-Buckets, die ein VPC Gateway verwenden, finden Sie unter Warum kann ich über einen VPC Gateway-Endpunkt keine Verbindung zu einem S3-Bucket herstellen?