Was ist AWS Glue? - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Was ist AWS Glue?

AWS Glue ist ein serverloser Datenintegrationsdienst, der es Analytics-Benutzern erleichtert, Daten aus mehreren Quellen zu ermitteln, aufzubereiten, zu verschieben und zu integrieren. Sie können es für Analysen, Machine Learning und Anwendungsentwicklung verwenden. Es umfasst auch zusätzliche Produktivitäts- und Datenops-Tools für die Erstellung, Ausführung von Aufträgen und die Implementierung von Geschäftsabläufen.

Mit AWS Glue, können Sie mehr als 70 verschiedene Datenquellen entdecken und eine Verbindung zu ihnen herstellen und Ihre Daten in einem zentralen Datenkatalog verwalten. Sie können Extraktions-, Transformations- und Load (ETL) -Pipelines visuell erstellen, ausführen und überwachen, um Daten in Ihre Data Lakes zu laden. Außerdem können Sie mit Amazon Athena, Amazon und Amazon Redshift Spectrum sofort katalogisierte Daten suchen und abfragen. EMR

AWS Glue konsolidiert wichtige Datenintegrationsfunktionen in einem einzigen Service. Dazu gehören Datenerkennung, moderne DatenerfassungETL, Bereinigung, Transformation und zentralisierte Katalogisierung. Es ist außerdem Serverless, was bedeutet, dass keine Infrastruktur verwaltet werden muss. Mit flexibler Unterstützung für alle Workloads wie ETLELT, und Streaming in einem Service AWS Glue unterstützt Benutzer bei verschiedenen Workloads und Benutzertypen.

Außerdem AWS Glue macht es einfach, Daten in Ihre gesamte Architektur zu integrieren. Es lässt sich in AWS Analysedienste und Amazon S3 S3-Datenseen integrieren. AWS Glue verfügt über Integrationsschnittstellen und Tools zur Erstellung von Aufträgen, die für alle Benutzer, von Entwicklern bis hin zu Geschäftsanwendern, einfach zu bedienen sind und maßgeschneiderte Lösungen für unterschiedliche technische Fähigkeiten bieten.

Mit der Fähigkeit, bei Bedarf zu skalieren AWS Glue hilft Ihnen dabei, sich auf hochwertige Aktivitäten zu konzentrieren, die den Wert Ihrer Daten maximieren. Es skaliert für jede Datengröße und unterstützt alle Datentypen und Schemavarianzen. Um die Agilität zu erhöhen und die Kosten zu optimieren, AWS Glue bietet integrierte Hochverfügbarkeit und pay-as-you automatische Abrechnung.

Preisinformationen finden Sie unter AWS Glue Preisgestaltung.

AWS Glue Studio

AWS Glue Studio ist eine grafische Oberfläche, die es einfach macht, Datenintegrationsjobs zu erstellen, auszuführen und zu überwachen AWS Glue. Sie können Workflows zur Datentransformation visuell zusammenstellen und sie nahtlos auf der Apache Spark-basierten serverlosen Engine ausführen ETL AWS Glue.

Mit AWS Glue Studio, können Sie Jobs erstellen und verwalten, die Daten sammeln, transformieren und bereinigen. Sie können auch verwenden AWS Glue Studio zur Fehlerbehebung und Bearbeitung von Jobskripten.

AWS Glue features

AWS Glue Funktionen lassen sich in drei Hauptkategorien einteilen:

  • Entdecken und organisieren von Daten

  • Transformieren, vorbereiten und bereinigen von Daten für die Analyse

  • Erstellen und Überwachen von Datenpipelines

Entdecken und organisieren von Daten

  • Vereinheitlichen und durchsuchen Sie mehrere Datenspeicher — Speichern, indexieren und durchsuchen Sie mehrere Datenquellen und Datenspeicher, indem Sie alle Ihre Daten katalogisieren. AWS

  • Automatisches Auffinden von Daten — Verwenden AWS Glue Crawler, um automatisch Schemainformationen abzuleiten und sie in Ihre zu integrieren. AWS Glue Data Catalog

  • Schemas und Berechtigungen verwalten – Validieren und kontrollieren Sie den Zugriff auf Ihre Datenbanken und Tabellen.

  • Stellen Sie eine Connect zu einer Vielzahl von Datenquellen her — Nutzen Sie mehrere Datenquellen, sowohl vor Ort als auch vor Ort AWS, mit AWS Glue Verbindungen zum Aufbau Ihres Data Lakes.

Transformieren, vorbereiten und bereinigen von Daten für Analysen

  • Visuelles Transformieren von Daten mit einer Job-Canvas-Oberfläche — Definieren Sie Ihren ETL Prozess im Visual Job Editor und generieren Sie automatisch den Code zum Extrahieren, Transformieren und Laden Ihrer Daten.

  • Erstellen Sie komplexe ETL Pipelines mit einfacher Jobplanung — Invoke AWS Glue Jobs nach einem Zeitplan, auf Abruf oder auf der Grundlage eines Ereignisses.

  • Reinigen und transformieren Sie Streaming-Daten während der Übertragung – Ermöglichen Sie kontinuierlichen Datenverbrauch und bereinigen und transformieren Sie ihn während der Übertragung. Dadurch steht es in Sekundenschnelle für Analysen in Ihrem Zieldatenspeicher zur Verfügung.

  • Daten deduplizieren und bereinigen mit integriertem Machine Learning – Bereinigen und bereiten Sie Ihre Daten mit dem FindMatches-Feature für die Analyse vor, ohne Experte für Machine Learning zu werden. Dieses Feature dedupliziert und findet Datensätze, die nicht perfekt zueinander passen.

  • Integrierte Job-Notizbücher — AWS Glue Job-Notebooks bieten serverlose Notebooks mit minimalem Einrichtungsaufwand AWS Glue damit Sie schnell loslegen können.

  • ETLCode bearbeiten, debuggen und testen — Mit AWS Glue In interaktiven Sitzungen können Sie Daten interaktiv untersuchen und aufbereiten. Sie können Daten interaktiv untersuchen, damit experimentieren und verarbeiten, indem Sie das Notizbuch IDE oder das Notizbuch Ihrer Wahl verwenden.

  • Sensible Daten definieren, erkennen und korrigieren — AWS Glue Mit der Erkennung sensibler Daten können Sie sensible Daten in Ihrer Datenpipeline und in Ihrem Data Lake definieren, identifizieren und verarbeiten.

Erstellen und Überwachen von Datenpipelines

  • Automatische Skalierung basierend auf Workload – Skalieren Sie Ressourcen basierend auf der Arbeitslast dynamisch nach oben und unten. Dadurch werden Arbeitern nur bei Bedarf Jobs zugewiesen.

  • Automatisieren Sie Jobs mit ereignisbasierten Triggern — Starten Sie Crawler oder AWS Glue Jobs mit ereignisbasierten Triggern und Entwerfen einer Kette von abhängigen Jobs und Crawlern.

  • Jobs ausführen und überwachen — Ausführen AWS Glue Jobs mit Engine Ihrer Wahl, Spark oder Ray. Überwachen Sie sie mit automatisierten Überwachungstools, AWS Glue Einblicke in die Auftragsausführung und AWS CloudTrail. Verbessern Sie Ihre Überwachung von Spark-gestützten Aufträgen mit der Apache-Spark-Benutzeroberfläche.

  • Definieren Sie Workflows für ETL und Integrationsaktivitäten — Definieren Sie Workflows ETL und Integrationsaktivitäten für mehrere Crawler, Jobs und Trigger.

Erfahren Sie mehr über Innovationen in AWS Glue

Erfahren Sie mehr über die neuesten Innovationen AWS Glue und erfahren Sie, wie Kunden AWS Glue die Self-Service-Datenaufbereitung in ihrem gesamten Unternehmen nutzen.

Erfahren Sie, wie Kunden AWS Glue über das herkömmliche Setup hinaus skalieren und wie sie AWS Glue die Auftragsüberwachung und Leistung konfigurieren.

Erste Schritte mit AWS Glue

Wir empfehlen Ihnen, dass Sie mit den folgenden Abschnitten beginnen:

Zugriff AWS Glue

Sie können Ihre erstellen, anzeigen und verwalten AWS Glue Jobs mit den folgenden Schnittstellen:

  • AWS Glue Konsole — Bietet eine Weboberfläche, über die Sie Ihre erstellen, anzeigen und verwalten können AWS Glue Jobs. Informationen zum Zugriff auf die Konsole finden Sie unter AWS Glue.

  • AWS Glue Studio— Bietet eine grafische Oberfläche, über die Sie Ihre erstellen und bearbeiten können AWS Glue Jobs visuell. Weitere Informationen finden Sie unter Visuelle ETL Jobs erstellen mit AWS Glue Studio.

  • AWS Glue Abschnitt der AWS CLI Referenz — Enthält AWS CLI Befehle, die Sie verwenden können mit AWS Glue. Weitere Informationen finden Sie unter AWS CLI Referenz für AWS Glue.

  • AWS Glue API— Bietet eine vollständige API Referenz für Entwickler. Weitere Informationen finden Sie unter AWS Glue API.

Nutzer von AWS Glue verwenden auch:

  • AWS Lake Formation— Ein Dienst, bei dem es sich um eine Autorisierungsebene handelt, die eine differenzierte Zugriffskontrolle auf Ressourcen in der AWS Glue Data Catalog.

  • AWS Glue DataBrew— Ein visuelles Datenvorbereitungstool, mit dem Sie Daten bereinigen und normalisieren können, ohne Code schreiben zu müssen.