Entwurf eines Data Lake für Wachstum und Skalierung auf derAWS Cloud

Wei Shao, Amazon Web Services (AWS)

Oktober 2021 (Dokumentenhistorie)

Organizations entwerfen und bauen im Rahmen ihrer Datenmodernisierungsstrategie zunehmend Data Lakes in der Amazon Web Services (AWS) Cloud. Data Lakes können Repositorys sein, die Ihre strukturierten und unstrukturierten Daten in beliebiger Größenordnung speichern und sie einer Vielzahl interner und externer Benutzer zur Verfügung stellen.

Es kann jedoch viel Zeit und Mühe kosten, Daten in Data Lakes aufzunehmen, die Ihren wachsenden geschäftlichen Anwendungsfällen gerecht werden. Um die Kosten zu senken und den Wert zu maximieren, der aus den Daten generiert wird, planen viele Unternehmen eine einmalige Aufnahme von Daten in ihren Data Lake und die anschließende Nutzung dieser Daten mehrfach. Die Entwicklung einer Data-Lake-Architektur, die mit der Datenproduktion, der gemeinsamen Nutzung und dem Datenverbrauch skaliert, ist entscheidend, um den Beteiligten im Unternehmen einen Mehrwert zu bieten, wenn Ihr Data Lake wächst.

Eine skalierbare Data Lake-Architektur bietet Ihrem Unternehmen eine solide Grundlage, um Wert aus Ihrem Data Lake zu ziehen und gleichzeitig mehr Daten in ihn einzubringen. Durch die kontinuierliche Gewinnung von Dateneinblicken, ohne aufgrund von Skalierbarkeitseinschränkungen verlangsamt oder unterbrochen zu werden, hilft ein skalierbarer Data Lake Ihrem Unternehmen auch, wettbewerbsfähig zu bleiben.

In der Regel hat ein Data Lake Datenproduzenten und Datenkonsumenten. Datenproduzenten schaffen Datenbestände, indem sie Daten aus ihrer Datendomäne sammeln, verarbeiten und speichern. Diese kollektiven Datenbestände bilden den Inhalt Ihres Data Lake. Datenproduzenten können sich dafür entscheiden, ihre Datenbestände selektiv mit den Datenverbrauchern des Data Lake zu teilen.

Datenkonsumenten benötigen die Daten der Datenproduzenten, um ihre geschäftlichen Anwendungsfälle zu erfüllen, und können diese Daten gelegentlich auch mit ihren eigenen Daten kombinieren. Datenproduzenten und Datenkonsumenten sind in der Regel, aber nicht immer, Teil Ihres Unternehmens. Wichtig ist, dass sie beide gleichzeitig Datenproduzenten oder Datenkonsumenten sein können.

Eine skalierbare Data Lake-Architektur hilft Ihnen, die folgenden Ergebnisse zu erzielen:

Integrieren Sie Datenproduzenten in großem Umfang, ohne dass sie den gesamten Datenaustauschprozess aufrechterhalten müssen. Dies hilft Datenproduzenten, ihre Daten in den Data Lake zu integrieren und sich auf das Sammeln, Verarbeiten und Speichern von Daten aus ihrer Datendomäne zu konzentrieren.
Ermöglichen Sie Datenverbrauchern den Zugriff auf Daten von mehreren Datenproduzenten, ohne Ihre Gesamtkosten und Ihren Verwaltungsaufwand zu erhöhen.

Dieser Leitfaden beschreibt die häufigsten Skalierungsherausforderungen, die auftreten können, wenn Unternehmen ihren Data Lake erweitern, stellt eine Data Lake-Referenzarchitektur bereit und skizziert Ansätze für das Onboarding und die Gewährung von Zugriff für Datenproduzenten und Datenverbraucher. Die Data Lake-Referenzarchitektur in diesem Handbuch nutzt die verschiedenen Funktionen und Funktionen von AWS Lake Formation. Der Leitfaden richtet sich an Teams, die für die Gestaltung von Data Lakes auf der Website verantwortlich sindAWS Cloud, darunter Unternehmensdatenarchitekten, Datenplattformarchitekten, Designer oder Data Domain Leads.

Gezielte Geschäftsergebnisse

Nach dem Entwurf eines Data Lake für Wachstum und Skalierung auf dem sollten Sie mit den folgenden drei Ergebnissen rechnenAWS Cloud:

Senken Sie die Kosten für den Datenaustausch und den Datenverbrauch in mehreren Geschäftsbereichen Ihres Unternehmens.
Ein sicherer und konsistenter Ansatz, der Ihrem Unternehmen hilft, externe Datenproduzenten einzubeziehen und Daten mit ihnen in Ihrem Data Lake zu teilen.
Gewinnen Sie kontinuierlich Dateneinblicke, ohne aufgrund von Skalierbarkeitseinschränkungen verlangsamt oder unterbrochen zu werden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Häufig auftretende Herausforderungen bei der Skalierung