Petabyte-Skala in Amazon Service OpenSearch - OpenSearch Amazon-Dienst

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Petabyte-Skala in Amazon Service OpenSearch

Amazon OpenSearch Service-Domains bieten angehängten Speicher von bis zu 10 PB. Sie können eine Domain mit 1000 OR1.16xlarge.search Instance-Typen mit jeweils 36 TB Speicher konfigurieren. Aufgrund des großen Unterschieds bei der Skalierung unterscheiden sich die Empfehlungen für Domänen dieser Größe von unseren allgemeinen Empfehlungen. In diesem Abschnitt werden Überlegungen bei der Erstellung von Domänen, Kosten, Speicher und Shard-Größe dargelegt.

In diesem Abschnitt wird zwar häufig auf die i3.16xlarge.search Instance-Typen verwiesen, Sie können jedoch auch mehrere andere Instance-Typen verwenden, um insgesamt 10 PB Domain-Speicher zu erreichen.

Domänen erstellen

Domänen dieser Größe überschreiten das Standardlimit von 80 Instanzen pro Domain. Um eine Erhöhung des Service-Limits um bis zu 1000 Instanzen pro Domain zu beantragen, eröffnen Sie einen Fall im AWS Support Center.

Preisgestaltung

Bevor Sie eine Domain dieser Größe erstellen, überprüfen Sie die Preisseite von Amazon OpenSearch Service, um sicherzustellen, dass die damit verbundenen Kosten Ihren Erwartungen entsprechen. Überprüfen Sie UltraWarm Speicher für Amazon OpenSearch Service darauf, ob eine Hot-Warm-Architektur zu Ihrem Anwendungsfall passt.

Speicher

Die i3 Instance-Typen sind so konzipiert, dass sie schnellen, lokalen, nichtflüchtigen Memory-Express-Speicher (NVMe) bereitstellen. Da dieser lokale Speicher im Vergleich zu Amazon Elastic Block Store tendenziell Leistungsvorteile bietet, sind EBS Volumes keine Option, wenn Sie diese Instance-Typen in OpenSearch Service auswählen. Wenn Sie EBS Speicher bevorzugen, verwenden Sie einen anderen Instance-Typ, z. r6.12xlarge.search B.

Shard-Größe und -Anzahl

Eine allgemeine OpenSearch Richtlinie lautet, 50 GB pro Shard nicht zu überschreiten. Aufgrund der Anzahl der Shards, die für große Domänen und die verfügbaren Ressourcen für i3.16xlarge.search-Instances erforderlich sind, empfehlen wir eine Shard-Größe von 100 GB.

Wenn Sie beispielsweise 450 TB Quelldaten haben und ein Replikat verwenden wollen, liegt Ihr minimaler Speicherbedarf nahe 450 TB * 2 * 1,1/0,95 = 1,04 PB. Eine Erklärung dieser Berechnung finden Sie unter Berechnung der Speicheranforderungen. Obwohl 1.04 PB / 15 TB = 70 Instances ergibt, sollten Sie 90 oder mehr i3.16xlarge.search Instances wählen, damit Sie eine Sicherheitsreserve, einen Deal mit Knotenfehlern haben und Abweichungen in der Datenmenge im Laufe der Zeit berücksichtigt werden. Von jeder Instance werden weitere 20 GiB zu den Mindestspeicheranforderungen hinzugefügt, aber bei Datenträgern dieser Größe sind 20 GiB nahezu vernachlässigbar.

Es ist schwierig, die Anzahl der Shards zu kontrollieren. OpenSearch Benutzer wechseln die Indizes häufig täglich und speichern Daten für ein oder zwei Wochen. In diesem Fall finden Sie es möglicherweise nützlich, zwischen "aktiven" und "inaktiven" Shards zu unterscheiden. Aktive Shards werden aktiv gelesen oder geschrieben. Inaktive Shards können einige Leseanforderungen bedienen, sind aber größtenteils im Leerlauf. Im Allgemeinen gilt, die Anzahl der aktiven Shards unten ein paar Tausend zu halten. Wenn sich die Anzahl der aktiven Shards 10.000 nähert, ist dies mit erheblichen Leistungs- und Stabilitätsrisiken verbunden.

Zum Berechnen der Anzahl der primären Shards verwenden Sie die folgende Formel: 450.000 GB * 1,1/100 GB pro Shard = 4,950 Shards. Eine Verdoppelung dieser Anzahl zur Berücksichtigung von Replikaten ergibt 9.900 Shards. Wenn alle Shards aktiv sind, stellt dies ein großes Problem dar. Wenn Sie jedoch die Indizes rotieren und nur 1/7 oder 1/14 der Shards an einem bestimmten Tag aktiv sind (1 414 bzw. 707 Shards), kann der Cluster gut funktionieren. Wie immer besteht der wichtigste Schritt bei der Dimensionierung und Konfiguration Ihrer Domäne darin, repräsentative Client-Tests unter Verwendung einer realistischen Datenmenge auszuführen.