Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Options et comportement du stockage des instances dans Amazon EMR
Présentation
Le stockage d’instances et de volumes Amazon EBS est utilisé pour les données HDFS et pour les tampons, les caches, les données scratch et d’autres contenus temporaires que certaines applications peuvent « déborder » sur le système de fichiers local.
Amazon EBS fonctionne différemment au sein d'Amazon EMR par rapport aux instances Amazon EC2 classiques. Les volumes Amazon EBS attachés aux clusters Amazon EMR sont éphémères : ils sont supprimés à l’arrêt du cluster et de l’instance (par exemple, lors de la réduction des groupes d’instances). Ne vous attendez donc pas à ce que les données soient conservées. Les données sont éphémères sur ces volumes, mais il est possible que les données dans HDFS soient répliquées selon le nombre et la spécialisation des nœuds du cluster. Lorsque vous ajoutez des volumes de stockage Amazon EBS EBS, ils sont montés en tant que volumes supplémentaires. Ils ne font pas partie du volume racine. YARN est configuré pour utiliser tous les volumes supplémentaires, mais vous êtes responsable de l’allocation des volumes supplémentaires en tant que stockage local (comme pour les fichiers journaux locaux).
Considérations
Tenez compte des éléments supplémentaires suivants lorsque vous utilisez Amazon EBS avec des clusters EMR :
-
Vous ne pouvez pas prendre un instantané d'un volume Amazon EBS, puis le restaurer dans Amazon EMR. Pour créer des configurations personnalisées réutilisables, choisissez une AMI personnalisée (disponible dans Amazon EMR version 5.7.0 et ultérieure). Pour de plus amples informations, veuillez consulter Utilisation d'une AMI personnalisée pour apporter plus de flexibilité à la configuration du cluster Amazon EMR.
-
Un volume de périphérique racine Amazon EBS chiffré n'est pris en charge que lors de l'utilisation d'une AMI personnalisée. Pour de plus amples informations, veuillez consulter Création d'une AMI personnalisée avec un volume de périphérique racine Amazon EBS chiffré.
-
Si vous appliquez des balises à l'aide de l'API Amazon EMR, ces opérations sont appliquées aux volumes EBS.
-
Il y a une limite de 25 volumes par instance.
-
Les volumes Amazon EBS sur les nœuds principaux ne peuvent pas être inférieurs à 5 Go.
-
Amazon EBS a une limite fixe de 2 500 volumes EBS par demande de lancement d'instance. Cette limite s'applique également à Amazon EMR sur les EC2 clusters. Nous vous recommandons de lancer des clusters dont le nombre total de volumes EBS se situe dans cette limite, puis d'augmenter manuellement le cluster ou d'utiliser le dimensionnement géré par Amazon EMR selon les besoins. Pour en savoir plus sur la limite de volume EBS, consultez la section Quotas de service.
Stockage Amazon EBS par défaut pour les instances
Pour les EC2 instances dotées d'un stockage EBS uniquement, Amazon EMR alloue des volumes de stockage Amazon EBS gp2 ou gp3 aux instances. Lorsque vous créez un cluster avec Amazon EMR 5.22.0 et versions ultérieures, le volume de stockage Amazon EBS par défaut augmente en fonction de la taille de l’instance.
Les augmentations de stockage sont fractionnées sur plusieurs volumes. Cela permet d’augmenter les performances IOPS et, par conséquent, les performances de certaines charges de travail standardisées. Si vous souhaitez utiliser une configuration de stockage d’instance Amazon EBS différente, vous pouvez le spécifier lorsque vous créez un cluster EMR ou lorsque vous ajoutez des nœuds à un cluster existant. Vous pouvez uniquement utiliser les volumes Amazon EBS gp2 ou gp3 comme volumes racines et ajouter des volumes gp2 ou gp3 comme volumes supplémentaires. Pour de plus amples informations, veuillez consulter Spécification de volumes de stockage EBS supplémentaires.
Le tableau suivant indique le nombre par défaut de volumes de stockage Amazon EBS gp2, les tailles et les tailles totales par type d'instance. Pour plus d’informations sur les différences entre les volumes gp2 et gp3, voir la rubrique Comparaison des types de volumes Amazon EBS gp2 et gp3.
Taille d’instance | Nombre de volumes | Taille du volume (Gio) | Total Taille (Gio) |
---|---|---|---|
*.large |
1 |
32 |
32 |
*.xlarge |
2 |
32 |
64 |
*.2xlarge |
4 |
32 |
128 |
*.4xlarge |
4 |
64 |
256 |
*.8xlarge |
4 |
128 |
512 |
*.9xlarge |
4 |
144 |
576 |
*.10xlarge |
4 |
160 |
640 |
*.12xlarge |
4 |
192 |
768 |
*.16xlarge |
4 |
256 |
1 024 |
*.18xlarge |
4 |
288 |
1 152 |
*.24xlarge |
4 |
384 |
1 536 |
Volume racine Amazon EBS par défaut pour les instances
Avec les versions 6.15 et supérieures d'Amazon EMR, Amazon EMR connecte automatiquement un SSD Amazon EBS General Purpose (gp3) comme périphérique racine afin d'améliorer ses performances. AMIs Dans les versions antérieures, Amazon EMR attache le SSD à usage général EBS (gp2) comme périphérique racine.
6.15 et versions ultérieures | 6.14 et versions antérieures | |
---|---|---|
Type de volume racine par défaut |
|
|
Taille par défaut |
|
|
IOPS par défaut |
|
|
Débit par défaut |
|
Pour plus d’informations sur la personnalisation du volume du périphérique racine Amazon EBS, voir la rubrique Spécification de volumes de stockage EBS supplémentaires.
Spécification de volumes de stockage EBS supplémentaires
Lorsque vous configurez des types d'instances dans Amazon EMR, vous pouvez spécifier des volumes EBS supplémentaires pour ajouter de la capacité au-delà du stockage d'instances (le cas échéant) et du volume EBS par défaut. Amazon EBS fournit les types de volumes suivants : à usage général (SSD), IOPS provisionnés (SSD), optimisé pour le débit (HDD), à froid (HDD) et magnétique. Ils se distinguent par leurs performances et leur prix, ce qui vous permet d’adapter votre stockage en fonction des besoins opérationnels et d’analyse de vos applications. Par exemple, certaines applications peuvent avoir besoin de « déborder » sur le disque, tandis que d’autres peuvent travailler en toute sécurité dans la mémoire ou à l’aide d’Amazon S3.
Vous ne pouvez attacher des volumes Amazon EBS aux instances qu'au moment du démarrage du cluster et lorsque vous ajoutez un groupe d'instances de nœuds de tâches supplémentaires. Si une instance d'un cluster Amazon EMR échoue, l'instance et les volumes Amazon EBS attachés sont remplacés par de nouveaux volumes. Par conséquent, si vous détachez manuellement un volume Amazon EBS, Amazon EMR traite cela comme une défaillance et remplace le stockage d'instance (le cas échéant) et les stockages de volume.
Amazon EMR ne vous permet pas de modifier le type de volume de gp2 à gp3 pour un cluster EMR existant. Pour utiliser un volume gp3 pour vos charges de travail, lancez un nouveau cluster EMR. En outre, nous vous déconseillons de mettre à jour le débit et les IOPS sur un cluster en cours d’utilisation ou de provisionnement, car Amazon EMR utilise les valeurs de débit et d’IOPS que vous avez spécifiées au moment du lancement du cluster pour toute nouvelle instance ajoutée lors de la mise à l’échelle du cluster. Pour plus d’informations, consultez Comparaison des types de volumes Amazon EBS gp2 et gp3 et Sélection des IOPS et du débit lors de la migration vers les types de volumes Amazon EBS gp3.
Important
Pour utiliser un volume gp3 avec votre cluster EMR, vous devez lancer un nouveau cluster.