Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Options et comportement du stockage des instances dans Amazon EMR
Présentation
Le stockage d'instance et EBS le stockage en volume Amazon sont utilisés pour les HDFS données et pour les tampons, les caches, les données temporaires et autres contenus temporaires que certaines applications peuvent « diffuser » dans le système de fichiers local.
Amazon EBS fonctionne différemment au sein EMR d'Amazon par rapport aux EC2 instances Amazon classiques. Les EBS volumes Amazon attachés aux EMR clusters Amazon sont éphémères : ils sont supprimés lors de la fermeture du cluster et de l'instance (par exemple, lors de la réduction des groupes d'instances). Vous ne devez donc pas vous attendre à ce que les données persistent. Bien que les données soient éphémères, il est possible que les données introduites soient répliquées en fonction du nombre et de la spécialisation des nœuds du cluster. HDFS Lorsque vous ajoutez des volumes EBS de stockage Amazon, ceux-ci sont montés en tant que volumes supplémentaires. Ils ne font pas partie du volume de démarrage. YARNest configuré pour utiliser tous les volumes supplémentaires, mais vous êtes responsable de leur allocation en tant que stockage local (pour les fichiers journaux locaux, par exemple).
Considérations
Tenez compte de ces considérations supplémentaires lorsque vous utilisez Amazon EBS avec des EMR clusters :
-
Vous ne pouvez pas créer un instantané d'un EBS volume Amazon puis le restaurer dans AmazonEMR. Pour créer des configurations personnalisées réutilisables, utilisez une configuration personnalisée AMI (disponible dans Amazon EMR version 5.7.0 et versions ultérieures). Pour de plus amples informations, veuillez consulter Utilisation d'une option personnalisée AMI pour offrir plus de flexibilité à la configuration EMR du cluster Amazon.
-
Un volume d'appareil EBS racine Amazon chiffré n'est pris en charge que lors de l'utilisation d'un volume personnaliséAMI. Pour de plus amples informations, veuillez consulter Création d'un volume personnalisé AMI avec un volume d'appareil EBS racine Amazon crypté.
-
Si vous appliquez des balises à l'aide d'Amazon EMRAPI, ces opérations sont appliquées aux EBS volumes.
-
Il y a une limite de 25 volumes par instance.
-
Les EBS volumes Amazon sur les nœuds principaux ne peuvent pas être inférieurs à 5 Go.
-
Amazon EBS a une limite fixe de 2 500 EBS volumes par demande de lancement d'instance. Cette limite s'applique également à Amazon EMR sur les EC2 clusters. Nous vous recommandons de lancer des clusters dont le nombre total de EBS volumes se situe dans cette limite, puis d'augmenter manuellement le cluster ou de le faire dimensionner manuellement EMR par Amazon selon les besoins. Pour en savoir plus sur la limite de EBS volume, consultez la section Quotas de service.
EBSStockage Amazon par défaut pour les instances
Pour les EC2 instances dotées d'un stockage EBS uniquement, Amazon EMR alloue des volumes de stockage EBS Amazon gp2 ou gp3 aux instances. Lorsque vous créez un cluster avec les EMR versions 5.22.0 ou supérieures d'Amazon, la quantité de EBS stockage Amazon par défaut augmente en fonction de la taille de l'instance.
Les augmentations de stockage sont fractionnées sur plusieurs volumes. Cela permet d'améliorer IOPS les performances et, par conséquent, les performances de certaines charges de travail standardisées. Si vous souhaitez utiliser une autre configuration de stockage d'EBSinstance Amazon, vous pouvez le spécifier lorsque vous créez un EMR cluster ou que vous ajoutez des nœuds à un cluster existant. Vous pouvez utiliser des volumes Amazon EBS gp2 ou gp3 comme volumes racines et ajouter des volumes gp2 ou gp3 en tant que volumes supplémentaires. Pour de plus amples informations, veuillez consulter Spécification de volumes EBS de stockage supplémentaires.
Le tableau suivant indique le nombre par défaut de volumes de stockage Amazon EBS gp2, les tailles et les tailles totales par type d'instance. Pour plus d’informations sur les différences entre les volumes gp2 et gp3, voir la rubrique Comparaison des types de EBS volumes Amazon gp2 et gp3.
Taille d’instance | Nombre de volumes | Taille du volume (Gio) | Total Taille (Gio) |
---|---|---|---|
*.large |
1 |
32 |
32 |
*.xlarge |
2 |
32 |
64 |
*.2xlarge |
4 |
32 |
128 |
*.4xlarge |
4 |
64 |
256 |
*.8xlarge |
4 |
128 |
512 |
*.9xlarge |
4 |
144 |
576 |
*.10xlarge |
4 |
160 |
640 |
*.12xlarge |
4 |
192 |
768 |
*.16xlarge |
4 |
256 |
1 024 |
*.18xlarge |
4 |
288 |
1 152 |
*.24xlarge |
4 |
384 |
1 536 |
Volume EBS racine Amazon par défaut pour les instances
Avec les EMR versions 6.15 et supérieures d'Amazon, Amazon associe EMR automatiquement un Amazon EBS General Purpose SSD (gp3) comme périphérique racine afin d'améliorer ses AMIs performances. Dans les versions précédentes, Amazon EMR EBS associait General Purpose SSD (gp2) comme périphérique racine.
6.15 et versions ultérieures | 6.14 et versions antérieures | |
---|---|---|
Type de volume racine par défaut |
|
|
Taille par défaut |
|
|
Par défaut IOPS |
|
|
Débit par défaut |
|
Pour plus d'informations sur la personnalisation du volume de l'appareil EBS racine Amazon, consultezSpécification de volumes EBS de stockage supplémentaires.
Spécification de volumes EBS de stockage supplémentaires
Lorsque vous configurez des types d'instances dans AmazonEMR, vous pouvez spécifier des EBS volumes supplémentaires pour ajouter de la capacité au-delà du magasin d'instances (le cas échéant) et du EBS volume par défaut. Amazon EBS fournit les types de volumes suivants : General Purpose (SSD), Provisioned IOPS (SSD), Throughput Optimized (HDD), Cold (HDD) et Magnetic. Ils se distinguent par leurs performances et leur prix, ce qui vous permet d’adapter votre stockage en fonction des besoins opérationnels et d’analyse de vos applications. Par exemple, certaines applications peuvent avoir besoin de « déborder » sur le disque, tandis que d’autres peuvent travailler en toute sécurité dans la mémoire ou à l’aide d’Amazon S3.
Vous ne pouvez associer des EBS volumes Amazon à des instances qu'au moment du démarrage du cluster et lorsque vous ajoutez un groupe d'instances de nœuds de tâches supplémentaire. Si une instance d'un EMR cluster Amazon échoue, l'instance et les EBS volumes Amazon attachés sont remplacés par de nouveaux volumes. Par conséquent, si vous détachez manuellement un EBS volume Amazon, Amazon EMR considère cela comme une défaillance et remplace à la fois le stockage d'instance (le cas échéant) et les magasins de volume.
Amazon EMR ne vous autorise pas à modifier le type de volume de gp2 à gp3 pour un cluster existantEMR. Pour utiliser gp3 pour vos charges de travail, lancez un nouveau EMR cluster. En outre, nous vous déconseillons de mettre à jour le débit IOPS sur un cluster en cours d'utilisation ou en cours de provisionnement, car Amazon EMR utilise le débit et les IOPS valeurs que vous spécifiez au moment du lancement du cluster pour toute nouvelle instance ajoutée lors de la mise à l'échelle du cluster. Pour plus d’informations, consultez Comparaison des types de EBS volumes Amazon gp2 et gp3 et Sélection IOPS et débit lors de la migration vers les types de volumes Amazon EBS gp3.
Important
Pour utiliser un volume gp3 avec votre EMR cluster, vous devez lancer un nouveau cluster.