View a markdown version of this page

Notes de mise à jour de l’Elastic Fabric Adapter - Amazon Elastic Compute Cloud

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Notes de mise à jour de l’Elastic Fabric Adapter

Le tableau suivant décrit l’historique des versions et le journal des modifications du logiciel Elastic Fabric Adapter.

Version Modifications Date de publication
1,48,0
  • Mise à niveau vers libfabric 2.4.0amzn3.0

    • Optimisation de la récupération des adresses shm dans les opérations RDM

    • Corrigez les bogues liés à l'utilisation après utilisation gratuite concernant la complétion des paquets DC, le drain CQ, les tests unitaires AH et la journalisation par résonance magnétique

    • Corriger les conditions de course dans efa_rdm_ep_get_peer et le verrouillage des QP

    • Corrige les tableaux de descripteurs non initialisés provoquant une erreur de segmentation avec FI_EFA_ENABLE_SHM_TRANSFER=0

    • Corrigez les fuites de mémoire dans fi_info, err_buf, la destruction de périphériques EFA et les tests unitaires

    • Ajoutez une vérification nulle pour base_ep dans le sondage CQ pour gérer les QP détruits

    • Définissez qp->base_ep dans efa_qp_create et renvoyez une erreur si efa_mr_reg_ibv_mr renvoie NULL

    • Déplacer la table QP d'un domaine vers un appareil avec un verrouillage au niveau de l'appareil

    • Ajoutez la génération de QP à l'ID de demande directe du chemin de données et vérifiez le numéro de QP sur CQE

    • Arrêtez de définir qp->ibv_qp_ex->wr_id pour le chemin de données direct

    • Supprimer correctement le fichier txe de la liste longcts_send une fois la réception terminée

    • Refactoriser et nettoyer efa_cq_handle_error

    • Convertissez les compteurs d'enregistrement IRM en opérations atomiques

    • Migrer le code d'enregistrement shm MR et introduire la fonction interne mr regv

    • Désactiver le cache MR par défaut sous ASAN

    • Désactivez zcpy_rx uniquement lorsque le p2p n'est pas disponible mais que FI_HMEM est demandé

    • Ne pas suivre le pool tx pkt pour une version sans débogage

    • Améliorer la procédure wait_send et les fonctions fictives

    • Régler les niveaux de journalisation pour efa-direct, CQ, err_data et efa_show_help

    • Définissez des macros de désinfection et désactivez les memhooks sous ASAN

    • Ajouter des tests unitaires pour ep enable, le chemin d'erreur et la gestion de la fin des erreurs

  • Mise à niveau vers libnccl-ofi 1.19.0

    • Correction d'une erreur dans la gestion des descripteurs dma-buf créés par dma-buf ROCm/HSA et ajout de la détection du support dma-buf lors de l'utilisation du runtime HSA sur les plateformes RoCM

    • Correction d'éventuelles fuites de mémoire

    • Génération de topologie NCCL fixe pour le GB200 dans les conteneurs Docker où les nœuds NUMA étaient déconnectés des nœuds Package provoquaient une génération de topologie incorrecte

    • Réduction de l'utilisation des QP sur la carte réseau 0 lors de l'initialisation

    • Choix d'algorithmes de tuner améliorés pour les types d' P6-B300 instances P6-B200 et les types d'instances

  • Support pour l'installation de libnccl-ofi sur les conteneurs NGC

  • Ajouter un support de vérification de signature de RPM/DEB package individuel

  • Ajouter le support pour RHEL 10

  • Ajouter le plugin OFI NCCL sur Debian 12 et RHEL 10

14 avril 2026
1,47,0
  • Mise à niveau vers libfabric 2.4.0amzn1.0

    • Refactoriser la gestion des pairs : déplacer le point de terminaison → le hashmap du pair au niveau AV

    • Ajouter un compteur de génération de paquets pour éviter le problème ABA

    • Implémenter le blocage du support de lecture CQ (fi_cq_sread) avec des objets d'attente

    • Correction d'une double élimination dans le traitement des paquets eager/mulreq /longread RTM

    • Corrigez les drapeaux d'accès IBV d'enregistrement MR en fonction des capacités RDMA de l'appareil

    • Désactiver FI_OPT_EFA_SENDRECV_IN_ORDER_ALIGNED_128_BYTES (renvoie -FI_EOPNOTSUPP)

    • Optimisation de la saisie des paquets pour les adapter à deux lignes de cache x86 (128 octets)

    • Succombez toujours efa_rdm_srx_start et faites glisser la fenêtre recv en cas d'erreur RTM/RTA

    • Dissociez les entrées de paquets RX avant de les libérer pendant le nettoyage du terminal

  • Mise à niveau vers libnccl-ofi 1.18.0

    • P6-B300 support : ajout de décisions de tuner personnalisées pour P6-B300

    • Amélioration des performances de l'activation du protocole PAT P6-B200 en réduisant le nombre de canaux pour les messages de plus petite taille

    • Modification des paramètres par défaut du protocole, protocole RDMA par défaut sur Trn1 et protocole SENDRECV par défaut sur g7e.8xlarge

    • Sélection dynamique de la plateforme : ajout d'une fonctionnalité permettant AWS des optimisations lors de l'exécution en fonction de la présence de AWS cartes réseau. Cela permet à un seul plugin binaire d'être utilisé à la fois pour les plateformes AWS et pour les AWS non-plateformes. AWS les optimisations peuvent toujours être désactivées au moment de la compilation.

    • Support fixe pour les fournisseurs non-FI_MR_Virt_Addr dans le protocole RDMA

    • Amélioration de la vitesse et de la largeur des liaisons PCIe NIC transmises au NCCL

    • Modèle de thread repensé pour prendre en charge les applications multithread sans nécessiter de domaine Libfabric distinct pour chaque thread.

    • Support fixe pour les fournisseurs FI_MR_ENDPOINT (supporte le protocole SENDRECV uniquement) en nettoyant les ressources dans le bon ordre

  • Mise à niveau vers rdma-core 61.0

    • Utilisez un CQ à thread unique si le domaine de thread a été fourni

    • Vérifiez le numéro QP sur les processus CQE

  • Mise à niveau vers le pilote efa 3.0.0

    • Améliorez la gestion des erreurs d'administration

    • Vérifiez l'exactitude du numéro QP à la fin du sondage

    • Supprimer le rétroportage inconditionnel de la recherche de la meilleure taille de page

    • Afficher les chaînes d'erreur pour les pointeurs d'erreur

    • Simplifier le code dans les flux de création CQ

    • Rétroportez les modifications en amont dans CQ avec le flux de création d'umem

    • Ajuster la configuration du DKMS pour les nouvelles versions du DKMS

  • Mise à niveau vers Open MPI 5.0.9amzn1

    • Correction : définir le niveau de thread du domaine en fonction de la prise en charge des threads MPI

    • Correctif : demandez l'indicateur FI_COMPLETION pour vous assurer que des complétions sont générées pour tous les événements de transfert de données

    • Partagez des domaines entre BTL et MTL afin de réduire le nombre total de domaines créés pour remédier à l'épuisement des ressources sur les systèmes dotés d'un nombre élevé de cœurs

29 janvier 2026
1.46,0
  • Ajouter le support pour Debian 13

  • Mise à niveau vers efa-nv-peermem 1.2.3

    • Corrigez les erreurs de compilation et les avertissements avec les nouveaux noyaux et DKMS

  • Mise à niveau vers libfabric 2.3.1amzn4.0

    • Activer le chemin de données direct pour le chemin du protocole efa-rdm

    • Activer le support RoCR HMEM

    • Nouvelle option FI_OPT_EFA_USE_UNSOLICITED_WRITE_RECV pour désactiver l'écriture recv non sollicitée

    • Optimisez le temps d'établissement de la connexion

  • Ajouter libnccl-ofi sur RHEL 9, Rocky Linux 9 et Debian 13

12 décembre 2025
1,45.1
  • Mise à niveau vers libfabric 2.3.1amzn3.0

    • Correction d'un bogue qui tronquait cq_data à 2 octets alors que le fournisseur annonçait un support de 4 octets

26 novembre 2025
1,45,0
  • Mise à niveau vers rdma-core 60.amzn0

    • Étendre la requête DV CQ pour renvoyer la sonnette

  • Mise à niveau vers libfabric 2.3.1amzn2.0

    • Support du mode FI_RX_CQ_DATA pour efa-direct

    • Optimisation de la publication WQE dans le chemin de données (chemin direct)

    • Corrigez les conditions de course dans le CNTR Progress

    • Améliorer la journalisation des messages d'avertissement

    • Gère correctement l'achèvement du RMA pour les pairs supprimés

    • Expulser les entrées AH de l'AV implicite lorsque la limite AH est atteinte

  • Mise à niveau vers libnccl-ofi 1.17.2

    • Correction d'un crash avec NCCL v2.28.x lorsque l'initialisation de Libfabric échouait

    • Ajout du support pour la famille d'instances g7e

    • Correction d'un problème à cause duquel NCCL pouvait tenter par erreur d'utiliser un chemin RDMA GPUDirect sur les plateformes compatibles DMA-BUF

    • Correction d'un problème d'ordre d'arrêt sur les cartes réseau qui nécessitent un enregistrement de la mémoire par point de terminaison (Cray Slingshot)

17 novembre 2025
1,44,0
  • Mise à niveau vers rdma-core 59.amzn0

    • Ajout d’un support pour lier les QP et les CQ aux domaines de thread

    • Ajout d’un support pour allouer un domaine parent

    • Ajout d’un support pour allouer des domaines de thread

    • Ajout de « direct verbs » pour interroger QP et CQ

    • Ajout d’une option pour créer un CQ avec une mémoire externe

    • Correction du sondage CQ après la destruction de QP

  • Mise à niveau vers libfabric 2.3.1amzn1.0

  • Mise à niveau vers Open MPI 5.0.8amzn1

    • Amélioration des fonctionnalités

    • Correctifs de bogues

  • Mise à niveau vers libnccl-ofi 1.17.1

    • Supporte NCCL v2.28.3-1 tout en maintenant la rétrocompatibilité avec NCCL v2.17.1 et versions ultérieures.

    • La compilation avec platform-aws nécessite Libfabric v1.22.0amzn4.0 ou une version ultérieure. Testé avec des versions antérieures à Libfabric v2.3.1amzn1.0.

    • Correctifs pour assurer la compatibilité entre CUDA12 et CUDA13.

29 octobre 2025
1,43,3
  • Mise à niveau vers le pilote efa 2.17.3

    • Support P2P avec les pilotes NVIDIA 580

    • Ajustement de l’enregistrement MR pour 6.17 et sur les noyaux

01 octobre 2025
1,43,2
  • Mise à niveau vers libnccl-ofi 1.16.3

    • Supporte NCCL v2.27.7-1 tout en maintenant la rétrocompatibilité avec NCCL v2.17.1 et versions ultérieures.

    • La compilation avec platform-aws nécessite Libfabric v1.22.0amzn4.0 ou une version ultérieure. Testé avec les versions jusqu’à Libfabric 2.1.0amzn5.0.

    • Activez le domaine par thread par défaut sur tous les types d’instances Amazon EC2 pour améliorer les performances de certaines applications dans lesquelles NCCL crée plusieurs threads proxy

15 août 2025
1.43.1
  • Mise à niveau vers libnccl-ofi 1.16.2

    • Supporte NCCL v2.27.6-1 tout en maintenant la rétrocompatibilité avec NCCL v2.17.1 et versions ultérieures.

    • La compilation avec platform-aws nécessite Libfabric v1.22.0amzn4.0 ou une version ultérieure. Testé avec les versions jusqu’à Libfabric 2.1.0amzn4.0.

    • Ajout d’une nouvelle configuration de plateforme pour prendre en charge l’utilisation du plug-in OFI NCCL sur le type d’instance Amazon EC2 p5.4xlarge

  • Mise à niveau vers libfabric 2.1.0amzn5.0

31 juillet 2025
1,43,0
  • Mise à niveau vers libnccl-ofi 1.16.1

    • Supporte NCCL v2.27.6-1 tout en maintenant la rétrocompatibilité avec NCCL v2.17.1 et versions ultérieures.

    • La compilation avec platform-aws nécessite Libfabric v1.22.0amzn4.0 ou une version ultérieure. Testé avec les versions jusqu’à Libfabric 2.1.0amzn3.

    • Mettez à jour le format de vitesse de liaison PCI indiqué dans le fichier de topologie pour qu’il corresponde à la version 5.7+ du noyau

    • Ajout de SKIP_NICS_WITHOUT_ACCEL_AT_SAME_PCI_LEVEL pour ignorer les cartes d’interface réseau libfabric qui n’ont pas d’accélérateur au même niveau PCI

  • Mise à niveau vers le pilote efa 2.17.2

  • Mise à niveau vers efa-nv-peermem 1.2.2

  • Mise à niveau vers libfabric 2.1.0amzn4.0

  • Mise à niveau vers rdma-core 58.amzn0

    • Correction de la double utilisation de l’index des demandes de travail

    • Ajout de la longueur WQE au point de trace post_send

  • Activation des optimisations pour les plateformes Graviton

  • Suppression de la prise en charge d’Ubuntu 20.04

25 juillet 2025
1.42.0
  • Mise à niveau vers le pilote efa 2.15.3

  • Mise à niveau vers efa-nv-peermem 1.2.1

  • Mise à niveau vers rdma-core 57.amzn1

    • Correction de la double utilisation de l’index des demandes de travail

  • Mise à niveau vers libfabric 2.1.0amzn3.0

  • Mise à niveau vers libnccl-ofi 1.15.0

    • Supporte NCCL v2.26.6-1 tout en maintenant la rétrocompatibilité avec NCCL v2.17.1 et versions ultérieures.

    • La compilation avec platform-aws nécessite Libfabric v1.22.0amzn4.0 ou une version ultérieure. Testé avec les versions jusqu’à Libfabric 2.1.0amzn3.

    • Support du système et de la plateforme de compilation

      • Ajout de la prise en charge de la plateforme Amazon EC2 P6-B200

      • Le nom de la bibliothèque de plug-ins par défaut a été remplacé par libnccl-net-ofi.so et, par défaut, un lien symbolique a été créé entre libnccl-net-ofi.so et libnccl-net.so afin de maintenir la rétrocompatibilité. Cela permet aux utilisateurs de définir NCCL_NET_PLUGIN=OFI pour forcer NCCL à utiliser le plug-in OFI pour communiquer. Si vous spécifiez --disable-nccl-net-symlink à configurer, le lien symbolique sera ignoré, ce qui permettra d’installer plusieurs plug-ins dans le même conteneur.

    • Améliorations de réglages et de performances

      • Ajout de la prise en charge du tuner sur P6-B200 AllReduce AllGather, et des ReduceScatter régions pour les masques de bits 0x0 et 0x7

      • Latence par défaut mise à jour pour P5en et les P6-B200 plateformes sur la base de résultats empiriques et d'analyses

    • Mise à jour pour utiliser l’API NCCL v10 avec la prise en charge du paramètre trafficClass pour la priorisation postérieure du trafic

    • Migration de la base de code du plug-in de C à C++

    • Ajout de la prise en charge des tâches où le nombre de cartes réseau par GPU est différent d’un système à l’autre. Consultez la documentation des variables d’environnement d’exécution OFI_NCCL_FORCE_NUM_RAILS pour plus d’informations.

6 juin 2025
1,41,0
  • Mise à niveau vers rdma-core 57.amzn0

16 mai 2025
1.40.0
  • Mise à niveau vers libfabric 2.1.0amzn2.0

  • Mise à niveau vers rdma-core 56.0

  • Mise à niveau vers efa-config 1.18.

  • Suppression de la prise en charge de Debian 10

  • Mise à niveau vers libnccl-ofi 1.14.2

  • Activation du support CUDA dans Libfabric sur ARM pour Ubuntu et Amazon Linux 2023

  • Ajout de libnccl-ofi sur ARM pour Ubuntu et Amazon Linux 2023

2 mai 2025
1.39.0
  • Mise à niveau vers libfabric 2.1.0

  • Mise à niveau vers Open MPI 5.0.6

  • Mise à niveau vers libnccl-ofi 1.14.1

  • Mise à niveau vers le pilote efa 2.15.0

16 avril 2025
1,38,1
  • Mises à jour vers la version Libfabric 1.22.0amzn5.0

3 mars 2025
1,38,0
  • Addition libnccl-ofi 1.13.2-1

8 janvier 2025
1.37.0
  • Mise à niveau vers la version libfabric 1.22.0amzn4.0

  • Mise à niveau vers la version rdma-core 54.amzn0

18 novembre 2024
1,36,0
  • Ajout du support pour Debian 12

  • Distribution de efa_test.sh en tant que script utilitaire dans /opt/amazon/efa/bin

  • Mise à niveau vers le pilote efa 2.13.0

  • Mise à niveau vers la version libfabric 1.22.0amzn3.0

  • Mise à niveau vers la version rdma-core 54.0

  • Mise à niveau vers Open MPI 4.1.7

7 novembre 2024
1.35.0
  • Mise à niveau vers Open MPI 5.0.5

  • Mise à niveau vers PRRTE 3.0.6 et renommage du package RPM en prrte-aws

  • Renommage du package RPM OpenPMIx en pmix-aws

  • Configurer les options de compilation pour les compilations dpkg et RPM

  • Mise à niveau vers la version Libfabric 1.22.0amzn2.0

  • Mise à niveau vers le pilote efa 2.12.1

14 octobre 2024
1,34,0
  • Suppression du support pour CentOS 7 et RHEL 7

  • Ingestion de Libfabric 1.22.0amzn1.0

  • Mise à jour du package efa-config vers la version 1.17

6 août 2024
1,33,0
  • Mise à niveau vers le pilote efa 2.10.0

  • Mise à niveau vers la version rdma-core 52.0

  • Mise à niveau vers PRRTE 3.0.5

  • Mise à niveau vers Open MPI 5.0.3

  • Ajout de la prise en charge d’Ubuntu 24.04 LTS

  • Suppression de la documentation HTML d’OpenPMIX, PRRTE et Open MPI. Les utilisateurs doivent se référer au site Web officiel.

  • Suppression du support pour Open SuSE 15.4 ou version antérieure

20 juin 2024
1.32.0
  • Mise à niveau vers le pilote efa 2.8.0

  • Mise à niveau vers le pilote efa-nv-peermem 1.1.1

  • Mise à niveau du package efa-config vers la version 1.16

  • Mise à niveau vers le package efa-profile 1.7

  • Mise à niveau vers la version rdma-core 50.0

  • Mise à niveau vers la version libfabric 1.21.0amzn1.0

  • Amélioration de efa_test.sh avec la sélection des ports fi_pingpong

  • Installation du nouveau rdma-core depuis le système si nécessaire

18 avril 2024
1,31,0
  • Mise à niveau vers OpenPMIx 4.2.8

  • Mise à niveau vers PRRTE 3.0.3

  • Mise à niveau vers Open MPI 5.0.2 et conversion des composants MCA vers DSO.

  • Mise à niveau vers la version Libfabric 1.20.1amzn1.0

07 mars 2024
1.30.0
  • Inclusion d’OpenPMIx 4.2.7, installé par défaut dans /opt/amazon/pmix

  • Inclusion de PRRTE 3.0.2, installé par défaut dans /opt/amazon/prrte

  • Inclusion d’Open MPI 5.0.0, installé par défaut dans /opt/amazon/openmpi5

  • Mise à jour d’efa-profile vers la version 1.6

Décembre 2023
1.29.1
  • Ingestion de libfabric 1.19.0amzn4.0

Décembre 2023
1.29.0
  • Ingestion du pilote de noyau efa 2.6.0

  • Ingestion de libfabric 1.19.0amzn3.0

Novembre 2023
1.28.0
  • Mise à niveau d’Open MPI vers la version 4.1.6

  • Ingestion de libfabric 1.19.0amzn2.0

Octobre 2023
1.27.0
  • Ajout de Libfabric 1.19.0amzn1.0 au programme d’installation

  • Activation des atomiques intégrées de GCC pour Open MPI 4

Septembre 2023
1,26,1
  • efa_test.sh : correction d’un bug relatif aux tentatives infinies

Septembre 2023
1.26.0
  • Ajout de la prise en charge de RHEL 9

  • Correction de la version de débogage sur plusieurs distributions

  • Ingestion de libfabric 1.18.2amzn1.0

  • efa_test.sh : ajout du réessai pour fi_pingpong

Septembre 2023
1.25.1
  • Ingestion de libfabric 1.18.1amzn1.0

  • Mise à jour des délais d’expiration dans les scripts d’installation EFA

Septembre 2023
1.25.0
  • Ajouter le support pour Amazon Linux 2023

  • Correction d’un bogue lors du test post-installation

Juillet 2023
1.24.1
  • Mise à niveau vers libfabric 1.18.1

  • Mise à niveau du pilote efa vers la version 2.5.0

Juillet 2023
1.24.0
  • Ingestion de rdma-core 46.0

  • Ingestion du pilote efa 2.4.1

  • Prise en charge de Debian 11

Juin 2023
1.23.1
  • Ingestion de libfabric 1.18.0amzn2.0

Juin 2023
1.23.0
  • Ajout du support pour Debian 10

  • Abandon de la prise en charge d’Ubuntu 18.04 LTS

  • Mise à niveau du package efa-config vers la version 1.14

  • Ingestion de libfabric 1.18.0amzn1.0

Mai 2023
1.22.1
  • Mise à niveau vers libfabric 1.17.1

Mars 2023
1.22.0
  • Mise à niveau d’Open MPI vers la version 4.1.5

  • Mise à niveau vers libfabric 1.17.0

  • Mise à niveau du package efa-config vers la version 1.13

Février 2023
1.21.0
  • Ajout du support pour le système d’exploitation Rocky Linux 9

  • Ingestion du pilote efa 2.1.1

  • Ingestion de libfabric 1.16.1amzn3.0

  • Mise à niveau du package efa-config vers la version 1.12

Décembre 2022
1.20.0
  • Ajout du support pour le système d’exploitation Rocky Linux 8.

  • Ingestion du pilote efa 2.1.0

  • Ingestion de rdma-core 43.0.

  • Ingestion de libfabric 1.16.1amzn1.0

Novembre 2022
1.19.0
  • Ingestion de libfabric 1.16.0

  • Compilation d’Open MPI avec --enable-orterun-prefix-by-default

Octobre 2022
1.18.0
  • Ajouter un support pour Ubuntu22.04

Août 2022
1.17.3
  • Mise à jour de libfabric vers la version 1.16.0~amzn4.0. Le ~ indique qu’il s’agit d’une version préliminaire de libfabric 1.16.0.

  • Prolongation du délai d’expiration du test de pingpong postinstallation à 20 secondes

Août 2022
1.17.2
  • Mise à jour de libfabric vers la version 1.16.0~amzn3.0. Le ~ indique qu’il s’agit d’une version préliminaire de libfabric 1.16.0.

juillet 2022
1.17.1
  • Mise à jour de libfabric vers la version 1.16.0~amzn2.0. Le ~ indique qu’il s’agit d’une version préliminaire de libfabric 1.16.0.

  • Désactivation du fournisseur réseau expérimental lors de la compilation de libfabric

juillet 2022
1.17.0
  • Mise à jour de rdma-core vers la version 41.0

  • Mise à jour d’Open MPI vers la version 4.1.4

  • Mise à jour de libfabric vers la version 1.16.0~amzn1.0. Le ~ indique qu’il s’agit d’une version préliminaire de libfabric 1.16.0.

juillet 2022
1.16.0
  • Mise à jour de libfabric vers la version 1.15.1amzn1.0, qui contient le changement de nom de la bibliothèque neuronale

  • Mise à jour de efa-config vers la version 1.10

  • Exclusion des fournisseurs opx et rxd dans le build de libfabric

juin 2022
1.15.2
  • Mise à jour de libfabric vers la version 1.14.1

Mai 2022
1.15.1
  • Mise à jour de libfabric vers la version 1.14.0amzn1.0

mars 2022
1.15.0
  • Correction d’un bogue à l’origine de l’échec de l’installation sur Open SuSE 15.3

  • Abandon du support d’Open SuSE 15.2 (Open SuSE 15.2 étant arrivé en fin de vie)

  • Abandon du support de CentOS 8 (CentOS 8 étant arrivé en fin de vie)

  • Mise à jour de libfabric vers la version 1.14.0

  • Mise à jour du pilote du noyau efa vers la version 1.16.0

  • Mise à jour de rdma-core vers la version 39.0

  • Mise à jour d’Open MPI vers la version 4.1.2.

Février 2022
1.14.1
  • Mise à jour de libfabric vers la version 1.13.2amzn1.0.

octobre 2021
1.14.0
  • Ingestion du pilote du noyau efa 1.14.2.

  • Fait de -g, --enable-gdr dans efa_installer.sh une option no-op, car le dernier pilote de noyau efa active le support GDR par défaut.

  • Ingestion de rdma-core v37.0.

  • Ingestion de libfabric 1.13.2.

  • Ajoutez une liste de packages et comparez-la RPM/DEB à cette liste lors de l'installation pour éviter les installations de packages inconnues.

  • Ajout du mode veille dans le script d’installation pour attendre que la règle udev s’applique après le rechargement du pilote EFA.

octobre 2021
1.13.0
  • Mise à jour de rdma-core vers la version 35.0

  • Mise à jour de libfabric vers la version 1.13.0amzn1.0.

  • Ajoutez le support EFA pour CentOS/RHEL 8 sur la plateforme Gravition2.

  • Ajout d’une logique de comparaison de versions dans le script d’installation pour ignorer l’installation du package local lorsqu’un package est installé sur un système doté d’une version supérieure.

août 2021
1.12.3
  • Mise à jour du pilote du noyau EFA vers la version 1.13.0

  • Mise à jour du package efa-config vers la version 1.9. Améliorez le calcul des réservations de pages volumineuses pour gérer les grandes tailles de page par défaut.

juillet 2021
1.12.2
  • Mise à jour du pilote du noyau EFA vers la version 1.12.3

  • Compilation des paquets Debian Open MPI avec --with-libevent=external et --with-hwloc=external.

  • Augmentation de l’ID de build du rpm Open MPI à 2 pour corriger le problème de compatibilité ascendante de HWLOC sur CentOS 8.

  • Suppression de l’installation des packages kernel-devel et kernel-source sur SLES15SP2 et Open SuSE 15.2.

juin 2021
1.12.1
  • Mise à jour de LibFabric vers la version 1.11.2amzon1.1.

  • Mise à jour du pilote du noyau EFA vers la version 1.12.1.

Mai 2021
1.12.0
  • Mise à jour d’Open MPI vers la version 4.1.1.

  • Mise à jour de LibFabric vers la version 1.11.2amzn1.0.

  • Compilation de rdma-core pour Amazon Linux 2 en utilisant la même configuration d’empaquetage que le rdma-core AL2.

  • Ne force pas -Wl,--enable-new-dtags lors du build des RPM Open MPI.

  • Compilation d’Open MPI avec les bibliothèques système pour hwloc et libevent.

  • Mise à jour du pilote du noyau EFA vers la version 1.12.0.

  • Mise à jour du package efa-config vers la version 1.8. Amélioration du calcul des réservations de pages volumineuses pour les instances de longue durée.

  • Mise à jour du package efa-profile vers la version 1.5. Suppression du fichier d’optimisation collectif d’Open MPI qui a servi de solution de contournement pour corriger le blocage d’Open MPI 4.1.0 sur P4d.

  • Mise à jour de rdma-core vers la version 32.1

  • Abandon de la prise en charge d’Amazon Linux 1 et d’Ubuntu 16.04

Mai 2021
1.11.2
  • Correction du blocage d’Open MPI lors de l’utilisation d’Open MPI sur P4d en modifiant l’algorithme par défaut utilisé pour implémenter MPI_BARRIER via un fichier de configuration.

  • Désactivation de l’utilisation des atomiques intégrées dans Open MPI sur ARM via --disable-builtin-atomics pour contourner le problème du compilateur.

février 2021
1.11.1
  • Mise à jour d’Open MPI vers la version 4.1.0.

  • Mise à jour du package efa-config vers la version 1.7. Amélioration du calcul du nombre de réservations de pages volumineuses.

  • Mise à jour du package efa-profile vers la version 1.3. Suppression du fichier de décision collective devenu inutile maintenant qu’Open MPI 4.1.0 est utilisé.

décembre 2020
1.11.0
  • Ajout du support pour la plateforme Gravition2.

  • Mise à jour de rdma-core vers la version 31.2amzn.

  • Mise à jour de LibFabric vers la version 1.11.1amzn1.0.

  • Mise à jour d’efa-config vers la version 1.6.

  • Mise à jour d’efa-profile vers la version 1.2.

décembre 2020
1.10.1
  • Ajout du support pour CentOS/RHEL 8.

  • Ajout de la prise en charge d’Ubuntu 20.04

  • Ajout de la prise en charge de SUSE Linux Enterprise 15.

Novembre 2020
1.10.0
  • Ajout du support RDMA GPUDirect pour la plateforme P4d. Utilisez l'option --enable-gdr d'installation pour installer le module GDR-aware noyau et l'espace utilisateur.

  • Mise à jour du pilote du noyau EFA vers la version 1.10.2.

  • Mise à jour de rdma-core vers la version 31.amzn0.

  • Mise à jour de LibFabric vers la version 1.11.1.

  • Mise à jour d’Open MPI vers la version 4.0.5.

  • Mise à jour d’efa-config vers la version 1.5.

  • Mise à jour d’efa-profile vers la version 1.1. Inclusion d’une version améliorée du fichier de décision collective Open MPI.

octobre 2020
1,9.5
  • Mise à jour d’efa-config vers la version 1.4. Correction d’un bogue dans le fichier de décision collective Open MPI.

septembre 2020
1.9.4
  • Mise à jour d’Open MPI vers la version 4.0.3.

  • Mise à jour de LibFabric vers la version 1.10.1amzon1.1.

  • Mise à jour de rdma-core vers la version 28.amzn0.

juillet 2020
1.9.3
  • Mise à jour du pilote du noyau EFA vers la version 1.6.0.

  • Mise à jour de rdma-core vers la version 28.amzn0.

  • Mise à jour de LibFabric vers la version 1.10.1amzn1.1.

  • Mise à jour d’efa-config vers la version 1.3. Ajout d’un fichier d’optimisation collective pour Open MPI.

  • Omission de l’installation de dkms s’il est déjà installé.

  • Correction du mode d’installation --skip-kmod pour qu’il fonctionne réellement.

Juin 2020
1.8.4
  • Déplacement des fichiers de configuration dans les packages efa-config et efa-profile afin qu’ils soient suivis par le gestionnaire de packages du système d’exploitation.

  • Mise à jour d’Open MPI vers la version 4.0.3.

Avril 2020
1.8.3
  • Mise à jour du pilote du noyau EFA vers la version 1.5.1.

  • Distribution du DKMS sur certaines plateformes plutôt que l’utilisation des référentiels EPEL pour une plus grande fiabilité d’installation.

  • Sur RHEL 7, installez des RPM basés sur CentOS 7 au lieu de RPM basés sur Amazon Linux 2.

Février 2020
1.8.2
  • Rétablissement de la version 25 de rdma-core en raison d’une erreur de dénomination des périphériques entre le module du noyau et rdma-core.

Janvier 2020
1.8.1
  • Mise à jour de LibFabric vers la version 1.9.0amzn1.1.

Janvier 2020
1.8.0
  • Mise à jour de rdma-core vers la version 27.0

  • Mise à jour du pilote du noyau EFA vers la version 1.5.0.

  • Mise à jour de LibFabric vers la version 1.9.0amzn1.0.

  • Ajout de l’option --minimal pour installer uniquement le module de noyau EFA et rdma-core.

Décembre 2019
1.7.1
  • Mise à jour de LibFabric vers la version 1.8.1amzn1.3.

Décembre 2019
1.7.0
  • Ajout du fichier du module Libfabric.

  • Mise à jour de LibFabric vers la version 1.8.1amzn1.1.

Novembre 2019
1.6.2
  • Mise à jour d’Open MPI vers la version 1.6.2.

Octobre 2019
1.6.1
  • Mise à jour de LibFabric vers la version 1.8.1amzn1.0.

  • Mise à jour d’Open MPI vers la version 4.0.1.

  • Mise à jour de rdma-core vers la version 26.0

Octobre 2019
1.5.4
  • Mise à jour du pilote du noyau EFA vers la version 1.4.1.

Septembre 2019
1.5.3
  • Mise à jour du pilote du noyau EFA vers la version 1.3.1.

  • Omission de l’installation des packages kernel-devel ou linux-headers si le pilote du noyau n’est pas installé.

Septembre 2019
1.5.1
  • Configuration de pages volumineuses uniquement en présence d’un dispositif EFA.

Août 2019
1.5.0
  • Mise à jour de LibFabric vers la version 1.8.0amzn1.1.

  • Mise à jour de rmda-core vers la version 25.0

Août 2019
1.4.1
  • Ajout des chemins des bibliothèques Libfabric et Open MPI (/opt/amazon/efa/lib64 et /opt/amazon/efa/openmpi/lib) dans /etc/ld.so.conf.d/efa.conf pour garantir que les bibliothèques partagées Open MPI et Libfabric sont correctement localisées.

Juillet 2019
1.4.0
  • Mise à jour du pilote du noyau EFA vers la version 1.3.0.

  • Mise à jour de LibFabric vers la version 1.8.0amzn1.0.

  • Première version compatible avec la mise à jour 4 d’Intel MPI 2019.

Juillet 2019