前提条件 EFA および必要なパッケージをインストールするコンテナを作成する場合の考慮事項 EFA デバイスが認識されていることを確認するを使用したトレーニングジョブの実行 EFA

でトレーニングを実行する EFA

SageMaker AI は、ハイパフォーマンスコンピューティング (HPC) および機械学習アプリケーションを高速化するためにEFA、デバイスとの統合を提供します。この統合により、分散トレーニングジョブの実行時に EFA デバイスを活用できます。 SageMaker AI EFAに持ち込む既存の Docker コンテナに統合を追加できます。以下の情報は、分散トレーニングジョブに EFA デバイスを使用するように独自のコンテナを設定する方法の概要を示しています。

前提条件

コンテナはSageMaker トレーニングコンテナの仕様を満たす必要があります。

EFA および必要なパッケージをインストールする

コンテナはEFAソフトウェアをダウンロードしてインストールする必要があります。これにより、コンテナはEFAデバイスを認識し、互換性のあるバージョンの Libfabric と Open が提供されますMPI。

MPI やなどのツールは、 EFA対応トレーニングジョブの一部として使用するコンテナ内にインストールおよび管理NCCLする必要があります。使用可能なすべてのEFAバージョンのリストについては、「チェックサムを使用してEFAインストーラを検証する」を参照してください。次の例は、 EFA対応コンテナの Dockerfile を変更して EFA、MPI、、NCCL、および OFINCCL- をインストールする方法を示していますTEST。

注記

コンテナEFAで PyTorch をと共に使用する場合、コンテナNCCLのバージョンは PyTorch インストールNCCLのバージョンと一致する必要があります。バージョンを確認するには PyTorch NCCL、次のコマンドを使用します。


torch.cuda.nccl.version()


ARG OPEN_MPI_PATH=/opt/amazon/openmpi/
ENV NCCL_VERSION=2.7.8
ENV EFA_VERSION=1.30.0
ENV BRANCH_OFI=1.1.1

#################################################
## EFA and MPI SETUP
RUN cd $HOME \
  && curl -O https://s3-us-west-2.amazonaws.com/aws-efa-installer/aws-efa-installer-${EFA_VERSION}.tar.gz \
  && tar -xf aws-efa-installer-${EFA_VERSION}.tar.gz \
  && cd aws-efa-installer \
  && ./efa_installer.sh -y --skip-kmod -g \

ENV PATH="$OPEN_MPI_PATH/bin:$PATH"
ENV LD_LIBRARY_PATH="$OPEN_MPI_PATH/lib/:$LD_LIBRARY_PATH"

#################################################
## NCCL, OFI, NCCL-TEST SETUP
RUN cd $HOME \
  && git clone https://github.com/NVIDIA/nccl.git -b v${NCCL_VERSION}-1 \
  && cd nccl \
  && make -j64 src.build BUILDDIR=/usr/local

RUN apt-get update && apt-get install -y autoconf
RUN cd $HOME \
  && git clone https://github.com/aws/aws-ofi-nccl.git -b v${BRANCH_OFI} \
  && cd aws-ofi-nccl \
  && ./autogen.sh \
  && ./configure --with-libfabric=/opt/amazon/efa \
       --with-mpi=/opt/amazon/openmpi \
       --with-cuda=/usr/local/cuda \
       --with-nccl=/usr/local --prefix=/usr/local \
  && make && make install
  
RUN cd $HOME \
  && git clone https://github.com/NVIDIA/nccl-tests \
  && cd nccl-tests \
  && make MPI=1 MPI_HOME=/opt/amazon/openmpi CUDA_HOME=/usr/local/cuda NCCL_HOME=/usr/local

コンテナを作成する場合の考慮事項

EFA デバイスは、コンテナにアクセスできるデバイスのリストにあるように/dev/infiniband/uverbs0コンテナにマウントされます。P4d インスタンスでは、コンテナは 4 つのEFAデバイスにアクセスできます。EFA デバイスは、コンテナにアクセスできるデバイスのリストに次のように表示されます。

/dev/infiniband/uverbs0
/dev/infiniband/uverbs1
/dev/infiniband/uverbs2
/dev/infiniband/uverbs3

各コンテナインスタンスに提供されるresourceconfig.jsonファイルからホスト名、ピアホスト名、ネットワークインターフェイス ( の場合MPI) に関する情報を取得するには、「Distributed Training Configuration」を参照してください。コンテナは、デフォルトの Elastic Network Interface (ENI) を介してピア間の通常のTCPトラフィックを処理し、EFAデバイスを介してトラフィックを処理します OFI (カーネルバイパス）。

EFA デバイスが認識されていることを確認する

EFA デバイスが認識されていることを確認するには、コンテナ内から次のコマンドを実行します。


/opt/amazon/efa/bin/fi_info -p efa

出力は以下のようになります。


provider: efa
    fabric: EFA-fe80::e5:56ff:fe34:56a8
    domain: efa_0-rdm
    version: 2.0
    type: FI_EP_RDM
    protocol: FI_PROTO_EFA
provider: efa
    fabric: EFA-fe80::e5:56ff:fe34:56a8
    domain: efa_0-dgrm
    version: 2.0
    type: FI_EP_DGRAM
    protocol: FI_PROTO_EFA
provider: efa;ofi_rxd
    fabric: EFA-fe80::e5:56ff:fe34:56a8
    domain: efa_0-dgrm
    version: 1.0
    type: FI_EP_RDM
    protocol: FI_PROTO_RXD

を使用したトレーニングジョブの実行 EFA

EFA対応コンテナを作成したら、他の Docker イメージと同じ方法で SageMaker AI 推定器EFAを使用してでトレーニングジョブを実行できます。コンテナを登録し、トレーニングに使用する方法の詳細については、「独自のトレーニングコンテナを適応させる」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トレーニング情報の提供

シグナルの成功または失敗