テンソル並列処理

テンソル並列処理は、特定のモデルの重み、勾配、オプティマイザ状態がデバイス間で分割されるモデル並列処理の一種です。パイプライン並列処理とは対照的に、個々の重みはそのまま維持するが、セットする重みのうち、テンソル並列処理は個々の重みを分割します。これには、通常、モデルの特定のオペレーション、モジュール、またはレイヤーの分散計算が含まれます。

テンソル並列処理は、単一のパラメータが GPU メモリの大部分を消費する場合 (ボキャブラリーサイズが大きい大きな埋め込みテーブルや、クラス数が多い大きなソフトマックス層など) に必要です。この場合、この大きなテンソルまたはオペレーションを原子単位として扱うことは非効率的であり、メモリ負荷のバランスを妨げます。

テンソル並列処理は、純粋なパイプラインだけでは十分ではない非常に大きなモデルにも役立ちます。例えば、数十インスタンスのパーティション化を必要とする GPT-3 スケールモデルでは、パイプライン深度が過度に高くなり、オーバーヘッドが非常に大きくなるため、純粋なマイクロバッチのパイプライン処理は非効率的です。