本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Support FlashAttention
Support FlashAttention 是僅適用於分散式變壓器模型的程式庫功能,分散式變壓器模型是用於 parallel 模型訓練所包裝smp.DistributedModel()
只有當設定attention_head_size
為 8 的倍數且小於 128 的值時,程式FlashAttention
例如,假設您使用 hidden_width=864
與 num_heads=48
設定轉換器模型。的頭部大小計 FlashAttention 算方式為attention_head_size = hidden_width / num_heads = 864 / 48 = 18
。要啟用 FlashAttention,您需要將num_heads
參數調整為 54
attention_head_size = hidden_width / num_heads = 864
/ 54 = 16
,以便是 8 的倍數。