기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
에 대한 지원 FlashAttention
지원 (Support for) FlashAttention 은 분산 변압기 모델에만 적용할 수 있는 라이브러리 기능으로, 모델 병렬 학습을 smp.DistributedModel()
FlashAttentionattention_head_size
모델을 지원합니다. 따라서 분산 트랜스포머를 훈련시키고 제대로 FlashAttention 작동하는지 확인할 때는 어텐션 헤드 크기가 요구 사항을 준수하도록 파라미터를 조정해야 합니다. 자세한 내용은 FlashAttention GitHub저장소의 설치 및 기능을
예를 들어 hidden_width=864
및 num_heads=48
을 사용하여 변환기 모델을 구성한다고 가정해 보겠습니다. 의 헤드 FlashAttention 크기는 다음과 같이 계산됩니다attention_head_size = hidden_width / num_heads = 864 / 48 = 18
. FlashAttention활성화하려면 num_heads
54
파라미터를 8의 배수가 attention_head_size = hidden_width / num_heads = 864
/ 54 = 16
되도록 조정해야 합니다.