Sequence-to-Sequence 하이퍼파라미터
다음 표에는 Amazon SageMaker Sequence-to-Sequence(seq2seq) 알고리즘으로 훈련할 때 설정할 수 있는 하이퍼파라미터가 나열되어 있습니다.
파라미터 이름 | 설명 |
---|---|
batch_size |
경사 하강에 대한 미니 배치 크기. 선택 사항 유효한 값: 양수 기본값: 64 |
beam_size |
빔 검색에 대한 빔의 길이. 컴퓨팅 선택 사항 유효한 값: 양수 기본값: 5 |
bleu_sample_size |
검증 데이터세트에서 선택하여 훈련 도중 선택 사항 유효한 값: 정수 기본값: 0 |
bucket_width |
최대 ( 선택 사항 유효한 값: 양수 기본값: 10 |
bucketing_enabled |
선택 사항 유효한 값: 기본 값: |
checkpoint_frequency_num_batches |
x회의 배치마다 체크포인트 및 검증. 이 체크포인트 하이퍼파라미터는 SageMaker의 seq2seq 알고리즘으로 전달되어 최상의 모델을 초기에 중지하고 검색할 수 있습니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다. 선택 사항 유효한 값: 양수 기본값: 1000 |
checkpoint_threshold |
훈련 중지 전에 검증 데이터세트의 선택 사항 유효한 값: 양수 기본값: 3 |
clip_gradient |
이보다 더 큰 절대 하강 값을 고정합니다. 음수로 설정하면 비활성화합니다. 선택 사항 유효한 값: 부동 소수점 기본값: 1 |
cnn_activation_type |
사용할 선택 사항 유효한 값: 문자열. 기본 값: |
cnn_hidden_dropout |
컨볼루션 계층 사이 드롭아웃에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 |
cnn_kernel_width_decoder |
선택 사항 유효한 값: 양수 기본값: 5 |
cnn_kernel_width_encoder |
선택 사항 유효한 값: 양수 기본값: 3 |
cnn_num_hidden |
인코더 및 디코더에 대한 선택 사항 유효한 값: 양수 기본값: 512 |
decoder_type |
디코더 유형. 선택 사항 유효한 값: 문자열. 기본값: rnn |
embed_dropout_source |
소스 측 임베딩에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 |
embed_dropout_target |
대상 측 임베딩에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 |
encoder_type |
인코더 유형. 선택 사항 유효한 값: 문자열. 기본 값: |
fixed_rate_lr_half_life |
선택 사항 유효한 값: 양수 기본값: 10 |
learning_rate |
초기 학습률. 선택 사항 유효한 값: 부동 소수점 기본값: 0.0003 |
loss_type |
훈련에 대한 손실 함수. 선택 사항 유효한 값: 문자열. 기본 값: |
lr_scheduler_type |
학습률 스케줄러 유형. 선택 사항 유효한 값: 문자열. 기본 값: |
max_num_batches |
처리할 업데이트/배치의 최대 수. 무제한은 -1로 설정합니다. 선택 사항 유효한 값: 정수 기본값: -1 |
max_num_epochs |
적합이 중지되기 전에 훈련 데이터를 통해 전달할 epoch의 최대 수. 검증 정확도가 개선되지 않고 이 파라미터가 통과된 경우에도 epoch의 수까지 훈련은 계속됩니다. 통과되지 않은 경우 무시됩니다. 선택 사항 유효한 값: max_num_epochs보다 작거나 같은 양의 정수 기본값: none |
max_seq_len_source |
소스 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다. 선택 사항 유효한 값: 양수 기본 값: 100 |
max_seq_len_target |
대상 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다. 선택 사항 유효한 값: 양수 기본 값: 100 |
min_num_epochs |
선택 사항 유효한 값: 양수 기본값: 0 |
momentum |
선택 사항 유효한 값: 부동 소수점 기본값: none |
num_embed_source |
소스 토큰에 대한 임베딩 크기. 선택 사항 유효한 값: 양수 기본값: 512 |
num_embed_target |
대상 토큰에 대한 임베딩 크기. 선택 사항 유효한 값: 양수 기본값: 512 |
num_layers_decoder |
디코더 rnn 또는 cnn에 대한 계층 수. 선택 사항 유효한 값: 양수 기본값: 1 |
num_layers_encoder |
인코더 선택 사항 유효한 값: 양수 기본값: 1 |
optimized_metric |
조기 중지에 최적화된 지표. 선택 사항 유효한 값: 문자열. 기본 값: |
optimizer_type |
옵티마이저 선택. 선택 사항 유효한 값: 문자열. 기본 값: |
plateau_reduce_lr_factor |
학습률을 곱하는 팩터( 선택 사항 유효한 값: 부동 소수점 기본 값: 0.5 |
plateau_reduce_lr_threshold |
선택 사항 유효한 값: 양수 기본값: 3 |
rnn_attention_in_upper_layers |
어텐션을 Google NMT paper와 같은 rnn의 상위 계층으로 전달합니다. 2개 이상의 계층이 사용되는 경우에만 해당됩니다. 선택 사항 유효한 값: 부울( 기본 값: |
rnn_attention_num_hidden |
어텐션 계층에 대한 숨겨진 유닛 수(기본값: 선택 사항 유효한 값: 양수 기본 값: |
rnn_attention_type |
인코더의 어텐션 모델. Luong et al. 백서에 따르면 선택 사항 유효한 값: 문자열. 기본 값: |
rnn_cell_type |
특정 유형의 선택 사항 유효한 값: 문자열. 기본 값: |
rnn_decoder_state_init |
인코더로부터 선택 사항 유효한 값: 문자열. 기본 값: |
rnn_first_residual_layer |
잔류 연결을 보유하는 첫 번째 rnn 계층으로, 인코더 또는 디코더의 계층 수가 2개 이상인 경우에만 해당됩니다. 선택 사항 유효한 값: 양수 기본값: 2 |
rnn_num_hidden |
인코더 및 디코더에 대한 rnn 숨겨진 유닛 수. 이는 2의 배수여야 합니다. 알고리즘이 기본적으로 양방향 Long Term Short Term Memory(LSTM)를 사용하기 때문입니다. 선택 사항 유효한 값: 양의 짝수. 기본값: 1024 |
rnn_residual_connections |
누적된 rnn에 잔류 연결을 추가합니다. 계층의 수는 2개 이상이어야 합니다. 선택 사항 유효한 값: 부울( 기본 값: |
rnn_decoder_hidden_dropout |
컨텍스트를 디코더의 rnn 숨겨진 상태와 결합한 숨겨진 상태에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 |
training_metric |
평가 데이터에 대한 훈련 추적 지표. 선택 사항 유효한 값: 문자열. 기본 값: |
weight_decay |
가중치 감퇴 상수. 선택 사항 유효한 값: 부동 소수점 기본값: 0 |
weight_init_scale |
가중치 초기화 규모( 선택 사항 유효한 값: 부동 소수점 기본값: 2.34 |
weight_init_type |
가중치 초기화 유형. 선택 사항 유효한 값: 문자열. 기본 값: |
xavier_factor_type |
Xavier 팩터 유형. 선택 사항 유효한 값: 문자열. 기본 값: |