기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
다음 표에는 Amazon SageMaker AI Sequence-to-Sequence(seq2seq) 알고리즘으로 훈련할 때 설정할 수 있는 하이퍼파라미터가 나열되어 있습니다.
파라미터 이름 | 설명 |
---|---|
batch_size |
경사 하강에 대한 미니 배치 크기. 선택 사항 유효한 값: 양수 기본값: 64 |
beam_size |
빔 검색에 대한 빔의 길이. 컴퓨팅 선택 사항 유효한 값: 양수 기본값: 5 |
bleu_sample_size |
검증 데이터세트에서 선택하여 훈련 도중 선택 사항 유효한 값: 정수 기본값: 0 |
bucket_width |
최대 ( 선택 사항 유효한 값: 양수 기본값: 10 |
bucketing_enabled |
선택 사항 유효한 값: 기본 값: |
checkpoint_frequency_num_batches |
x회의 배치마다 체크포인트 및 검증. 이 체크포인트 하이퍼파라미터는 SageMaker AI의 seq2seq 알고리즘에 전달되어 최적의 모델을 조기에 중지하고 검색합니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker AI 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다. 선택 사항 유효한 값: 양수 기본값: 1000 |
checkpoint_threshold |
훈련 중지 전에 검증 데이터세트의 선택 사항 유효한 값: 양수 기본값: 3 |
clip_gradient |
이보다 더 큰 절대 하강 값을 고정합니다. 음수로 설정하면 비활성화합니다. 선택 사항 유효한 값: 부동 소수점 기본값: 1 |
cnn_activation_type |
사용할 선택 사항 유효한 값: 문자열. 기본 값: |
cnn_hidden_dropout |
컨볼루션 계층 사이 드롭아웃에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 |
cnn_kernel_width_decoder |
선택 사항 유효한 값: 양수 기본값: 5 |
cnn_kernel_width_encoder |
선택 사항 유효한 값: 양수 기본값: 3 |
cnn_num_hidden |
인코더 및 디코더에 대한 선택 사항 유효한 값: 양수 기본값: 512 |
decoder_type |
디코더 유형. 선택 사항 유효한 값: 문자열. 기본값: rnn |
embed_dropout_source |
소스 측 임베딩에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 |
embed_dropout_target |
대상 측 임베딩에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 |
encoder_type |
인코더 유형. 선택 사항 유효한 값: 문자열. 기본 값: |
fixed_rate_lr_half_life |
선택 사항 유효한 값: 양수 기본값: 10 |
learning_rate |
초기 학습률. 선택 사항 유효한 값: 부동 소수점 기본값: 0.0003 |
loss_type |
훈련에 대한 손실 함수. 선택 사항 유효한 값: 문자열. 기본 값: |
lr_scheduler_type |
학습률 스케줄러 유형. 선택 사항 유효한 값: 문자열. 기본 값: |
max_num_batches |
처리할 업데이트/배치의 최대 수. 무제한은 -1로 설정합니다. 선택 사항 유효한 값: 정수 기본값: -1 |
max_num_epochs |
적합이 중지되기 전에 훈련 데이터를 통해 전달할 epoch의 최대 수. 검증 정확도가 개선되지 않고 이 파라미터가 통과된 경우에도 epoch의 수까지 훈련은 계속됩니다. 통과되지 않은 경우 무시됩니다. 선택 사항 유효한 값: max_num_epochs보다 작거나 같은 양의 정수 기본값: none |
max_seq_len_source |
소스 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다. 선택 사항 유효한 값: 양수 기본 값: 100 |
max_seq_len_target |
대상 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다. 선택 사항 유효한 값: 양수 기본 값: 100 |
min_num_epochs |
선택 사항 유효한 값: 양수 기본값: 0 |
momentum |
선택 사항 유효한 값: 부동 소수점 기본값: none |
num_embed_source |
소스 토큰에 대한 임베딩 크기. 선택 사항 유효한 값: 양수 기본값: 512 |
num_embed_target |
대상 토큰에 대한 임베딩 크기. 선택 사항 유효한 값: 양수 기본값: 512 |
num_layers_decoder |
디코더 rnn 또는 cnn에 대한 계층 수. 선택 사항 유효한 값: 양수 기본값: 1 |
num_layers_encoder |
인코더 선택 사항 유효한 값: 양수 기본값: 1 |
optimized_metric |
조기 중지에 최적화된 지표. 선택 사항 유효한 값: 문자열. 기본 값: |
optimizer_type |
옵티마이저 선택. 선택 사항 유효한 값: 문자열. 기본 값: |
plateau_reduce_lr_factor |
학습률을 곱하는 팩터( 선택 사항 유효한 값: 부동 소수점 기본 값: 0.5 |
plateau_reduce_lr_threshold |
선택 사항 유효한 값: 양수 기본값: 3 |
rnn_attention_in_upper_layers |
어텐션을 Google NMT paper와 같은 rnn의 상위 계층으로 전달합니다. 2개 이상의 계층이 사용되는 경우에만 해당됩니다. 선택 사항 유효한 값: 부울( 기본 값: |
rnn_attention_num_hidden |
어텐션 계층에 대한 숨겨진 유닛 수(기본값: 선택 사항 유효한 값: 양수 기본 값: |
rnn_attention_type |
인코더의 어텐션 모델. Luong et al. 백서에 따르면 선택 사항 유효한 값: 문자열. 기본 값: |
rnn_cell_type |
특정 유형의 선택 사항 유효한 값: 문자열. 기본 값: |
rnn_decoder_state_init |
인코더로부터 선택 사항 유효한 값: 문자열. 기본 값: |
rnn_first_residual_layer |
잔류 연결을 보유하는 첫 번째 rnn 계층으로, 인코더 또는 디코더의 계층 수가 2개 이상인 경우에만 해당됩니다. 선택 사항 유효한 값: 양수 기본값: 2 |
rnn_num_hidden |
인코더 및 디코더에 대한 rnn 숨겨진 유닛 수. 이는 2의 배수여야 합니다. 알고리즘이 기본적으로 양방향 Long Term Short Term Memory(LSTM)를 사용하기 때문입니다. 선택 사항 유효한 값: 양의 짝수. 기본값: 1024 |
rnn_residual_connections |
누적된 rnn에 잔류 연결을 추가합니다. 계층의 수는 2개 이상이어야 합니다. 선택 사항 유효한 값: 부울( 기본 값: |
rnn_decoder_hidden_dropout |
컨텍스트를 디코더의 rnn 숨겨진 상태와 결합한 숨겨진 상태에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0 |
training_metric |
평가 데이터에 대한 훈련 추적 지표. 선택 사항 유효한 값: 문자열. 기본 값: |
weight_decay |
가중치 감퇴 상수. 선택 사항 유효한 값: 부동 소수점 기본값: 0 |
weight_init_scale |
가중치 초기화 규모( 선택 사항 유효한 값: 부동 소수점 기본값: 2.34 |
weight_init_type |
가중치 초기화 유형. 선택 사항 유효한 값: 문자열. 기본 값: |
xavier_factor_type |
Xavier 팩터 유형. 선택 사항 유효한 값: 문자열. 기본 값: |