Sequence-to-Sequence 하이퍼파라미터 - Amazon SageMaker

Sequence-to-Sequence 하이퍼파라미터

다음 표에는 Amazon SageMaker Sequence-to-Sequence(seq2seq) 알고리즘으로 훈련할 때 설정할 수 있는 하이퍼파라미터가 나열되어 있습니다.

파라미터 이름 설명
batch_size

경사 하강에 대한 미니 배치 크기.

선택 사항

유효한 값: 양수

기본값: 64

beam_size

빔 검색에 대한 빔의 길이. 컴퓨팅 bleu에 대한 훈련 중 사용되고, 추론 중 사용됩니다.

선택 사항

유효한 값: 양수

기본값: 5

bleu_sample_size

검증 데이터세트에서 선택하여 훈련 도중 bleu 점수를 디코딩 및 컴퓨팅하는 인스턴스의 수. -1로 설정하면 전체 검증 세트를 사용합니다(bleuoptimized_metric으로 선택된 경우).

선택 사항

유효한 값: 정수

기본값: 0

bucket_width

최대 (max_seq_len_source, max_seq_len_target)개의 (소스,대상) 버킷을 반환합니다. 데이터에서 길이가 긴 측은 bucket_width 단계를 사용하는 반면 짧은 측은 평균 대상/소스 길이 비율로 축소된 단계를 사용합니다. 한 측에서 다른 측보다 먼저 최대 길이에 도달한 경우 해당 측의 추가 버킷 너비는 max_len으로 고정됩니다.

선택 사항

유효한 값: 양수

기본값: 10

bucketing_enabled

false로 설정되면 버킷을 비활성화하고 최대 길이로 펼쳐집니다.

선택 사항

유효한 값: true 또는 false

기본 값: true

checkpoint_frequency_num_batches

x회의 배치마다 체크포인트 및 검증. 이 체크포인트 하이퍼파라미터는 SageMaker의 seq2seq 알고리즘으로 전달되어 최상의 모델을 초기에 중지하고 검색할 수 있습니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다.

선택 사항

유효한 값: 양수

기본값: 1000

checkpoint_threshold

훈련 중지 전에 검증 데이터세트의 optimized_metric이 개선되지 않도록 하는 체크포인트 모델의 최대 수. 이 체크포인트 하이퍼파라미터는 SageMaker의 seq2seq 알고리즘으로 전달되어 최상의 모델을 초기에 중지하고 검색할 수 있습니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다.

선택 사항

유효한 값: 양수

기본값: 3

clip_gradient

이보다 더 큰 절대 하강 값을 고정합니다. 음수로 설정하면 비활성화합니다.

선택 사항

유효한 값: 부동 소수점

기본값: 1

cnn_activation_type

사용할 cnn 활성화 유형.

선택 사항

유효한 값: 문자열. glu, relu, softrelu, sigmoid 또는 tanh 중 하나입니다.

기본 값: glu

cnn_hidden_dropout

컨볼루션 계층 사이 드롭아웃에 대한 드롭아웃 가능성.

선택 사항

유효한 값: 부동 소수점. 범위: [0,1].

기본값: 0

cnn_kernel_width_decoder

cnn 디코더에 대한 커널 너비.

선택 사항

유효한 값: 양수

기본값: 5

cnn_kernel_width_encoder

cnn 인코더에 대한 커널 너비.

선택 사항

유효한 값: 양수

기본값: 3

cnn_num_hidden

인코더 및 디코더에 대한 cnn 숨겨진 유닛 수.

선택 사항

유효한 값: 양수

기본값: 512

decoder_type

디코더 유형.

선택 사항

유효한 값: 문자열. rnn 또는 cnn입니다.

기본값: rnn

embed_dropout_source

소스 측 임베딩에 대한 드롭아웃 가능성.

선택 사항

유효한 값: 부동 소수점. 범위: [0,1].

기본값: 0

embed_dropout_target

대상 측 임베딩에 대한 드롭아웃 가능성.

선택 사항

유효한 값: 부동 소수점. 범위: [0,1].

기본값: 0

encoder_type

인코더 유형. rnn 아키텍처는 Bahdanau 등의 어텐션 메커니즘을 기반으로 하며, cnn 아키텍처는 Gehring 등의 메커니즘을 기반으로 합니다.

선택 사항

유효한 값: 문자열. rnn 또는 cnn입니다.

기본 값: rnn

fixed_rate_lr_half_life

fixed_rate_* 스케줄러에 대한 체크포인트 수의 측면에서 학습률의 반주기.

선택 사항

유효한 값: 양수

기본값: 10

learning_rate

초기 학습률.

선택 사항

유효한 값: 부동 소수점

기본값: 0.0003

loss_type

훈련에 대한 손실 함수.

선택 사항

유효한 값: 문자열. cross-entropy

기본 값: cross-entropy

lr_scheduler_type

학습률 스케줄러 유형. plateau_reducevalidation_accuracy에 대한 optimized_metric이 변화가 없을 때마다 학습률일 감소함을 의미합니다. inv_t는 반한시 감소입니다. learning_rate/(1+decay_rate*t)

선택 사항

유효한 값: 문자열. plateau_reduce, fixed_rate_inv_t 또는 fixed_rate_inv_sqrt_t.

기본 값: plateau_reduce

max_num_batches

처리할 업데이트/배치의 최대 수. 무제한은 -1로 설정합니다.

선택 사항

유효한 값: 정수

기본값: -1

max_num_epochs

적합이 중지되기 전에 훈련 데이터를 통해 전달할 epoch의 최대 수. 검증 정확도가 개선되지 않고 이 파라미터가 통과된 경우에도 epoch의 수까지 훈련은 계속됩니다. 통과되지 않은 경우 무시됩니다.

선택 사항

유효한 값: max_num_epochs보다 작거나 같은 양의 정수

기본값: none

max_seq_len_source

소스 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다.

선택 사항

유효한 값: 양수

기본 값: 100

max_seq_len_target

대상 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다.

선택 사항

유효한 값: 양수

기본 값: 100

min_num_epochs

early_stopping 조건을 통해 중지되기 전 훈련에서 실행해야 할 최소 epoch 수.

선택 사항

유효한 값: 양수

기본값: 0

momentum

sgd에 대해 사용되는 모멘텀 상수. adam 또는 rmsprop를 사용하는 경우 이 파라미터를 전달하지 마세요.

선택 사항

유효한 값: 부동 소수점

기본값: none

num_embed_source

소스 토큰에 대한 임베딩 크기.

선택 사항

유효한 값: 양수

기본값: 512

num_embed_target

대상 토큰에 대한 임베딩 크기.

선택 사항

유효한 값: 양수

기본값: 512

num_layers_decoder

디코더 rnn 또는 cnn에 대한 계층 수.

선택 사항

유효한 값: 양수

기본값: 1

num_layers_encoder

인코더 rnn 또는 cnn에 대한 계층 수.

선택 사항

유효한 값: 양수

기본값: 1

optimized_metric

조기 중지에 최적화된 지표.

선택 사항

유효한 값: 문자열. perplexity, accuracy 또는 bleu.

기본 값: perplexity

optimizer_type

옵티마이저 선택.

선택 사항

유효한 값: 문자열. adam, sgd 또는 rmsprop.

기본 값: adam

plateau_reduce_lr_factor

학습률을 곱하는 팩터(plateau_reduce의 경우).

선택 사항

유효한 값: 부동 소수점

기본 값: 0.5

plateau_reduce_lr_threshold

plateau_reduce 스케줄러의 경우 optimized_metric이 체크포인트에 대해 개선되지 않은 경우 감소 팩터로 학습률을 곱합니다.

선택 사항

유효한 값: 양수

기본값: 3

rnn_attention_in_upper_layers

어텐션을 Google NMT paper와 같은 rnn의 상위 계층으로 전달합니다. 2개 이상의 계층이 사용되는 경우에만 해당됩니다.

선택 사항

유효한 값: 부울(true 또는 false)

기본 값: true

rnn_attention_num_hidden

어텐션 계층에 대한 숨겨진 유닛 수(기본값: rnn_num_hidden)

선택 사항

유효한 값: 양수

기본 값: rnn_num_hidden

rnn_attention_type

인코더의 어텐션 모델. Luong et al. 백서에 따르면 mlp는 concat를, bilinear는 general을 가리킵니다.

선택 사항

유효한 값: 문자열. dot, fixed, mlp 또는 bilinear 중 하나

기본 값: mlp

rnn_cell_type

특정 유형의 rnn 아키텍처

선택 사항

유효한 값: 문자열. lstm 또는 gru입니다.

기본 값: lstm

rnn_decoder_state_init

인코더로부터 rnn 디코더 상태를 초기화하는 방법

선택 사항

유효한 값: 문자열. last, avg 또는 zero.

기본 값: last

rnn_first_residual_layer

잔류 연결을 보유하는 첫 번째 rnn 계층으로, 인코더 또는 디코더의 계층 수가 2개 이상인 경우에만 해당됩니다.

선택 사항

유효한 값: 양수

기본값: 2

rnn_num_hidden

인코더 및 디코더에 대한 rnn 숨겨진 유닛 수. 이는 2의 배수여야 합니다. 알고리즘이 기본적으로 양방향 Long Term Short Term Memory(LSTM)를 사용하기 때문입니다.

선택 사항

유효한 값: 양의 짝수.

기본값: 1024

rnn_residual_connections

누적된 rnn에 잔류 연결을 추가합니다. 계층의 수는 2개 이상이어야 합니다.

선택 사항

유효한 값: 부울(true 또는 false)

기본 값: false

rnn_decoder_hidden_dropout

컨텍스트를 디코더의 rnn 숨겨진 상태와 결합한 숨겨진 상태에 대한 드롭아웃 가능성.

선택 사항

유효한 값: 부동 소수점. 범위: [0,1].

기본값: 0

training_metric

평가 데이터에 대한 훈련 추적 지표.

선택 사항

유효한 값: 문자열. perplexity 또는 accuracy입니다.

기본 값: perplexity

weight_decay

가중치 감퇴 상수.

선택 사항

유효한 값: 부동 소수점

기본값: 0

weight_init_scale

가중치 초기화 규모(uniformxavier 초기화의 경우).

선택 사항

유효한 값: 부동 소수점

기본값: 2.34

weight_init_type

가중치 초기화 유형.

선택 사항

유효한 값: 문자열. uniform 또는 xavier입니다.

기본 값: xavier

xavier_factor_type

Xavier 팩터 유형.

선택 사항

유효한 값: 문자열. in, out 또는 avg.

기본 값: in