쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

Sequence-to-Sequence 하이퍼파라미터

포커스 모드
Sequence-to-Sequence 하이퍼파라미터 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

다음 표에는 Amazon SageMaker AI Sequence-to-Sequence(seq2seq) 알고리즘으로 훈련할 때 설정할 수 있는 하이퍼파라미터가 나열되어 있습니다.

파라미터 이름 설명
batch_size

경사 하강에 대한 미니 배치 크기.

선택 사항

유효한 값: 양수

기본값: 64

beam_size

빔 검색에 대한 빔의 길이. 컴퓨팅 bleu에 대한 훈련 중 사용되고, 추론 중 사용됩니다.

선택 사항

유효한 값: 양수

기본값: 5

bleu_sample_size

검증 데이터세트에서 선택하여 훈련 도중 bleu 점수를 디코딩 및 컴퓨팅하는 인스턴스의 수. -1로 설정하면 전체 검증 세트를 사용합니다(bleuoptimized_metric으로 선택된 경우).

선택 사항

유효한 값: 정수

기본값: 0

bucket_width

최대 (max_seq_len_source, max_seq_len_target)개의 (소스,대상) 버킷을 반환합니다. 데이터에서 길이가 긴 측은 bucket_width 단계를 사용하는 반면 짧은 측은 평균 대상/소스 길이 비율로 축소된 단계를 사용합니다. 한 측에서 다른 측보다 먼저 최대 길이에 도달한 경우 해당 측의 추가 버킷 너비는 max_len으로 고정됩니다.

선택 사항

유효한 값: 양수

기본값: 10

bucketing_enabled

false로 설정되면 버킷을 비활성화하고 최대 길이로 펼쳐집니다.

선택 사항

유효한 값: true 또는 false

기본 값: true

checkpoint_frequency_num_batches

x회의 배치마다 체크포인트 및 검증. 이 체크포인트 하이퍼파라미터는 SageMaker AI의 seq2seq 알고리즘에 전달되어 최적의 모델을 조기에 중지하고 검색합니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker AI 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다.

선택 사항

유효한 값: 양수

기본값: 1000

checkpoint_threshold

훈련 중지 전에 검증 데이터세트의 optimized_metric이 개선되지 않도록 하는 체크포인트 모델의 최대 수. 이 체크포인트 하이퍼파라미터는 SageMaker AI의 seq2seq 알고리즘에 전달되어 최적의 모델을 조기에 중지하고 검색합니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker AI 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다.

선택 사항

유효한 값: 양수

기본값: 3

clip_gradient

이보다 더 큰 절대 하강 값을 고정합니다. 음수로 설정하면 비활성화합니다.

선택 사항

유효한 값: 부동 소수점

기본값: 1

cnn_activation_type

사용할 cnn 활성화 유형.

선택 사항

유효한 값: 문자열. glu, relu, softrelu, sigmoid 또는 tanh 중 하나입니다.

기본 값: glu

cnn_hidden_dropout

컨볼루션 계층 사이 드롭아웃에 대한 드롭아웃 가능성.

선택 사항

유효한 값: 부동 소수점. 범위: [0,1].

기본값: 0

cnn_kernel_width_decoder

cnn 디코더에 대한 커널 너비.

선택 사항

유효한 값: 양수

기본값: 5

cnn_kernel_width_encoder

cnn 인코더에 대한 커널 너비.

선택 사항

유효한 값: 양수

기본값: 3

cnn_num_hidden

인코더 및 디코더에 대한 cnn 숨겨진 유닛 수.

선택 사항

유효한 값: 양수

기본값: 512

decoder_type

디코더 유형.

선택 사항

유효한 값: 문자열. rnn 또는 cnn입니다.

기본값: rnn

embed_dropout_source

소스 측 임베딩에 대한 드롭아웃 가능성.

선택 사항

유효한 값: 부동 소수점. 범위: [0,1].

기본값: 0

embed_dropout_target

대상 측 임베딩에 대한 드롭아웃 가능성.

선택 사항

유효한 값: 부동 소수점. 범위: [0,1].

기본값: 0

encoder_type

인코더 유형. rnn 아키텍처는 Bahdanau 등의 어텐션 메커니즘을 기반으로 하며, cnn 아키텍처는 Gehring 등의 메커니즘을 기반으로 합니다.

선택 사항

유효한 값: 문자열. rnn 또는 cnn입니다.

기본 값: rnn

fixed_rate_lr_half_life

fixed_rate_* 스케줄러에 대한 체크포인트 수의 측면에서 학습률의 반주기.

선택 사항

유효한 값: 양수

기본값: 10

learning_rate

초기 학습률.

선택 사항

유효한 값: 부동 소수점

기본값: 0.0003

loss_type

훈련에 대한 손실 함수.

선택 사항

유효한 값: 문자열. cross-entropy

기본 값: cross-entropy

lr_scheduler_type

학습률 스케줄러 유형. plateau_reducevalidation_accuracy에 대한 optimized_metric이 변화가 없을 때마다 학습률일 감소함을 의미합니다. inv_t는 반한시 감소입니다. learning_rate/(1+decay_rate*t)

선택 사항

유효한 값: 문자열. plateau_reduce, fixed_rate_inv_t 또는 fixed_rate_inv_sqrt_t.

기본 값: plateau_reduce

max_num_batches

처리할 업데이트/배치의 최대 수. 무제한은 -1로 설정합니다.

선택 사항

유효한 값: 정수

기본값: -1

max_num_epochs

적합이 중지되기 전에 훈련 데이터를 통해 전달할 epoch의 최대 수. 검증 정확도가 개선되지 않고 이 파라미터가 통과된 경우에도 epoch의 수까지 훈련은 계속됩니다. 통과되지 않은 경우 무시됩니다.

선택 사항

유효한 값: max_num_epochs보다 작거나 같은 양의 정수

기본값: none

max_seq_len_source

소스 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다.

선택 사항

유효한 값: 양수

기본 값: 100

max_seq_len_target

대상 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다.

선택 사항

유효한 값: 양수

기본 값: 100

min_num_epochs

early_stopping 조건을 통해 중지되기 전 훈련에서 실행해야 할 최소 epoch 수.

선택 사항

유효한 값: 양수

기본값: 0

momentum

sgd에 대해 사용되는 모멘텀 상수. adam 또는 rmsprop를 사용하는 경우 이 파라미터를 전달하지 마세요.

선택 사항

유효한 값: 부동 소수점

기본값: none

num_embed_source

소스 토큰에 대한 임베딩 크기.

선택 사항

유효한 값: 양수

기본값: 512

num_embed_target

대상 토큰에 대한 임베딩 크기.

선택 사항

유효한 값: 양수

기본값: 512

num_layers_decoder

디코더 rnn 또는 cnn에 대한 계층 수.

선택 사항

유효한 값: 양수

기본값: 1

num_layers_encoder

인코더 rnn 또는 cnn에 대한 계층 수.

선택 사항

유효한 값: 양수

기본값: 1

optimized_metric

조기 중지에 최적화된 지표.

선택 사항

유효한 값: 문자열. perplexity, accuracy 또는 bleu.

기본 값: perplexity

optimizer_type

옵티마이저 선택.

선택 사항

유효한 값: 문자열. adam, sgd 또는 rmsprop.

기본 값: adam

plateau_reduce_lr_factor

학습률을 곱하는 팩터(plateau_reduce의 경우).

선택 사항

유효한 값: 부동 소수점

기본 값: 0.5

plateau_reduce_lr_threshold

plateau_reduce 스케줄러의 경우 optimized_metric이 체크포인트에 대해 개선되지 않은 경우 감소 팩터로 학습률을 곱합니다.

선택 사항

유효한 값: 양수

기본값: 3

rnn_attention_in_upper_layers

어텐션을 Google NMT paper와 같은 rnn의 상위 계층으로 전달합니다. 2개 이상의 계층이 사용되는 경우에만 해당됩니다.

선택 사항

유효한 값: 부울(true 또는 false)

기본 값: true

rnn_attention_num_hidden

어텐션 계층에 대한 숨겨진 유닛 수(기본값: rnn_num_hidden)

선택 사항

유효한 값: 양수

기본 값: rnn_num_hidden

rnn_attention_type

인코더의 어텐션 모델. Luong et al. 백서에 따르면 mlp는 concat를, bilinear는 general을 가리킵니다.

선택 사항

유효한 값: 문자열. dot, fixed, mlp 또는 bilinear 중 하나

기본 값: mlp

rnn_cell_type

특정 유형의 rnn 아키텍처

선택 사항

유효한 값: 문자열. lstm 또는 gru입니다.

기본 값: lstm

rnn_decoder_state_init

인코더로부터 rnn 디코더 상태를 초기화하는 방법

선택 사항

유효한 값: 문자열. last, avg 또는 zero.

기본 값: last

rnn_first_residual_layer

잔류 연결을 보유하는 첫 번째 rnn 계층으로, 인코더 또는 디코더의 계층 수가 2개 이상인 경우에만 해당됩니다.

선택 사항

유효한 값: 양수

기본값: 2

rnn_num_hidden

인코더 및 디코더에 대한 rnn 숨겨진 유닛 수. 이는 2의 배수여야 합니다. 알고리즘이 기본적으로 양방향 Long Term Short Term Memory(LSTM)를 사용하기 때문입니다.

선택 사항

유효한 값: 양의 짝수.

기본값: 1024

rnn_residual_connections

누적된 rnn에 잔류 연결을 추가합니다. 계층의 수는 2개 이상이어야 합니다.

선택 사항

유효한 값: 부울(true 또는 false)

기본 값: false

rnn_decoder_hidden_dropout

컨텍스트를 디코더의 rnn 숨겨진 상태와 결합한 숨겨진 상태에 대한 드롭아웃 가능성.

선택 사항

유효한 값: 부동 소수점. 범위: [0,1].

기본값: 0

training_metric

평가 데이터에 대한 훈련 추적 지표.

선택 사항

유효한 값: 문자열. perplexity 또는 accuracy입니다.

기본 값: perplexity

weight_decay

가중치 감퇴 상수.

선택 사항

유효한 값: 부동 소수점

기본값: 0

weight_init_scale

가중치 초기화 규모(uniformxavier 초기화의 경우).

선택 사항

유효한 값: 부동 소수점

기본값: 2.34

weight_init_type

가중치 초기화 유형.

선택 사항

유효한 값: 문자열. uniform 또는 xavier입니다.

기본 값: xavier

xavier_factor_type

Xavier 팩터 유형.

선택 사항

유효한 값: 문자열. in, out 또는 avg.

기본 값: in

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.