Sequence-to-Sequence 하이퍼파라미터

포커스 모드

Sequence-to-Sequence 하이퍼파라미터 - Amazon SageMaker AI

다음 표에는 Amazon SageMaker AI Sequence-to-Sequence(seq2seq) 알고리즘으로 훈련할 때 설정할 수 있는 하이퍼파라미터가 나열되어 있습니다.

파라미터 이름	설명
`batch_size`	경사 하강에 대한 미니 배치 크기. 선택 사항 유효한 값: 양수 기본값: 64
`beam_size`	빔 검색에 대한 빔의 길이. 컴퓨팅 `bleu`에 대한 훈련 중 사용되고, 추론 중 사용됩니다. 선택 사항 유효한 값: 양수 기본값: 5
`bleu_sample_size`	검증 데이터세트에서 선택하여 훈련 도중 `bleu` 점수를 디코딩 및 컴퓨팅하는 인스턴스의 수. -1로 설정하면 전체 검증 세트를 사용합니다(`bleu`가 `optimized_metric`으로 선택된 경우). 선택 사항 유효한 값: 정수 기본값: 0
`bucket_width`	최대 (`max_seq_len_source`, `max_seq_len_target`)개의 (소스,대상) 버킷을 반환합니다. 데이터에서 길이가 긴 측은 `bucket_width` 단계를 사용하는 반면 짧은 측은 평균 대상/소스 길이 비율로 축소된 단계를 사용합니다. 한 측에서 다른 측보다 먼저 최대 길이에 도달한 경우 해당 측의 추가 버킷 너비는 `max_len`으로 고정됩니다. 선택 사항 유효한 값: 양수 기본값: 10
`bucketing_enabled`	`false`로 설정되면 버킷을 비활성화하고 최대 길이로 펼쳐집니다. 선택 사항 유효한 값: `true` 또는 `false` 기본 값: `true`
`checkpoint_frequency_num_batches`	x회의 배치마다 체크포인트 및 검증. 이 체크포인트 하이퍼파라미터는 SageMaker AI의 seq2seq 알고리즘에 전달되어 최적의 모델을 조기에 중지하고 검색합니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker AI 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다. 선택 사항 유효한 값: 양수 기본값: 1000
`checkpoint_threshold`	훈련 중지 전에 검증 데이터세트의 `optimized_metric`이 개선되지 않도록 하는 체크포인트 모델의 최대 수. 이 체크포인트 하이퍼파라미터는 SageMaker AI의 seq2seq 알고리즘에 전달되어 최적의 모델을 조기에 중지하고 검색합니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker AI 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다. 선택 사항 유효한 값: 양수 기본값: 3
`clip_gradient`	이보다 더 큰 절대 하강 값을 고정합니다. 음수로 설정하면 비활성화합니다. 선택 사항 유효한 값: 부동 소수점 기본값: 1
`cnn_activation_type`	사용할 `cnn` 활성화 유형. 선택 사항 유효한 값: 문자열. `glu`, `relu`, `softrelu`, `sigmoid` 또는 `tanh` 중 하나입니다. 기본 값: `glu`
`cnn_hidden_dropout`	컨볼루션 계층 사이 드롭아웃에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0
`cnn_kernel_width_decoder`	`cnn` 디코더에 대한 커널 너비. 선택 사항 유효한 값: 양수 기본값: 5
`cnn_kernel_width_encoder`	`cnn` 인코더에 대한 커널 너비. 선택 사항 유효한 값: 양수 기본값: 3
`cnn_num_hidden`	인코더 및 디코더에 대한 `cnn` 숨겨진 유닛 수. 선택 사항 유효한 값: 양수 기본값: 512
`decoder_type`	디코더 유형. 선택 사항 유효한 값: 문자열. `rnn` 또는 `cnn`입니다. 기본값: rnn
`embed_dropout_source`	소스 측 임베딩에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0
`embed_dropout_target`	대상 측 임베딩에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0
`encoder_type`	인코더 유형. `rnn` 아키텍처는 Bahdanau 등의 어텐션 메커니즘을 기반으로 하며, cnn 아키텍처는 Gehring 등의 메커니즘을 기반으로 합니다. 선택 사항 유효한 값: 문자열. `rnn` 또는 `cnn`입니다. 기본 값: `rnn`
`fixed_rate_lr_half_life`	`fixed_rate_`* 스케줄러에 대한 체크포인트 수의 측면에서 학습률의 반주기. 선택 사항 유효한 값: 양수 기본값: 10
`learning_rate`	초기 학습률. 선택 사항 유효한 값: 부동 소수점 기본값: 0.0003
`loss_type`	훈련에 대한 손실 함수. 선택 사항 유효한 값: 문자열. `cross-entropy` 기본 값: `cross-entropy`
`lr_scheduler_type`	학습률 스케줄러 유형. `plateau_reduce`는 `validation_accuracy`에 대한 `optimized_metric`이 변화가 없을 때마다 학습률일 감소함을 의미합니다. `inv_t`는 반한시 감소입니다. `learning_rate`/(1+`decay_rate`t) 선택 사항* 유효한 값: 문자열. `plateau_reduce`, `fixed_rate_inv_t` 또는 `fixed_rate_inv_sqrt_t`. 기본 값: `plateau_reduce`
`max_num_batches`	처리할 업데이트/배치의 최대 수. 무제한은 -1로 설정합니다. 선택 사항 유효한 값: 정수 기본값: -1
`max_num_epochs`	적합이 중지되기 전에 훈련 데이터를 통해 전달할 epoch의 최대 수. 검증 정확도가 개선되지 않고 이 파라미터가 통과된 경우에도 epoch의 수까지 훈련은 계속됩니다. 통과되지 않은 경우 무시됩니다. 선택 사항 유효한 값: max_num_epochs보다 작거나 같은 양의 정수 기본값: none
`max_seq_len_source`	소스 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다. 선택 사항 유효한 값: 양수 기본 값: 100
`max_seq_len_target`	대상 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다. 선택 사항 유효한 값: 양수 기본 값: 100
`min_num_epochs`	`early_stopping` 조건을 통해 중지되기 전 훈련에서 실행해야 할 최소 epoch 수. 선택 사항 유효한 값: 양수 기본값: 0
`momentum`	`sgd`에 대해 사용되는 모멘텀 상수. `adam` 또는 `rmsprop`를 사용하는 경우 이 파라미터를 전달하지 마세요. 선택 사항 유효한 값: 부동 소수점 기본값: none
`num_embed_source`	소스 토큰에 대한 임베딩 크기. 선택 사항 유효한 값: 양수 기본값: 512
`num_embed_target`	대상 토큰에 대한 임베딩 크기. 선택 사항 유효한 값: 양수 기본값: 512
`num_layers_decoder`	디코더 rnn 또는 cnn에 대한 계층 수. 선택 사항 유효한 값: 양수 기본값: 1
`num_layers_encoder`	인코더 `rnn` 또는 `cnn`에 대한 계층 수. 선택 사항 유효한 값: 양수 기본값: 1
`optimized_metric`	조기 중지에 최적화된 지표. 선택 사항 유효한 값: 문자열. `perplexity`, `accuracy` 또는 `bleu`. 기본 값: `perplexity`
`optimizer_type`	옵티마이저 선택. 선택 사항 유효한 값: 문자열. `adam`, `sgd` 또는 `rmsprop`. 기본 값: `adam`
`plateau_reduce_lr_factor`	학습률을 곱하는 팩터(`plateau_reduce`의 경우). 선택 사항 유효한 값: 부동 소수점 기본 값: 0.5
`plateau_reduce_lr_threshold`	`plateau_reduce` 스케줄러의 경우 `optimized_metric`이 체크포인트에 대해 개선되지 않은 경우 감소 팩터로 학습률을 곱합니다. 선택 사항 유효한 값: 양수 기본값: 3
`rnn_attention_in_upper_layers`	어텐션을 Google NMT paper와 같은 rnn의 상위 계층으로 전달합니다. 2개 이상의 계층이 사용되는 경우에만 해당됩니다. 선택 사항 유효한 값: 부울(`true` 또는 `false`) 기본 값: `true`
`rnn_attention_num_hidden`	어텐션 계층에 대한 숨겨진 유닛 수(기본값: `rnn_num_hidden`) 선택 사항 유효한 값: 양수 기본 값: `rnn_num_hidden`
`rnn_attention_type`	인코더의 어텐션 모델. Luong et al. 백서에 따르면 `mlp`는 concat를, bilinear는 general을 가리킵니다. 선택 사항 유효한 값: 문자열. `dot`, `fixed`, `mlp` 또는 `bilinear` 중 하나 기본 값: `mlp`
`rnn_cell_type`	특정 유형의 `rnn` 아키텍처 선택 사항 유효한 값: 문자열. `lstm` 또는 `gru`입니다. 기본 값: `lstm`
`rnn_decoder_state_init`	인코더로부터 `rnn` 디코더 상태를 초기화하는 방법 선택 사항 유효한 값: 문자열. `last`, `avg` 또는 `zero`. 기본 값: `last`
`rnn_first_residual_layer`	잔류 연결을 보유하는 첫 번째 rnn 계층으로, 인코더 또는 디코더의 계층 수가 2개 이상인 경우에만 해당됩니다. 선택 사항 유효한 값: 양수 기본값: 2
`rnn_num_hidden`	인코더 및 디코더에 대한 rnn 숨겨진 유닛 수. 이는 2의 배수여야 합니다. 알고리즘이 기본적으로 양방향 Long Term Short Term Memory(LSTM)를 사용하기 때문입니다. 선택 사항 유효한 값: 양의 짝수. 기본값: 1024
`rnn_residual_connections`	누적된 rnn에 잔류 연결을 추가합니다. 계층의 수는 2개 이상이어야 합니다. 선택 사항 유효한 값: 부울(`true` 또는 `false`) 기본 값: `false`
`rnn_decoder_hidden_dropout`	컨텍스트를 디코더의 rnn 숨겨진 상태와 결합한 숨겨진 상태에 대한 드롭아웃 가능성. 선택 사항 유효한 값: 부동 소수점. 범위: [0,1]. 기본값: 0
`training_metric`	평가 데이터에 대한 훈련 추적 지표. 선택 사항 유효한 값: 문자열. `perplexity` 또는 `accuracy`입니다. 기본 값: `perplexity`
`weight_decay`	가중치 감퇴 상수. 선택 사항 유효한 값: 부동 소수점 기본값: 0
`weight_init_scale`	가중치 초기화 규모(`uniform` 및 `xavier` 초기화의 경우). 선택 사항 유효한 값: 부동 소수점 기본값: 2.34
`weight_init_type`	가중치 초기화 유형. 선택 사항 유효한 값: 문자열. `uniform` 또는 `xavier`입니다. 기본 값: `xavier`
`xavier_factor_type`	Xavier 팩터 유형. 선택 사항 유효한 값: 문자열. `in`, `out` 또는 `avg`. 기본 값: `in`

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

작동 방식

모델 튜닝

쿠키 기본 설정 선택

쿠키 기본 설정 사용자 지정

필수

성능

기능

광고

쿠키 기본 설정을 저장할 수 없음

Sequence-to-Sequence 하이퍼파라미터

Related resources

페이지 내용이 도움이 되었습니까?

Related resources

다음 주제:

이전 주제:

도움이 필요하십니까?