기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
뉴럴 보이스
Amazon Polly에는 표준 음성보다 훨씬 더 높은 품질의 음성을 생성할 수 있는 Neural text-to-speech (NTTS) 엔진이 있습니다. 표준 TTS 음성은 연결 합성을 사용합니다. 표준 엔진은 녹음된 음성의 음소를 연결하여 매우 자연스러운 합성 음성을 생성합니다. 하지만 말은 변형될 수밖에 없고 파형 분절에 사용되는 기술로 인해 스피치 품질이 제한됩니다. Amazon Polly NTTS 엔진은 표준 연결 합성을 사용하여 음성을 생성하지 않습니다. 다음 두 부분으로 이루어져 있습니다.
-
신경망 — 일련의 음소 (가장 기본적인 언어 단위) 를 스펙트로그램 시퀀스로 변환하는 신경망. (스펙트그램은 다양한 주파수 대역의 에너지 준위를 보여주는 스냅샷입니다.)
-
보코더 — 스펙트로그램을 거의 연속적인 오디오 신호로 변환합니다.
TTS신경계의 첫 번째 구성요소는 모델입니다. sequence-to-sequence 이 모델은 해당하는 입력에서만 결과를 만들 뿐만 아니라 입력 요소의 시퀀스가 함께 작동하는 방식도 고려합니다. 모델이 출력되는 스펙트로그램을 선택하면 주파수 대역이 사람의 뇌가 말을 처리할 때 사용하는 음향 기능을 강조합니다.
그런 다음 이 모델의 출력이 신경 보코더로 전달되고 스펙트로그램이 스피치 파형으로 변환됩니다. 범용 연쇄 합성 시스템을 구축하는 데 사용되는 대규모 데이터 세트를 대상으로 학습하면 이 sequence-to-sequence 접근 방식을 통해 품질이 더 뛰어나고 자연스러운 음성을 얻을 수 있습니다.
사용 가능한 뉴럴 보이스
뉴럴 음성은 35개 언어 및 언어 변형으로 제공됩니다. 다음 표에 음성이 나와 있습니다.
|
언어 및 사투리 | 언어 코드 | 이름/ID | Gender |
---|---|---|---|---|
1 |
아랍어(걸프) |
ar-AE |
할라 자이드 |
여성 남성 |
2 |
벨기에 네덜란드어(플랑드르) |
nl-BE |
Lisa |
여성 |
3 |
카탈루냐어 |
ca-ES |
Arlet |
여성 |
4 |
체코 |
CS-Cz |
지트카 |
여성 |
5 |
중국어(광동어) |
yue-CN |
Hiujin |
여성 |
6 |
표준 중국어 |
cmn-CN |
Zhiyu |
여성 |
7 |
덴마크어 |
da-DK |
Sofie |
여성 |
8 |
네덜란드어 |
nl-NL |
Laura |
여성 |
9 |
영어(호주) |
en-AU |
Olivia |
여성 |
10 |
영어(영국) |
en-GB |
Amy* Emma Brian Arthur |
여성 여성 남성 남성 |
11 |
영어(인도) |
en-IN |
카잘 |
여성 |
12 |
영어(아일랜드) |
en-IE |
Niamh |
여성 |
13 |
영어(뉴질랜드) |
en-NZ |
Aria |
여성 |
14 |
영어(남아프리카) |
en-ZA |
Ayanda |
여성 |
15 |
영어(미국) |
en-US |
Danielle Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen |
여성 남성 여성(어린이) 여성 여성 여성 여성 남성 남성(어린이) 남성(어린이) 남성 여성 남성 |
16 |
핀란드어 |
fi-FI |
Suvi |
여성 |
17 |
프랑스어(벨기에) |
fr-BE |
Isabelle |
여성 |
18 |
프랑스어(캐나다) |
fr-CA |
Gabrielle Liam |
여성 남성 |
19 |
프랑스어 |
fr-FR |
Léa Rémi |
여성 남성 |
20 |
독일어 |
de-DE |
Vicki Daniel |
여성 남성 |
21 |
독일어(오스트리아) |
de-AT |
Hannah |
여성 |
22 |
독일어 (스위스) |
de-ch |
사브리나 |
여성 |
23 |
힌디어 |
hi-IN |
카잘 |
여성 |
24 |
이탈리아어 |
it-IT |
Bianca Adriano |
여성 남성 |
25 |
일본어 |
ja-JP |
Takumi Kazuha Tomoko |
남성 여성 여성 |
26 |
한국어 |
ko-KR |
Seoyeon |
여성 |
27 |
노르웨이어 |
nb-NO |
Ida |
여성 |
28 |
폴란드어 |
pl-PL |
Ola |
여성 |
29 |
포르투갈어(브라질) |
pt-BR |
Camila Vitória/Vitoria Thiago |
여성 여성 남성 |
30 |
포르투갈어(유럽) |
pt-PT |
Inês/Ines |
여성 |
31 |
스페인어(유럽) |
es-ES |
Lucia Sergio |
여성 남성 |
32 |
스페인어(멕시코) |
es-MX |
Mia Andrés |
여성 남성 |
33 |
스페인어(미국) |
es-US |
Lupe* Pedro |
여성 남성 |
34 |
스웨덴어 |
sv-SE |
Elin |
여성 |
35 |
터키어 |
tr-TR |
버킷 |
여성 |
*Amy, Joanna, Lupe 및 Matthew 음성은 뉴스 진행자 말투로 사용할 수 있습니다. 자세한 내용은 뉴스캐스터 목소리 단원을 참조하십시오.
기능 및 리전 호환성
뉴럴 보이스를 전혀 사용할 수 있는 것은 아닙니다. AWS 지역뿐 아니라 모든 Amazon Polly 기능을 지원하는 것도 아닙니다.
뉴럴 보이스는 다음 지역에서 지원됩니다.
-
미국 동부(버지니아 북부): us-east-1
-
미국 서부(오레곤): us-west-2
-
아프리카(케이프타운): af-south-1
-
아시아 태평양(도쿄): ap-northeast-1
-
아시아 태평양(서울): ap-northeast-2
-
아시아 태평양(오사카): ap-northeast-3
-
아시아 태평양(뭄바이): ap-south-1
-
아시아 태평양(싱가포르): ap-southeast-1
-
아시아 태평양(시드니): ap-southeast-2
-
캐나다(중부): ca-central-1
-
유럽(프랑크푸르트): eu-central-1
-
유럽(아일랜드): eu-west-1
-
유럽(런던): eu-west-2
-
유럽(파리): eu-west-3
-
AWS GovCloud (미국 서부): -1 us-gov-west
이 리전의 엔드포인트와 프로토콜은 표준 음성에 사용되는 것과 같습니다. 자세한 내용은 Amazon Polly 엔드포인트 및 할당량을 참조하세요.
신경 음성에 지원되는 기능은 다음과 같습니다.
-
실시간 및 비동기 스피치 합성 작업
-
뉴스 진행자 말투입니다. 진행자 말투에 대한 자세한 내용은 뉴스캐스터 목소리을 참조하세요.
-
모든 스피치 마크
-
Amazon Polly에서 지원하는 SSML 태그의 대부분은 (전부는 아님) NTTS-support 태그에 대한 자세한 내용은 지원되는 SSML 태그를 참조하십시오.
표준 음성의 경우와 마찬가지로, 다양한 샘플링 속도 중에서 선택하여 애플리케이션의 대역폭과 오디오 품질을 최적화할 수 있습니다. 표준 음성과 뉴럴 음성의 유효한 샘플링 속도는 8kHz, 16 kHzkHz, 22 또는 kHz 24입니다. 표준 음색의 기본값은 22입니다kHz. 뉴럴 보이스의 디폴트 값은 24입니다kHz. Amazon Polly는MP3, OGG (Vorbis) 및 원시 PCM 오디오 스트림 형식을 지원합니다.
콘솔에서 뉴럴 엔진 사용
Amazon Polly 콘솔을 통해 Amazon Polly Neural 음성에 액세스할 수 있습니다. AWS CLI.
콘솔에서 뉴럴 엔진을 사용하려면
-
에서 Amazon Polly 콘솔을 엽니다. https://console.aws.amazon.com/polly/
-
콘솔에서 Neural 엔진을 선택합니다.
-
음성 드롭다운 메뉴에서 원하는 음성을 선택합니다.
-
원하는 텍스트로 TTS 오디오를 생성합니다.