사용 가능한 제너레이티브 보이스 기능 및 리전 호환성 콘솔의 제너레이티브 엔진 사용

제너레이티브 보이스

Amazon Polly의 generative text-to-speech (TTS) 엔진은 Amazon Polly 콘솔을 통해 사용할 수 있는 가장 인간적이고 감정적이며 적응력이 뛰어난 대화 음성을 제공합니다.

제너레이티브 엔진은 현재까지 출시된 Amazon TTS Polly 모델 중 가장 큰 모델입니다. 원시 텍스트를 음성 코드로 변환하는 10억 파라미터 변환기를 배포한 다음, 이러한 음성 코드를 점진적이고 스트리밍 가능한 방식으로 파형으로 변환하는 컨볼루션 기반 디코더를 배포합니다. 이 방법은 다양한 음성, 언어 및 스타일로 구성된 공개적으로 사용 가능한 독점 데이터의 양이 증가함에 따라 학습했을 때 널리 보고된 Large Language LLMs Models () 의 새로운 기능을 보여줍니다.

제너레이티브 엔진은 사람의 목소리와 매우 유사한 방식으로 감정적으로 몰입되고 독단적이며 매우 구어적인 합성 음성을 생성합니다. 이러한 음성을 지식이 풍부한 고객 도우미, 가상 트레이너 또는 인간에 가까운 합성 음성을 사용하는 광고주로 사용할 수 있습니다.

참고

이러한 음성의 기반이 되는 state-of-the-art 기술은 언어 및 음성 모델링을 위한 제너레이티브 AI 패러다임에 속합니다. 이 기술의 부작용은 훈련 데이터와 모델이 업데이트되면 음성이 약간 다르게 들릴 수 있다는 것입니다. 모델 업데이트로 전반적인 음질이 개선되더라도 말이죠. 이는 오랜 기간 동안 다양한 콘텐츠 부분을 합성하는 사용 사례 (예: 팟캐스트 시즌) 에 영향을 미칠 수 있습니다.

사용 가능한 제너레이티브 보이스

Amazon Polly는 현재 생성형 변형으로 여성 2명과 남성 1명의 영어 음성을 제공합니다. 이러한 제너레이티브 음성은 대화형 버전으로도 제공됩니다. NTTS

	언어	언어 코드	이름/ID	Gender
1	영어 (영국)	en-GB	Amy	여성
2	영어(미국)	en-US	Matthew Ruth	남성 여성

언어

언어 코드

이름/ID

Gender

영어 (영국)

en-GB

Amy

여성

영어(미국)

en-US

Matthew

Ruth

남성

여성

참고

제너레이티브 보이스 비용은 Amazon Polly 요금 정보 페이지에 명시되어 있습니다.

기능 및 리전 호환성

Amazon Polly 제너레이티브 음성은 다음 지역에서 사용할 수 있습니다.

미국 동부(버지니아 북부): us-east-1
유럽(프랑크푸르트): eu-central-1
다른 지역은 사용할 수 없습니다.

제너레이티브 보이스에는 다음 기능이 지원됩니다.

실시간 및 비동기 스피치 합성 작업
제너레이티브 엔진에서는 뉴스캐스터 발언 스타일이 지원되지 않습니다.
Amazon Polly는 대부분 (전부는 아님) SSML 태그를 지원합니다. NTTS-supported 태그에 대한 자세한 내용은 지원되는 SSML 태그를 참조하십시오. SSML
표준 음성의 경우와 마찬가지로, 다양한 샘플링 속도 중에서 선택하여 애플리케이션의 대역폭과 오디오 품질을 최적화할 수 있습니다. 표준 및 뉴럴 음성의 유효한 샘플링 속도는 8kHz, 16 kHzkHz, 22 또는 kHz 24입니다. 표준 음색의 기본값은 22입니다kHz. 제너레이티브 보이스의 기본값은 kHz 24입니다. Amazon Polly는MP3, OGG (Vorbis) 및 원시 PCM 오디오 스트림 형식을 지원합니다.

스피치 마크 생성에 대한 지원은 현재 제공되지 않습니다.

참고

드물게 모델 환각 현상이 발생하고 토큰별로 음성 토큰을 렌더링하는 제너레이티브 엔진의 모델 동작이 발생하는 경우 비상 정지 메커니즘이 적용됩니다. 내장된 메커니즘은 모델이 더 이상 음성을 렌더링하지 못하게 합니다. 이 안전 기능은 모델이 환각을 일으킬 가능성이 있는 데이터 분석 (보통 문장 끝부분) 을 기반으로 합니다.

모델이 환각을 일으킬 것이라고 생각하다가 생성 단계에서 단어를 잘라서 단어의 절반을 렌더링하는 경우가 있을 수 있습니다. 이로 인해 부적절한 결과가 나올 수 있습니다.

콘솔의 제너레이티브 엔진 사용

Amazon Polly 콘솔을 통해 Amazon Polly 제너레이티브 음성에 액세스할 수 있습니다. AWS CLI. 콘솔에서 제너레이티브 엔진을 선택한 다음 목록에서 해당하는 제너레이티브 음성을 선택하면 해당 음성으로 합성된 음성을 들을 수 있습니다. 및 연산을 사용하여 제너레이티브 음성을 탐색할 수도 있습니다. SynthesizeSpeech StartSpeechSynthesisTask API API오퍼레이션의 경우 API 요청에 엔진과 보이스 이름을 지정할 수 있습니다. Python을 사용하여 빠르게 시작하는 코드 예제는 Python 예제를 참조하십시오.

콘솔에서 제너레이티브 엔진을 사용하려면

에서 Amazon Polly 콘솔을 엽니다. https://console.aws.amazon.com/polly/
Amazon Polly 콘솔에서 제너레이티브 엔진을 선택합니다.
음성 드롭다운 메뉴에서 원하는 음성을 선택합니다.
원하는 텍스트로 TTS 오디오를 생성합니다.

참고

제너레이티브 음성을 SynthesizeSpeech및 StartSpeechSynthesisTaskAPI연산과 함께 사용할 수도 있습니다. API오퍼레이션의 경우 고객은 API 요청에 엔진과 보이스 이름을 지정할 수 있습니다. 여기에서 더 많은 퀵 스타트 코드 샘플을 찾을 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

보이스 엔진

롱폼 엔진