Suara saraf - Amazon Polly

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Suara saraf

Amazon Polly memiliki mesin Neural text-to-speech (NTTS) yang dapat menghasilkan suara berkualitas lebih tinggi daripada suara standarnya. TTSSuara standar menggunakan sintesis konkatenatif. Mesin standar menggabungkan fonem ucapan yang direkam, menghasilkan ucapan sintesis yang terdengar sangat alami. Namun, variasi bicara yang tak terhindarkan dan teknik yang digunakan untuk mengelompokkan bentuk gelombang membatasi kualitas bicara. NTTSMesin Amazon Polly tidak menggunakan sintesis konkatenatif standar untuk menghasilkan ucapan. Ini memiliki dua bagian:

  • Jaringan saraf — yang mengubah urutan fonem (unit bahasa paling dasar) menjadi urutan spektrogram. (Spektogram adalah snapshot dari tingkat energi dalam pita frekuensi yang berbeda.)

  • Vocoder — yang mengubah spektrogram menjadi sinyal audio yang hampir terus menerus.

Komponen pertama dari TTS sistem saraf adalah sequence-to-sequence model. Model ini tidak membuat hasilnya hanya dari input yang sesuai tetapi juga mempertimbangkan bagaimana urutan elemen input bekerja sama. Model memilih spektrogram yang dikeluarkannya sehingga pita frekuensinya menekankan fitur akustik yang digunakan otak manusia saat memproses ucapan.

Output dari model ini kemudian diteruskan ke vocoder saraf. Ini mengubah spektrogram menjadi bentuk gelombang bicara. Ketika dilatih pada kumpulan data besar yang digunakan untuk membangun sistem sintesis gabungan tujuan umum, pendekatan ini sequence-to-sequence akan menghasilkan suara berkualitas lebih tinggi dan terdengar lebih alami.

Suara saraf yang tersedia

Suara saraf tersedia dalam 35 bahasa dan varian bahasa. Tabel berikut mencantumkan suara-suara.

Varian bahasa dan bahasa Kode bahasa Nama/ID Gender

1

Arab (Teluk)

AR-ae

Hala

Zayd

Perempuan

Laki-laki

2

Belanda Belgia (Flemish)

Nl-be

Lisa

Perempuan

3

Catalan

CA-es

Arlet

Perempuan

4

Ceko

cs-cz

Jitka

Perempuan

5

Tionghoa (Kanton)

Yue-CN

Hiujin

Perempuan

6

Mandarin (Mandarin)

Cmn-cn

Zhiyu

Perempuan

7

Denmark

Da-dk

Sofie

Perempuan

8

Belanda

Nl-NL

Laura

Perempuan

9

Inggris (Australia)

En-au

Olivia

Perempuan

10

Inggris (Inggris)

id - GB

Amy*

Emma

Brian

Arthur

Perempuan

Perempuan

Laki-laki

Laki-laki

11

Inggris (India)

En-in

Kajal

Perempuan

12

Inggris (Irlandia)

En-ie

Niamh

Perempuan

13

Inggris (Selandia Baru)

en-NZ

Aria

Perempuan

14

Inggris (Afrika Selatan)

En-za

Ayanda

Perempuan

15

Inggris (US)

en-US

Danielle

Gregory

Ivy

Joanna*

Kendra

Kimberly

Salli

Joey

Justin

Kevin

Matthew*

Ruth

Stephen

Perempuan

Laki-laki

Perempuan (anak)

Perempuan

Perempuan

Perempuan

Perempuan

Laki-laki

Laki-laki (anak)

Laki-laki (anak)

Laki-laki

Perempuan

Laki-laki

16

Finlandia

Fi-Fi

Suvi

Perempuan

17

Perancis (Belgia)

FR-Be

Isabelle

Perempuan

18

Perancis (Kanada)

FR-Ca

Gabrielle

Liam

Perempuan

Laki-laki

19

Perancis

FR-fr

Léa

Remi

Perempuan

Laki-laki

20

Jerman

De-de

Vicki

Daniel

Perempuan

Laki-laki

21

Jerman (Austria)

De-at

Hannah

Perempuan

22

Jerman (Swiss)

De-ch

Sabrina

Perempuan

23

Hindi

Hi-in

Kajal

Perempuan

24

Italia

It-itu

Bianca

Adriano

Perempuan

Laki-laki

25

Jepang

Ja-JP

Takumi

Kazuha

Tomoko

Laki-laki

Perempuan

Perempuan

26

Korea

Ko-kr

Seoyeon

Perempuan

27

Norwegia

NB-Tidak

Ida

Perempuan

28

Polandia

PL-PL

Ola

Perempuan

29

Portugis (Brasil)

Pt-BR

Camila

Vitoria/Vitoria

Thiago

Perempuan

Perempuan

Laki-laki

30

Portugis (Eropa)

Pt-PT

Inês/Ines

Perempuan

31

Spanyol (Eropa)

ES-es

Lucia

Sergio

Perempuan

Laki-laki

32

Spanyol (Meksiko)

ES-mx

Mia

Andrés

Perempuan

Laki-laki

33

Spanyol (AS)

es-AS

Lupe*

Pedro

Perempuan

Laki-laki

34

Swedia

SV-SE

Elin

Perempuan

35

Turki

TR-TR

Burcu

Perempuan

* Suara Amy, Joanna, Lupe, dan Matthew dapat digunakan dengan gaya berbicara penyiar berita. Untuk informasi selengkapnya, lihat Menerapkan suara penyiar berita.

Kompatibilitas fitur dan wilayah

Suara saraf tidak tersedia di semua AWS Wilayah, juga tidak mendukung semua fitur Amazon Polly.

Suara saraf didukung di wilayah berikut:

  • AS Timur (Virginia N.): us-east-1

  • AS Barat (Oregon): us-west-2

  • Afrika (Cape Town): af-south-1

  • Asia Pasifik (Tokyo): ap-northeast-1

  • Asia Pasifik (Seoul): ap-northeast-2

  • Asia Pasifik (Osaka): ap-northeast-3

  • Asia Pasifik (Mumbai): ap-south-1

  • Asia Pasifik (Singapura): ap-southeast-1

  • Asia Pasifik (Sydney): ap-southeast-2

  • Kanada (Tengah): ca-central-1

  • Eropa (Frankfurt am Main): eu-central-1

  • Eropa (Irlandia): eu-west-1

  • Eropa (London): eu-west-2

  • Eropa (Paris): eu-west-3

  • AWS GovCloud (AS-Barat): -1 us-gov-west

Titik akhir dan protokol untuk Wilayah ini identik dengan yang digunakan untuk suara standar. Untuk informasi selengkapnya, lihat titik akhir dan kuota Amazon Polly.

Fitur-fitur berikut didukung untuk suara saraf:

  • Operasi sintesis ucapan waktu nyata dan asinkron.

  • Gaya berbicara penyiar berita. Untuk informasi lebih lanjut tentang gaya berbicara, lihatMenerapkan suara penyiar berita.

  • Semua tanda bicara.

  • Banyak (tetapi tidak semua) SSML tag yang didukung oleh Amazon Polly. Untuk informasi selengkapnya tentang tag yang NTTS didukung, lihat SSML Tag yang Didukung.

Seperti halnya suara standar, Anda dapat memilih dari berbagai laju pengambilan sampel untuk mengoptimalkan bandwidth dan kualitas audio untuk aplikasi Anda. Tingkat pengambilan sampel yang valid untuk suara standar dan saraf adalah 8kHz, 16, 22 kHzkHz, atau 24. kHz Default untuk suara standar adalah 22kHz. Default untuk suara saraf adalah 24kHz. Amazon Polly mendukungMP3, OGG (Vorbis), dan format streaming PCM audio mentah.