Suara saraf

Mode fokus

Suara saraf - Amazon Polly

Suara saraf yang tersedia Kompatibilitas fitur dan wilayah

Amazon Polly memiliki mesin Neural text-to-speech (NTTS) yang dapat menghasilkan suara berkualitas lebih tinggi daripada suara standarnya. Suara TTS standar menggunakan sintesis konkatenatif. Mesin standar menggabungkan fonem ucapan yang direkam, menghasilkan ucapan sintesis yang terdengar sangat alami. Namun, variasi bicara yang tak terhindarkan dan teknik yang digunakan untuk mengelompokkan bentuk gelombang membatasi kualitas bicara. Mesin Amazon Polly NTTS tidak menggunakan sintesis concatenative standar untuk menghasilkan ucapan. Ini memiliki dua bagian:

Jaringan saraf — yang mengubah urutan fonem (unit bahasa paling dasar) menjadi urutan spektrogram. (Spektogram adalah snapshot dari tingkat energi dalam pita frekuensi yang berbeda.)
Vocoder — yang mengubah spektrogram menjadi sinyal audio yang hampir terus menerus.

Komponen pertama dari sistem TTS saraf adalah sequence-to-sequence model. Model ini tidak membuat hasilnya hanya dari input yang sesuai tetapi juga mempertimbangkan bagaimana urutan elemen input bekerja sama. Model memilih spektrogram yang dikeluarkannya sehingga pita frekuensinya menekankan fitur akustik yang digunakan otak manusia saat memproses ucapan.

Output dari model ini kemudian diteruskan ke vocoder saraf. Ini mengubah spektrogram menjadi bentuk gelombang bicara. Ketika dilatih pada kumpulan data besar yang digunakan untuk membangun sistem sintesis gabungan tujuan umum, pendekatan ini sequence-to-sequence akan menghasilkan suara berkualitas lebih tinggi dan terdengar lebih alami.

Suara saraf yang tersedia

Suara saraf tersedia dalam 36 bahasa dan varian bahasa. Tabel berikut mencantumkan suara-suara.

	Varian bahasa dan bahasa	Kode bahasa	Nama/ID	Gender
1	Arab (Teluk)	AR-ae	Hala Zayd	Perempuan Laki-laki
2	Belanda Belgia (Flemish)	Nl-be	Lisa	Perempuan
3	Catalan	CA-es	Arlet	Perempuan
4	Ceko	cs-cz	Jitka	Perempuan
5	Tionghoa (Kanton)	Yue-CN	Hiujin	Perempuan
6	Mandarin (Mandarin)	Cmn-cn	Zhiyu	Perempuan
7	Denmark	Da-dk	Sofie	Perempuan
8	Belanda	Nl-NL	Laura	Perempuan
9	Inggris (Australia)	En-au	Olivia	Perempuan
10	Inggris (Inggris)	id - GB	Amy* Emma Brian Arthur	Perempuan Perempuan Laki-laki Laki-laki
11	Inggris (India)	En-in	Kajal	Perempuan
12	Inggris (Irlandia)	En-ie	Niamh	Perempuan
13	Inggris (Selandia Baru)	en-NZ	Aria	Perempuan
14	English (Singaporean)	En-SG	Melati	Perempuan
15	Inggris (Afrika Selatan)	En-za	Ayanda	Perempuan
16	Inggris (US)	en-US	Danielle Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen	Perempuan Laki-laki Perempuan (anak) Perempuan Perempuan Perempuan Perempuan Laki-laki Laki-laki (anak) Laki-laki (anak) Laki-laki Perempuan Laki-laki
17	Finlandia	Fi-Fi	Suvi	Perempuan
18	Perancis (Belgia)	FR-Be	Isabelle	Perempuan
19	Perancis (Kanada)	FR-Ca	Gabrielle Liam	Perempuan Laki-laki
20	Perancis	FR-fr	Léa Remi	Perempuan Laki-laki
21	Jerman	De-de	Vicki Daniel	Perempuan Laki-laki
22	Jerman (Austria)	De-at	Hannah	Perempuan
23	Jerman (Swiss)	De-ch	Sabrina	Perempuan
24	Hindi	Hi-in	Kajal	Perempuan
25	Italia	It-itu	Bianca Adriano	Perempuan Laki-laki
26	Jepang	Ja-JP	Takumi Kazuha Tomoko	Laki-laki Perempuan Perempuan
27	Korea	Ko-kr	Seoyeon Jihye	Perempuan Perempuan
28	Norwegia	NB-Tidak	Ida	Perempuan
29	Polandia	PL-PL	Ola	Perempuan
30	Portugis (Brasil)	Pt-BR	Camila Vitoria/Vitoria Thiago	Perempuan Perempuan Laki-laki
31	Portugis (Eropa)	Pt-PT	Inês/Ines	Perempuan
32	Spanyol (Spanyol)	ES-es	Lucia Sergio	Perempuan Laki-laki
33	Spanyol (Meksiko)	ES-mx	Mia Andrés	Perempuan Laki-laki
34	Spanyol (AS)	es-AS	Lupe* Pedro	Perempuan Laki-laki
35	Swedia	SV-SE	Elin	Perempuan
36	Turki	TR-TR	Burcu	Perempuan

* Suara Amy, Joanna, Lupe, dan Matthew dapat digunakan dengan gaya berbicara penyiar berita. Untuk informasi selengkapnya, lihat Menerapkan suara penyiar berita.

Kompatibilitas fitur dan wilayah

Suara saraf tidak tersedia di semua AWS Wilayah, juga tidak mendukung semua fitur Amazon Polly.

Suara saraf didukung di wilayah berikut:

AS Timur (Virginia N.): us-east-1
AS Barat (Oregon): us-west-2
Afrika (Cape Town): af-south-1
Asia Pasifik (Tokyo): ap-northeast-1
Asia Pasifik (Seoul): ap-northeast-2
Asia Pasifik (Osaka): ap-northeast-3
Asia Pasifik (Mumbai): ap-south-1
Asia Pasifik (Singapura): ap-southeast-1
Asia Pasifik (Sydney): ap-southeast-2
Asia Pasifik (Malaysia): ap-tenggara 5
Kanada (Tengah): ca-central-1
Eropa (Frankfurt am Main): eu-central-1
Eropa (Irlandia): eu-west-1
Eropa (London): eu-west-2
Eropa (Paris): eu-west-3
Eropa (Spanyol): eu-south-2
AWS GovCloud (AS-Barat): -1 us-gov-west

Titik akhir dan protokol untuk Wilayah ini identik dengan yang digunakan untuk suara standar. Untuk informasi selengkapnya, lihat titik akhir dan kuota Amazon Polly.

Fitur berikut didukung untuk suara saraf:

Operasi sintesis ucapan real-time dan asinkron.
Gaya berbicara penyiar berita. Untuk informasi lebih lanjut tentang gaya berbicara, lihatMenerapkan suara penyiar berita.
Semua tanda bicara.
Banyak (tetapi tidak semua) tag SSML yang didukung oleh Amazon Polly. Untuk informasi selengkapnya tentang tag SSML yang didukung NTTS, lihat Tag yang Didukung.

Seperti halnya suara standar, Anda dapat memilih dari berbagai laju pengambilan sampel untuk mengoptimalkan bandwidth dan kualitas audio untuk aplikasi Anda. Tingkat pengambilan sampel yang valid untuk suara standar dan saraf adalah 8 kHz, 16 kHz, 22 kHz, atau 24 kHz. Default untuk suara standar adalah 22 kHz. Default untuk suara saraf adalah 24 kHz. Amazon Polly mendukung MP3, OGG (Vorbis), dan format streaming audio PCM mentah.