Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Suara saraf

Mode fokus
Suara saraf - Amazon Polly

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Amazon Polly memiliki mesin Neural text-to-speech (NTTS) yang dapat menghasilkan suara berkualitas lebih tinggi daripada suara standarnya. Suara TTS standar menggunakan sintesis konkatenatif. Mesin standar menggabungkan fonem ucapan yang direkam, menghasilkan ucapan sintesis yang terdengar sangat alami. Namun, variasi bicara yang tak terhindarkan dan teknik yang digunakan untuk mengelompokkan bentuk gelombang membatasi kualitas bicara. Mesin Amazon Polly NTTS tidak menggunakan sintesis concatenative standar untuk menghasilkan ucapan. Ini memiliki dua bagian:

  • Jaringan saraf — yang mengubah urutan fonem (unit bahasa paling dasar) menjadi urutan spektrogram. (Spektogram adalah snapshot dari tingkat energi dalam pita frekuensi yang berbeda.)

  • Vocoder — yang mengubah spektrogram menjadi sinyal audio yang hampir terus menerus.

Komponen pertama dari sistem TTS saraf adalah sequence-to-sequence model. Model ini tidak membuat hasilnya hanya dari input yang sesuai tetapi juga mempertimbangkan bagaimana urutan elemen input bekerja sama. Model memilih spektrogram yang dikeluarkannya sehingga pita frekuensinya menekankan fitur akustik yang digunakan otak manusia saat memproses ucapan.

Output dari model ini kemudian diteruskan ke vocoder saraf. Ini mengubah spektrogram menjadi bentuk gelombang bicara. Ketika dilatih pada kumpulan data besar yang digunakan untuk membangun sistem sintesis gabungan tujuan umum, pendekatan ini sequence-to-sequence akan menghasilkan suara berkualitas lebih tinggi dan terdengar lebih alami.

Suara saraf yang tersedia

Suara saraf tersedia dalam 36 bahasa dan varian bahasa. Tabel berikut mencantumkan suara-suara.

Varian bahasa dan bahasa Kode bahasa Nama/ID Gender

1

Arab (Teluk)

AR-ae

Hala

Zayd

Perempuan

Laki-laki

2

Belanda Belgia (Flemish)

Nl-be

Lisa

Perempuan

3

Catalan

CA-es

Arlet

Perempuan

4

Ceko

cs-cz

Jitka

Perempuan

5

Tionghoa (Kanton)

Yue-CN

Hiujin

Perempuan

6

Mandarin (Mandarin)

Cmn-cn

Zhiyu

Perempuan

7

Denmark

Da-dk

Sofie

Perempuan

8

Belanda

Nl-NL

Laura

Perempuan

9

Inggris (Australia)

En-au

Olivia

Perempuan

10

Inggris (Inggris)

id - GB

Amy*

Emma

Brian

Arthur

Perempuan

Perempuan

Laki-laki

Laki-laki

11

Inggris (India)

En-in

Kajal

Perempuan

12

Inggris (Irlandia)

En-ie

Niamh

Perempuan

13

Inggris (Selandia Baru)

en-NZ

Aria

Perempuan

14

English (Singaporean)

En-SG

Melati

Perempuan

15

Inggris (Afrika Selatan)

En-za

Ayanda

Perempuan

16

Inggris (US)

en-US

Danielle

Gregory

Ivy

Joanna*

Kendra

Kimberly

Salli

Joey

Justin

Kevin

Matthew*

Ruth

Stephen

Perempuan

Laki-laki

Perempuan (anak)

Perempuan

Perempuan

Perempuan

Perempuan

Laki-laki

Laki-laki (anak)

Laki-laki (anak)

Laki-laki

Perempuan

Laki-laki

17

Finlandia

Fi-Fi

Suvi

Perempuan

18

Perancis (Belgia)

FR-Be

Isabelle

Perempuan

19

Perancis (Kanada)

FR-Ca

Gabrielle

Liam

Perempuan

Laki-laki

20

Perancis

FR-fr

Léa

Remi

Perempuan

Laki-laki

21

Jerman

De-de

Vicki

Daniel

Perempuan

Laki-laki

22

Jerman (Austria)

De-at

Hannah

Perempuan

23

Jerman (Swiss)

De-ch

Sabrina

Perempuan

24

Hindi

Hi-in

Kajal

Perempuan

25

Italia

It-itu

Bianca

Adriano

Perempuan

Laki-laki

26

Jepang

Ja-JP

Takumi

Kazuha

Tomoko

Laki-laki

Perempuan

Perempuan

27

Korea

Ko-kr

Seoyeon

Jihye

Perempuan

Perempuan

28

Norwegia

NB-Tidak

Ida

Perempuan

29

Polandia

PL-PL

Ola

Perempuan

30

Portugis (Brasil)

Pt-BR

Camila

Vitoria/Vitoria

Thiago

Perempuan

Perempuan

Laki-laki

31

Portugis (Eropa)

Pt-PT

Inês/Ines

Perempuan

32

Spanyol (Spanyol)

ES-es

Lucia

Sergio

Perempuan

Laki-laki

33

Spanyol (Meksiko)

ES-mx

Mia

Andrés

Perempuan

Laki-laki

34

Spanyol (AS)

es-AS

Lupe*

Pedro

Perempuan

Laki-laki

35

Swedia

SV-SE

Elin

Perempuan

36

Turki

TR-TR

Burcu

Perempuan

* Suara Amy, Joanna, Lupe, dan Matthew dapat digunakan dengan gaya berbicara penyiar berita. Untuk informasi selengkapnya, lihat Menerapkan suara penyiar berita.

Kompatibilitas fitur dan wilayah

Suara saraf tidak tersedia di semua AWS Wilayah, juga tidak mendukung semua fitur Amazon Polly.

Suara saraf didukung di wilayah berikut:

  • AS Timur (Virginia N.): us-east-1

  • AS Barat (Oregon): us-west-2

  • Afrika (Cape Town): af-south-1

  • Asia Pasifik (Tokyo): ap-northeast-1

  • Asia Pasifik (Seoul): ap-northeast-2

  • Asia Pasifik (Osaka): ap-northeast-3

  • Asia Pasifik (Mumbai): ap-south-1

  • Asia Pasifik (Singapura): ap-southeast-1

  • Asia Pasifik (Sydney): ap-southeast-2

  • Asia Pasifik (Malaysia): ap-tenggara 5

  • Kanada (Tengah): ca-central-1

  • Eropa (Frankfurt am Main): eu-central-1

  • Eropa (Irlandia): eu-west-1

  • Eropa (London): eu-west-2

  • Eropa (Paris): eu-west-3

  • Eropa (Spanyol): eu-south-2

  • AWS GovCloud (AS-Barat): -1 us-gov-west

Titik akhir dan protokol untuk Wilayah ini identik dengan yang digunakan untuk suara standar. Untuk informasi selengkapnya, lihat titik akhir dan kuota Amazon Polly.

Fitur berikut didukung untuk suara saraf:

  • Operasi sintesis ucapan real-time dan asinkron.

  • Gaya berbicara penyiar berita. Untuk informasi lebih lanjut tentang gaya berbicara, lihatMenerapkan suara penyiar berita.

  • Semua tanda bicara.

  • Banyak (tetapi tidak semua) tag SSML yang didukung oleh Amazon Polly. Untuk informasi selengkapnya tentang tag SSML yang didukung NTTS, lihat Tag yang Didukung.

Seperti halnya suara standar, Anda dapat memilih dari berbagai laju pengambilan sampel untuk mengoptimalkan bandwidth dan kualitas audio untuk aplikasi Anda. Tingkat pengambilan sampel yang valid untuk suara standar dan saraf adalah 8 kHz, 16 kHz, 22 kHz, atau 24 kHz. Default untuk suara standar adalah 22 kHz. Default untuk suara saraf adalah 24 kHz. Amazon Polly mendukung MP3, OGG (Vorbis), dan format streaming audio PCM mentah.

Di halaman ini

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.