Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Membuat model bahasa khusus
Sebelum Anda dapat membuat model bahasa kustom Anda, Anda harus:
-
Siapkan data Anda. Data harus disimpan dalam format teks biasa dan tidak dapat berisi karakter khusus.
-
Unggah data Anda ke dalam Amazon S3 bucket. Membuat folder terpisah untuk pelatihan dan penyetelan data dianjurkan.
-
Pastikan Amazon Transcribe memiliki akses ke Amazon S3 ember Anda. Anda harus menentukan IAM peran yang memiliki izin akses untuk menggunakan data Anda.
Mempersiapkan data Anda
Anda dapat mengkompilasi semua data Anda dalam satu file atau menyimpannya sebagai beberapa file. Perhatikan bahwa jika Anda memilih untuk menyertakan data penyetelan, data harus disimpan dalam file terpisah dari data latihan Anda.
Tidak masalah berapa banyak file teks yang Anda gunakan untuk pelatihan atau penyetelan data Anda. Mengunggah satu file dengan 100.000 kata menghasilkan hasil yang sama dengan mengunggah 10 file dengan 10.000 kata. Siapkan data teks Anda dengan cara yang paling nyaman bagi Anda.
Pastikan semua file data Anda memenuhi kriteria berikut:
-
Mereka semua dalam bahasa yang sama dengan model yang ingin Anda buat. Misalnya, jika Anda ingin membuat model bahasa khusus yang mentranskripsikan audio dalam bahasa Inggris AS (
en-US
), semua data teks Anda harus dalam bahasa Inggris AS. -
Mereka berada dalam format teks biasa dengan pengkodean UTF-8.
-
Mereka tidak mengandung karakter khusus atau format, seperti tag HTML.
-
Mereka berjumlah total gabungan maksimum 2 GB untuk data pelatihan dan 200 MB untuk menyetel data.
Jika salah satu kriteria ini tidak terpenuhi, model Anda gagal.
Mengunggah data Anda
Sebelum mengunggah data Anda, buat folder baru untuk data latihan Anda. Jika menggunakan data tuning, buat folder terpisah lainnya.
URI untuk bucket Anda mungkin terlihat seperti:
-
s3://DOC-EXAMPLE-BUCKET/my-model-training-data/
-
s3://DOC-EXAMPLE-BUCKET/my-model-tuning-data/
Unggah data pelatihan dan penyetelan Anda ke bucket yang sesuai.
Anda dapat menambahkan lebih banyak data ke bucket ini di kemudian hari. Namun, jika Anda melakukannya, Anda perlu membuat ulang model Anda dengan data baru. Model yang ada tidak dapat diperbarui dengan data baru.
Mengizinkan akses ke data Anda
Untuk membuat model bahasa kustom, Anda harus menentukan IAM peran yang memiliki izin untuk mengakses Amazon S3 bucket Anda. Jika Anda belum memiliki peran dengan akses ke Amazon S3 bucket tempat Anda menempatkan data latihan, Anda harus membuatnya. Setelah membuat peran, Anda dapat melampirkan kebijakan untuk memberikan izin peran tersebut. Jangan lampirkan kebijakan untuk pengguna.
Untuk kebijakan-kebijakan contoh, lihat Amazon Transcribe contoh kebijakan berbasis identitas.
Untuk mempelajari cara membuat IAM identitas baru, lihat IAMIdentitas (pengguna, grup pengguna, dan peran).
Untuk mempelajari selengkapnya tentang kebijakan, lihat:
Membuat model bahasa kustom Anda
Saat membuat model bahasa khusus Anda, Anda harus memilih model dasar. Ada dua opsi model dasar:
-
NarrowBand
: Gunakan opsi ini untuk audio dengan laju sampel kurang dari 16.000 Hz. Jenis model ini biasanya digunakan untuk percakapan telepon yang direkam pada 8.000 Hz. -
WideBand
: Gunakan opsi ini untuk audio dengan laju sampel lebih besar dari atau sama dengan 16.000 Hz.
Anda dapat membuat model bahasa kustom menggunakanAWS Management Console,AWS CLI, atau AWS SDK.; lihat contoh berikut:
-
Masuk ke AWS Management Console
. -
Di panel navigasi, pilih Model bahasa kustom. Ini membuka halaman Model bahasa khusus tempat Anda dapat melihat model bahasa khusus yang ada atau melatih model bahasa khusus baru.
-
Untuk melatih model baru, pilih model Kereta.
Ini akan membawa Anda ke halaman model Kereta. Tambahkan nama, tentukan bahasa, dan pilih model dasar yang Anda inginkan untuk model Anda. Kemudian, tambahkan jalur ke pelatihan Anda dan, secara opsional, data penyetelan Anda. Anda harus mencantumkan IAM peran yang memiliki izin untuk mengakses data Anda.
-
Setelah Anda menyelesaikan semua bidang, pilih Model kereta di bagian bawah halaman.
Contoh ini menggunakan create-language-modelCreateLanguageModel
dan LanguageModel
.
aws transcribe create-language-model \ --base-model-name
NarrowBand
\ --model-namemy-first-language-model
\ --input-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET
/my-clm-training-data
/,TuningDataS3Uri=s3://DOC-EXAMPLE-BUCKET
/my-clm-tuning-data
/,DataAccessRoleArn=arn:aws:iam::111122223333
:role/ExampleRole
\ --language-codeen-US
Berikut contoh lain menggunakan create-language-model
aws transcribe create-language-model \ --cli-input-json file://
filepath
/my-first-language-model
.json
File my-first-language-model.json berisi badan permintaan berikut.
{ "BaseModelName": "
NarrowBand
", "ModelName": "my-first-language-model
", "InputDataConfig": { "S3Uri": "s3://DOC-EXAMPLE-BUCKET
/my-clm-training-data
/", "TuningDataS3Uri"="s3://DOC-EXAMPLE-BUCKET
/my-clm-tuning-data
/", "DataAccessRoleArn": "arn:aws:iam::111122223333
:role/ExampleRole
" }, "LanguageCode": "en-US
" }
Contoh ini menggunakan AWS SDK for Python (Boto3) untuk membuat CLM menggunakan metode create_language_modelCreateLanguageModel
dan LanguageModel
.
Untuk contoh tambahan yang menggunakan AWS SDK, termasuk contoh spesifik-fitur, skenario, dan lintas-layanan, lihat bagian ini. Contoh kode untuk Amazon Transcribe menggunakan AWS SDKs
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', '
us-west-2
') model_name = 'my-first-language-model
', transcribe.create_language_model( LanguageCode = 'en-US
', BaseModelName = 'NarrowBand
', ModelName = model_name, InputDataConfig = { 'S3Uri':'s3://DOC-EXAMPLE-BUCKET
/my-clm-training-data
/', 'TuningDataS3Uri':'s3://DOC-EXAMPLE-BUCKET
/my-clm-tuning-data
/', 'DataAccessRoleArn':'arn:aws:iam::111122223333
:role/ExampleRole
' } ) while True: status = transcribe.get_language_model(ModelName = model_name) if status['LanguageModel']['ModelStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Memperbarui model bahasa kustom Anda
Amazon Transcribeterus memperbarui model dasar yang tersedia untuk model bahasa kustom. Untuk mendapatkan manfaat dari pembaruan ini, kami sarankan melatih model bahasa khusus baru setiap 6 hingga 12 bulan.
Untuk melihat apakah model bahasa kustom Anda menggunakan model dasar terbaru, jalankan DescribeLanguageModel
permintaan menggunakan AWS CLI atau AWS SDK, lalu temukan UpgradeAvailability
bidang dalam respons Anda.
Jika UpgradeAvailability
yatrue
, model Anda tidak menjalankan versi terbaru dari model dasar. Untuk menggunakan model dasar terbaru dalam model bahasa kustom, Anda harus membuat model bahasa kustom baru. Model bahasa kustom tidak dapat ditingkatkan.