Creazione di un vocabolario personalizzato utilizzando una tabella - Amazon Transcribe

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di un vocabolario personalizzato utilizzando una tabella

L'uso di un formato tabella è il modo migliore per creare un vocabolario personalizzato. Le tabelle dei vocabolari devono essere composte da quattro colonne (Phrase, SoundsLike, IPA, and DisplayAs), che possono essere incluse in qualsiasi ordine:

Phrase SoundsLike IPA DisplayAs

Obbligatorio. Ogni riga della tabella deve contenere una voce in questa colonna.

Non utilizzare spazi in questa colonna.

Se la voce contiene più parole, separa ogni parola con un trattino (-). Ad esempio Andorra-la-Vella o Los-Angeles.

Per gli acronimi, tutte le lettere pronunciate devono essere separate da un punto. Anche il punto finale deve essere pronunciato. Se l'acronimo è plurale, è necessario utilizzare un trattino tra l'acronimo e la “s”. Ad esempio, “CLI” è C.L.I. (non C.L.I) e “ABCs” è A.B.C.-s (non A.B.C-s).

Se la frase è composta sia da una parola che da un acronimo, questi due componenti devono essere separati da un trattino. Ad esempio, “DynamoDB” è Dynamo-D.B..

Non includere cifre in questa colonna; i numeri devono essere scritti per esteso. Ad esempio, “VX02Q” è V.X.-zero-two-Q..

SoundsLikenon è più supportato per Custom Vocabulary. Si prega di lasciare la colonna vuota. Tutti i valori in questa colonna verranno ignorati. In futuro rimuoveremo il supporto per questa colonna.

IPAnon è più supportato per Custom Vocabulary. Si prega di lasciare la colonna vuota. Tutti i valori in questa colonna verranno ignorati. In futuro rimuoveremo il supporto per questa colonna.

Facoltativo. Le righe di questa colonna possono essere lasciate vuote.

È possibile utilizzare spazi in questa colonna.

Specifica come vuoi che la voce appaia nell'output della trascrizione. Ad esempio, Andorra-la-Vella nella colonna Phrase è Andorra la Vella nella colonna DisplayAs.

Se una riga in questa colonna è vuota, Amazon Transcribe utilizza il contenuto della Phrase colonna per determinare l'output.

È possibile includere cifre (0-9) in questa colonna.

Cose da tenere a mente durante la creazione della tabella:

  • La tabella deve contenere tutte e quattro le intestazioni (Phrase, SoundsLike, IPA, and DisplayAs) di colonna. La Phrase colonna deve contenere una voce su ogni riga. La possibilità di fornire input di pronuncia tramite IPA e non SoundsLike è più supportata ed è possibile lasciare la colonna vuota. Tutti i valori in queste colonne verranno ignorati.

  • Ogni colonna deve essere delimitata dal tasto TAB o da una virgola (,); questo vale per ogni riga del file del vocabolario personalizzato. Se una riga contiene colonne vuote, è comunque necessario includere un delineatore (TAB o virgola) per ogni colonna.

  • Gli spazi sono consentiti solo all'interno delle colonne IPA e DisplayAs. Non utilizzare spazi per separare le colonne.

  • IPAe non SoundsLike sono più supportati per Custom Vocabulary. Si prega di lasciare la colonna vuota. Tutti i valori in queste colonne verranno ignorati. In futuro rimuoveremo il supporto per questa colonna.

  • La colonna DisplayAs supporta simboli e caratteri speciali (ad esempio, C++). Tutte le altre colonne supportano i caratteri elencati nella pagina del set di caratteri della lingua in uso.

  • Se vuoi includere numeri nella colonna Phrase, devi riscriverli per esteso. Le cifre (0-9) sono supportate solo nella colonna DisplayAs.

  • È necessario salvare la tabella come file di testo semplice (*.txt) in formato LF. Se utilizzi un altro formato, ad esempio CRLF, il tuo vocabolario personalizzato non può essere elaborato.

  • Devi caricare il tuo file di vocabolario personalizzato in un Amazon S3 bucket ed elaborarlo utilizzando CreateVocabularyprima di poterlo includere in una richiesta di trascrizione. Per le istruzioni, fai riferimento a Creazione di tabelle di vocabolario personalizzato.

Nota

Inserisci gli acronimi o altre parole le cui lettere devono essere pronunciate singolarmente come singole lettere separate da punti (A.B.C.). Per immettere la forma plurale di un acronimo, come “ABCs”, separa la "s" dall'acronimo con un trattino (A.B.C.-s). Per definire un acronimo, puoi utilizzare lettere maiuscole o minuscole. Gli acronimi non sono supportati in tutte le lingue; consulta Lingue supportate e funzionalità specifiche della lingua.

Ecco un esempio di tabella di vocabolario personalizzata (dove [TAB] rappresenta un carattere di tabulazione):

Phrase[TAB]SoundsLike[TAB]IPA[TAB]DisplayAs Los-Angeles[TAB][TAB][TAB]Los Angeles Eva-Maria[TAB][TAB][TAB] A.B.C.-s[TAB][TAB][TAB]ABCs Amazon-dot-com[TAB][TAB][TAB]Amazon.com C.L.I.[TAB][TAB][TAB]CLI Andorra-la-Vella[TAB][TAB][TAB]Andorra la Vella Dynamo-D.B.[TAB][TAB][TAB]DynamoDB V.X.-zero-two[TAB][TAB][TAB]VX02 V.X.-zero-two-Q.[TAB][TAB][TAB]VX02Q

Per maggiore chiarezza visiva, ecco la stessa tabella con colonne allineate. Non aggiungete spazi tra le colonne nella tabella del vocabolario personalizzato; la tabella dovrebbe apparire disallineata come nell'esempio precedente.

Phrase [TAB]SoundsLike [TAB]IPA [TAB]DisplayAs Los-Angeles [TAB] [TAB] [TAB]Los Angeles Eva-Maria [TAB] [TAB] [TAB] A.B.C.-s [TAB] [TAB] [TAB]ABCs amazon-dot-com [TAB] [TAB] [TAB]amazon.com C.L.I. [TAB] [TAB] [TAB]CLI Andorra-la-Vella[TAB] [TAB] [TAB]Andorra la Vella Dynamo-D.B. [TAB] [TAB] [TAB]DynamoDB V.X.-zero-two [TAB] [TAB] [TAB]VX02 V.X.-zero-two-Q.[TAB] [TAB] [TAB]VX02Q

Creazione di tabelle di vocabolario personalizzato

Per elaborare una tabella di vocabolario personalizzata da utilizzare con Amazon Transcribe, guarda i seguenti esempi:

  1. Accedi alla AWS Management Console.

  2. Nel riquadro di navigazione, scegli Vocabolario personalizzato. Si aprirà la pagina del Vocabolario personalizzato in cui è possibile visualizzare i vocabolari esistenti o crearne uno nuovo.

  3. Seleziona Crea vocabolario.

    Amazon Transcribe schermata della console: la pagina del «vocabolario personalizzato».

    Viene visualizzata la pagina Crea vocabolario. Inserisci un nome per il nuovo vocabolario personalizzato.

    Sono disponibili tre opzioni:

    1. Carica un file txt o csv dal tuo computer.

      Puoi creare il tuo vocabolario personalizzato partendo da zero o scaricare un modello per aiutarti a iniziare. Il tuo vocabolario viene quindi compilato automaticamente nel riquadro Visualizza e modifica vocabolario.

      Amazon Transcribe schermata della console: la pagina «crea e importa il vocabolario».
    2. Importa un file txt o csv da qualsiasi posizione. Amazon S3

      Puoi creare il tuo vocabolario personalizzato partendo da zero o scaricare un modello per aiutarti a iniziare. Carica il file del vocabolario finito in un bucket Amazon S3 e specifica il relativo URI nella richiesta. Il tuo vocabolario viene quindi compilato automaticamente nel riquadro Visualizza e modifica vocabolario.

      Amazon Transcribe schermata della console: la pagina «crea e importa il vocabolario».
    3. Crea manualmente il tuo vocabolario nella console.

      Scorri fino al riquadro Visualizza e modifica vocabolario e seleziona Aggiungi 10 righe. Ora puoi inserire manualmente i termini.

      Amazon Transcribe schermata della console: la pagina «crea e importa il vocabolario».
  4. Puoi modificare il tuo vocabolario nel riquadro Visualizza e modifica vocabolario. Per apportare modifiche, fai clic sulla voce che desideri modificare.

    Amazon Transcribe schermata della console: il pannello «crea e modifica il vocabolario».

    Se commetti un errore, riceverai un messaggio di errore dettagliato in modo da poter correggere eventuali problemi prima di elaborare il vocabolario. Nota che se non correggi tutti gli errori prima di selezionare Crea vocabolario, la tua richiesta di vocabolario fallirà.

    Amazon Transcribe schermata della console: il pannello «crea e modifica il vocabolario».

    Seleziona il segno di spunta (✓) per salvare le modifiche o la “X” per ignorarle.

  5. Facoltativamente, aggiungi i tag al vocabolario personalizzato. Una volta che hai completato tutti i campi e sei soddisfatto del tuo vocabolario, seleziona Crea vocabolario nella parte inferiore della pagina. Questo ti riporta alla pagina del Vocabolario personalizzato dove puoi visualizzare lo stato del tuo vocabolario personalizzato. Quando lo stato passa da “In sospeso” a “Pronto”, il vocabolario personalizzato può essere utilizzato con una trascrizione.

    Amazon Transcribe schermata della console: vocabolario personalizzato in stato di attesa durante l'elaborazione.
  6. Se lo stato cambia in “Non riuscito”, seleziona il nome del vocabolario personalizzato per accedere alla relativa pagina delle informazioni.

    Amazon Transcribe schermata della console: pagina «vocabolario personalizzato» che mostra un vocabolario completo e uno non valido.

    Nella parte superiore di questa pagina è presente un banner relativo al motivo dell'errore che fornisce informazioni sul motivo per cui il vocabolario personalizzato non è riuscito. Correggi l'errore nel file di testo e riprova.

    Amazon Transcribe schermata della console: la pagina di informazioni del vocabolario mostra il motivo dell'errore.

Questo esempio utilizza il comando crea vocabolario con un file di vocabolario formattato a tabella. Per ulteriori informazioni, consulta CreateVocabulary.

Per utilizzare un vocabolario personalizzato esistente in un lavoro di trascrizione, impostalo VocabularyName nel Settingscampo quando richiami l'StartTranscriptionJoboperazione o, dall'elenco a discesa, scegli il vocabolario personalizzato. AWS Management Console

aws transcribe create-vocabulary \ --vocabulary-name my-first-vocabulary \ --vocabulary-file-uri s3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-file.txt \ --language-code en-US

Ecco un altro esempio che utilizza il comando crea vocabolario e un corpo di richiesta che crea un vocabolario personalizzato.

aws transcribe create-vocabulary \ --cli-input-json file://filepath/my-first-vocab-table.json

Il file .json contiene il seguente corpo della richiesta. my-first-vocab-table

{ "VocabularyName": "my-first-vocabulary", "VocabularyFileUri": "s3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-table.txt", "LanguageCode": "en-US" }

Una volta lo VocabularyState viene cambiato da PENDING a READY, il vocabolario personalizzato è pronto per essere usato con una trascrizione. Per visualizzare lo stato attuale del tuo vocabolario personalizzato, esegui:

aws transcribe get-vocabulary \ --vocabulary-name my-first-vocabulary

Questo esempio utilizza il AWS SDK for Python (Boto3) per creare un vocabolario personalizzato da una tabella utilizzando il metodo create_vocabulary. Per ulteriori informazioni, consulta CreateVocabulary.

Per utilizzare un vocabolario personalizzato esistente in un lavoro di trascrizione, imposta il campo nel Settingscampo quando richiami l'StartTranscriptionJoboperazione o, da, VocabularyName scegli il vocabolario personalizzato dall'elenco a discesa. AWS Management Console

Per ulteriori esempi di utilizzo degli AWS SDK, inclusi esempi relativi a funzionalità specifiche, scenari e interservizi, consulta il capitolo. Esempi di codice per l'utilizzo di Amazon Transcribe AWS SDKs

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_vocabulary( LanguageCode = 'en-US', VocabularyName = vocab_name, VocabularyFileUri = 's3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-table.txt' ) while True: status = transcribe.get_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Nota

Se crei un nuovo Amazon S3 bucket per i tuoi file di vocabolario personalizzati, assicurati che il IAM ruolo che effettua la richiesta disponga delle autorizzazioni per accedere a questo bucket. CreateVocabulary Se il ruolo non dispone delle autorizzazioni corrette, la richiesta fallirà. Facoltativamente, puoi specificare un IAM ruolo all'interno della tua richiesta includendo il parametro. DataAccessRoleArn Per ulteriori informazioni sui IAM ruoli e le politiche in Amazon Transcribe, vedereAmazon Transcribe esempi di politiche basate sull'identità.