Trascrizione di audio multicanale - Amazon Transcribe

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Trascrizione di audio multicanale

Se disponi di un file audio o di uno stream con più canali, puoi utilizzare l'identificazione del canale per trascrivere il discorso da ciascuno di questi canali. Amazon Transcribe Medical trascrive il discorso da ciascun canale separatamente. Combina le trascrizioni separate di ciascun canale in un unico output di trascrizione.

Utilizza l'identificazione dei canali per identificare i diversi canali dell'audio e trascrivere il discorso da ciascuno di questi canali. Attivala in situazioni come quella di un chiamante e di un agente. Utilizzatela per distinguere un chiamante da un agente nelle registrazioni o nei flussi dei contact center che effettuano il monitoraggio della sicurezza dei farmaci.

È possibile abilitare l'identificazione dei canali sia per l'elaborazione in batch che per lo streaming in tempo reale. L'elenco seguente descrive come abilitarla per ogni metodo.

Trascrizione di file audio multicanali

Quando si trascrive un file audio, Amazon Transcribe Medical restituisce un elenco di elementi per ogni canale. Un elemento è una parola o un segno di punteggiatura trascritto. Ogni parola ha un'ora di inizio e un'ora di fine. Se una persona su un canale parla sovrapponendosi a una persona su un canale separato, l'ora di inizio e l'ora di fine di ogni canale si sovrapporranno mentre le persone parlano l'una sull'altra.

Per impostazione predefinita, puoi trascrivere file audio con due canali. Puoi richiedere un aumento della quota se devi trascrivere file con più di due canali. Per ulteriori informazioni sulla richiesta di un aumento di quote, consulta quote Servizio AWS.

Per trascrivere l'audio multicanale in un processo di trascrizione in batch, utilizzate o l'API. AWS Management Console StartMedicalTranscriptionJob

Per utilizzare l'opzione AWS Management Console per abilitare l'identificazione del canale nel processo di trascrizione in batch, è necessario abilitare l'identificazione audio e quindi l'identificazione del canale. L'identificazione del canale è un sottoinsieme dell'identificazione audio di. AWS Management Console

  1. Accedi alla AWS Management Console.

  2. Nel pannello di navigazione, in Amazon Transcribe Medicina, scegli Lavori di trascrizione.

  3. Scegli Crea processo.

  4. Nella pagina Specifica i dettagli del lavoro, fornisci informazioni sul tuo lavoro di trascrizione.

  5. Scegli Next (Successivo).

  6. Abilita l'identificazione audio.

  7. Per Tipo di identificazione audio, scegli Identificazione dei canali.

  8. Scegli Create (Crea) .

Trascrivere un file audio multicanale (API)
  • Per l'API StartMedicalTranscriptionJob, specifica quanto segue.

    1. Per TranscriptionJobName, specifica un nome univoco per il tuo Account AWS.

    2. Per LanguageCode, specifica il codice della lingua che corrisponde alla lingua parlata nel file audio. Il valore valido è en-US.

    3. Nel parametro MediaFileUri dell'oggetto Media specifica il nome del file multimediale che vuoi trascrivere.

    4. Per l'oggetto Settings, imposta ChannelIdentification su true.

Di seguito è riportato un esempio di richiesta utilizzando l' AWS SDK for Python (Boto3).

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_name = "my-first-med-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_medical_transcription_job( MedicalTranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'output-files/', LanguageCode = 'en-US', Specialty = 'PRIMARYCARE', Type = 'CONVERSATION', Settings = { 'ChannelIdentification': True } ) while True: status = transcribe.get_transcription_job(MedicalTranscriptionJobName = job_name) if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Trascrivere un file audio multicanale utilizzando un processo di trascrizione in batch (AWS CLI)
  • Eseguire il seguente codice.

    aws transcribe start-medical-transcription-job \ --region us-west-2 \ --cli-input-json file://example-start-command.json

    Di seguito è riportato il codice di example-start-command.json.

    { "MedicalTranscriptionJobName": "my-first-med-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Specialty": "PRIMARYCARE", "Type": "CONVERSATION", "Settings":{ "ChannelIdentification": true } }

Il codice seguente mostra l'output della trascrizione di un file audio che contiene una conversazione su due canali.

{ "jobName": "job id", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "When you try ... It seems to ..." } ], "channel_labels": { "channels": [ { "channel_label": "ch_0", "items": [ { "start_time": "12.282", "end_time": "12.592", "alternatives": [ { "confidence": "1.0000", "content": "When" } ], "type": "pronunciation" }, { "start_time": "12.592", "end_time": "12.692", "alternatives": [ { "confidence": "0.8787", "content": "you" } ], "type": "pronunciation" }, { "start_time": "12.702", "end_time": "13.252", "alternatives": [ { "confidence": "0.8318", "content": "try" } ], "type": "pronunciation" }, ... ] }, { "channel_label": "ch_1", "items": [ { "start_time": "12.379", "end_time": "12.589", "alternatives": [ { "confidence": "0.5645", "content": "It" } ], "type": "pronunciation" }, { "start_time": "12.599", "end_time": "12.659", "alternatives": [ { "confidence": "0.2907", "content": "seems" } ], "type": "pronunciation" }, { "start_time": "12.669", "end_time": "13.029", "alternatives": [ { "confidence": "0.2497", "content": "to" } ], "type": "pronunciation" }, ... ] } }

Trascrizione di flussi audio multicanali

Puoi trascrivere l'audio da canali separati in HTTP/2 o stream utilizzando l'API. WebSocket StartMedicalStreamTranscription

Per impostazione predefinita, puoi trascrivere i flussi con due canali. Puoi richiedere un aumento della quota se devi trascrivere flussi con più di due canali. Per informazioni sulla richiesta di un aumento delle quote, consulta quote del servizio AWS.

Trascrizione dell'audio multicanale in un flusso HTTP/2

Per trascrivere l'audio multicanale in un flusso HTTP/2, utilizza l'API e specifica quanto segue: StartMedicalStreamTranscription

  • LanguageCode - il codice della lingua dell'audio. Il valore valido è en-US.

  • MediaEncoding - La codifica dell'audio. I valori validi sono ogg-opus, flac e pcm.

  • EnableChannelIdentificationtrue

  • NumberOfChannels - il numero di canali del tuo audio in streaming.

Per ulteriori informazioni sulla configurazione di un flusso HTTP/2 per trascrivere una conversazione medica, consulta Impostazione di un flusso HTTP/2.

Trascrizione dell'audio multicanale in uno stream WebSocket

Per partizionare gli altoparlanti negli WebSocket stream, utilizzate il seguente formato per creare un URI predefinito e avviare una richiesta. WebSocket Specifica enable-channel-identification come true e il numero di canali del flusso in number-of-channels. Un URI prefirmato contiene le informazioni necessarie per configurare una comunicazione bidirezionale tra l'applicazione e Medical. Amazon Transcribe

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=Signature Version 4 signature &X-Amz-SignedHeaders=host &media-encoding=flac &sample-rate=16000 &session-id=sessionId &enable-channel-identification=true &number-of-channels=2

Le definizioni dei parametri sono disponibili nell'API Reference; i parametri comuni a tutte le operazioni AWS API sono elencati nella sezione Parametri comuni.

Per ulteriori informazioni sulle WebSocket richieste, vedereConfigurazione di uno WebSocket stream.

Output di streaming multicanale

L'output di una trascrizione in streaming è lo stesso per HTTP/2 e le richieste. WebSocket Di seguito è riportato un esempio di output.

{ "resultId": "XXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXX", "startTime": 0.11, "endTime": 0.66, "isPartial": false, "alternatives": [ { "transcript": "Left.", "items": [ { "startTime": 0.11, "endTime": 0.45, "type": "pronunciation", "content": "Left", "vocabularyFilterMatch": false }, { "startTime": 0.45, "endTime": 0.45, "type": "punctuation", "content": ".", "vocabularyFilterMatch": false } ] } ], "channelId": "ch_0" }

Per ogni segmento vocale è presente un flag channelId che indica a quale canale appartiene il discorso.