Trascrizione di file audio multicanali Trascrizione di flussi audio multicanali

Trascrizione di audio multicanale

Se disponi di un file audio o di uno stream con più canali, puoi utilizzare l'identificazione del canale per trascrivere il discorso da ciascuno di questi canali. Amazon Transcribe Medical trascrive il discorso da ciascun canale separatamente. Combina le trascrizioni separate di ciascun canale in un unico output di trascrizione.

Utilizza l'identificazione dei canali per identificare i diversi canali dell'audio e trascrivere il discorso da ciascuno di questi canali. Attivala in situazioni come quella di un chiamante e di un agente. Utilizzatela per distinguere un chiamante da un agente nelle registrazioni o nei flussi dei contact center che effettuano il monitoraggio della sicurezza dei farmaci.

È possibile abilitare l'identificazione dei canali sia per l'elaborazione in batch che per lo streaming in tempo reale. L'elenco seguente descrive come abilitarla per ogni metodo.

Trascrizione in batch e API AWS Management Console StartMedicalTranscriptionJob
Trascrizione in streaming: streaming e API WebSocket StartMedicalStreamTranscription

Trascrizione di file audio multicanali

Quando si trascrive un file audio, Amazon Transcribe Medical restituisce un elenco di elementi per ogni canale. Un elemento è una parola o un segno di punteggiatura trascritto. Ogni parola ha un'ora di inizio e un'ora di fine. Se una persona su un canale parla sovrapponendosi a una persona su un canale separato, l'ora di inizio e l'ora di fine di ogni canale si sovrapporranno mentre le persone parlano l'una sull'altra.

Per impostazione predefinita, puoi trascrivere file audio con due canali. Puoi richiedere un aumento della quota se devi trascrivere file con più di due canali. Per ulteriori informazioni sulla richiesta di un aumento di quote, consulta quote Servizio AWS.

Per trascrivere l'audio multicanale in un processo di trascrizione in batch, utilizzate o l'API. AWS Management Console StartMedicalTranscriptionJob

Per utilizzare l'opzione AWS Management Console per abilitare l'identificazione del canale nel processo di trascrizione in batch, è necessario abilitare l'identificazione audio e quindi l'identificazione del canale. L'identificazione del canale è un sottoinsieme dell'identificazione audio di. AWS Management Console

Accedi alla AWS Management Console.
Nel pannello di navigazione, in Amazon Transcribe Medicina, scegli Lavori di trascrizione.
Scegli Crea processo.
Nella pagina Specifica i dettagli del lavoro, fornisci informazioni sul tuo lavoro di trascrizione.
Scegli Next (Successivo).
Abilita l'identificazione audio.
Per Tipo di identificazione audio, scegli Identificazione dei canali.
Scegli Create (Crea) .

Trascrivere un file audio multicanale (API)

Per l'API StartMedicalTranscriptionJob, specifica quanto segue.
1. Per TranscriptionJobName, specifica un nome univoco per il tuo Account AWS.
2. Per LanguageCode, specifica il codice della lingua che corrisponde alla lingua parlata nel file audio. Il valore valido è en-US.
3. Nel parametro MediaFileUri dell'oggetto Media specifica il nome del file multimediale che vuoi trascrivere.
4. Per l'oggetto Settings, imposta ChannelIdentification su true.

Di seguito è riportato un esempio di richiesta utilizzando l' AWS SDK for Python (Boto3).



from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_name = "my-first-med-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_medical_transcription_job(
      MedicalTranscriptionJobName = job_name,
      Media = {
        'MediaFileUri': job_uri
      },
      OutputBucketName = 'amzn-s3-demo-bucket',
      OutputKey = 'output-files/',
      LanguageCode = 'en-US',
      Specialty = 'PRIMARYCARE',
      Type = 'CONVERSATION',
      Settings = {
        'ChannelIdentification': True
      }
)
while True:
    status = transcribe.get_transcription_job(MedicalTranscriptionJobName = job_name)
    if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

Trascrivere un file audio multicanale utilizzando un processo di trascrizione in batch (AWS CLI)

Eseguire il seguente codice.



                    
aws transcribe start-medical-transcription-job \
--region us-west-2 \
--cli-input-json file://example-start-command.json

Di seguito è riportato il codice di example-start-command.json.


{
      "MedicalTranscriptionJobName": "my-first-med-transcription-job",        
      "Media": {
          "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac"
      },
      "OutputBucketName": "amzn-s3-demo-bucket",
      "OutputKey": "my-output-files/", 
      "LanguageCode": "en-US",
      "Specialty": "PRIMARYCARE",
      "Type": "CONVERSATION",

        "Settings":{
          "ChannelIdentification": true
        }
}

Il codice seguente mostra l'output della trascrizione di un file audio che contiene una conversazione su due canali.



{
  "jobName": "job id",
  "accountId": "111122223333",
  "results": {
    "transcripts": [
      {
        "transcript": "When you try ... It seems to ..."
      }
    ],
    "channel_labels": {
      "channels": [
        {
          "channel_label": "ch_0",
          "items": [
            {
              "start_time": "12.282",
              "end_time": "12.592",
              "alternatives": [
                {
                  "confidence": "1.0000",
                  "content": "When"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.592",
              "end_time": "12.692",
              "alternatives": [
                {
                  "confidence": "0.8787",
                  "content": "you"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.702",
              "end_time": "13.252",
              "alternatives": [
                {
                  "confidence": "0.8318",
                  "content": "try"
                }
              ],
              "type": "pronunciation"
            },
            ...
         ]
      },
      {
          "channel_label": "ch_1",
          "items": [
            {
              "start_time": "12.379",
              "end_time": "12.589",
              "alternatives": [
                {
                  "confidence": "0.5645",
                  "content": "It"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.599",
              "end_time": "12.659",
              "alternatives": [
                {
                  "confidence": "0.2907",
                  "content": "seems"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.669",
              "end_time": "13.029",
              "alternatives": [
                {
                  "confidence": "0.2497",
                  "content": "to"
                }
              ],
              "type": "pronunciation"
            },
            ...
        ]
    }
}

Trascrizione di flussi audio multicanali

Puoi trascrivere l'audio da canali separati in HTTP/2 o stream utilizzando l'API. WebSocket StartMedicalStreamTranscription

Per impostazione predefinita, puoi trascrivere i flussi con due canali. Puoi richiedere un aumento della quota se devi trascrivere flussi con più di due canali. Per informazioni sulla richiesta di un aumento delle quote, consulta quote del servizio AWS.

Trascrizione dell'audio multicanale in un flusso HTTP/2

Per trascrivere l'audio multicanale in un flusso HTTP/2, utilizza l'API e specifica quanto segue: StartMedicalStreamTranscription

LanguageCode - il codice della lingua dell'audio. Il valore valido è en-US.
MediaEncoding - La codifica dell'audio. I valori validi sono ogg-opus, flac e pcm.
EnableChannelIdentification – true
NumberOfChannels - il numero di canali del tuo audio in streaming.

Per ulteriori informazioni sulla configurazione di un flusso HTTP/2 per trascrivere una conversazione medica, consulta Impostazione di un flusso HTTP/2.

Trascrizione dell'audio multicanale in uno stream WebSocket

Per partizionare gli altoparlanti negli WebSocket stream, utilizzate il seguente formato per creare un URI predefinito e avviare una richiesta. WebSocket Specifica enable-channel-identification come true e il numero di canali del flusso in number-of-channels. Un URI prefirmato contiene le informazioni necessarie per configurare una comunicazione bidirezionale tra l'applicazione e Medical. Amazon Transcribe



GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket
?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature
&X-Amz-SignedHeaders=host
&media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&enable-channel-identification=true
&number-of-channels=2

Le definizioni dei parametri sono disponibili nell'API Reference; i parametri comuni a tutte le operazioni AWS API sono elencati nella sezione Parametri comuni.

Per ulteriori informazioni sulle WebSocket richieste, vedereConfigurazione di uno WebSocket stream.

Output di streaming multicanale

L'output di una trascrizione in streaming è lo stesso per HTTP/2 e le richieste. WebSocket Di seguito è riportato un esempio di output.


{
    "resultId": "XXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXX",
    "startTime": 0.11,
    "endTime": 0.66,
    "isPartial": false,
    "alternatives": [
        {
            "transcript": "Left.",
            "items": [
                {
                    "startTime": 0.11,
                    "endTime": 0.45,
                    "type": "pronunciation",
                    "content": "Left",
                    "vocabularyFilterMatch": false
                },
                {
                    "startTime": 0.45,
                    "endTime": 0.45,
                    "type": "punctuation",
                    "content": ".",
                    "vocabularyFilterMatch": false
                }
            ]
        }
    ],
    "channelId": "ch_0"
}

Per ogni segmento vocale è presente un flag channelId che indica a quale canale appartiene il discorso.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Suddivisione dei parlanti in flussi in tempo reale

Trascrivere una dettatura medica