Transcription de fichiers audio multicanal Transcription de flux audio multicanal

Transcription audio multicanal

Si vous avez un fichier audio ou un flux comportant plusieurs canaux, vous pouvez utiliser l'identification des canaux pour transcrire le discours de chacun de ces canaux. Amazon Transcribe Medical transcrit le discours de chaque canal séparément. Il combine les transcriptions distinctes de chaque canal en une seule sortie de transcription.

Utilisez l’identification des canaux pour identifier les différents canaux de votre audio et transcrire le discours de chacun de ces canaux. Activez cette option dans des situations telles qu’un scénario d’appelant et d’agent. Utilisez-la pour distinguer un appelant d’un agent dans des enregistrements ou des flux des centres d’appels chargés de la surveillance de la sécurité des médicaments.

Vous pouvez activer l’identification des canaux pour le traitement par lots et le streaming en temps réel. La liste suivante décrit comment l’activer pour chaque méthode.

Transcription par lots — AWS Management Console et StartMedicalTranscriptionJobAPI
Transcription en streaming — WebSocket streaming et StartMedicalStreamTranscriptionAPI

Transcription de fichiers audio multicanal

Lorsque vous transcrivez un fichier audio, Amazon Transcribe Medical renvoie une liste d'éléments pour chaque canal. Un élément est un mot transcrit ou un signe de ponctuation. Chaque mot possède une heure de début et une heure de fin. Si une personne parle sur un canal en même temps qu’une autre personne sur un autre canal, les horodatages des éléments de chaque canal se chevauchent pendant que les personnes parlent l’une et l’autre.

Par défaut, vous pouvez transcrire des fichiers audio sur deux canaux. Vous pouvez demander une augmentation du quota si vous devez transcrire des fichiers comportant plus de deux canaux. Pour plus d’informations sur la demande d’augmentation de quota, consultez la section Quotas Service AWS.

Pour transcrire du son multicanal dans le cadre d'une tâche de transcription par lots, utilisez l' AWS Management Console StartMedicalTranscriptionJobAPI ou.

AWS Management Console Pour activer l'identification des canaux dans votre tâche de transcription par lots, vous devez activer l'identification audio, puis l'identification des canaux. L'identification des canaux est un sous-ensemble de l'identification audio dans le AWS Management Console.

Connectez-vous à la AWS Management Console.
Dans le volet de navigation, sous Amazon Transcribe Medical, sélectionnez Transcription jobs.
Choisissez Créer une tâche.
Sur la page Spécifier les détails de la tâche, fournissez des informations sur votre tâche de transcription.
Choisissez Suivant.
Activez Identification audio.
Pour Type d’identification audio, choisissez Identification des canaux.
Sélectionnez Create (Créer).

Pour transcrire un fichier audio multicanal (API)

Pour l’API StartMedicalTranscriptionJob, spécifiez ce qui suit.
1. Pour TranscriptionJobName, spécifiez un nom unique dans votre Compte AWS.
2. Pour LanguageCode, spécifiez le code de langue correspondant à la langue parlée dans le fichier audio. La valeur valide est en-US.
3. Pour le paramètre MediaFileUri de l’objet Media, spécifiez le nom du fichier multimédia que vous souhaitez transcrire.
4. Pour l’objet Settings, définissez ChannelIdentification sur true.

Voici un exemple de demande utilisant le AWS SDK for Python (Boto3).



from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_name = "my-first-med-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_medical_transcription_job(
      MedicalTranscriptionJobName = job_name,
      Media = {
        'MediaFileUri': job_uri
      },
      OutputBucketName = 'amzn-s3-demo-bucket',
      OutputKey = 'output-files/',
      LanguageCode = 'en-US',
      Specialty = 'PRIMARYCARE',
      Type = 'CONVERSATION',
      Settings = {
        'ChannelIdentification': True
      }
)
while True:
    status = transcribe.get_transcription_job(MedicalTranscriptionJobName = job_name)
    if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

Pour transcrire un fichier audio multicanal à l’aide d’une tâche de transcription par lots (AWS CLI)

Exécutez le code suivant.



                    
aws transcribe start-medical-transcription-job \
--region us-west-2 \
--cli-input-json file://example-start-command.json

Le code suivant provient du fichier example-start-command.json.


{
      "MedicalTranscriptionJobName": "my-first-med-transcription-job",        
      "Media": {
          "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac"
      },
      "OutputBucketName": "amzn-s3-demo-bucket",
      "OutputKey": "my-output-files/", 
      "LanguageCode": "en-US",
      "Specialty": "PRIMARYCARE",
      "Type": "CONVERSATION",

        "Settings":{
          "ChannelIdentification": true
        }
}

Le code suivant montre la sortie de transcription d’un fichier audio contenant une conversation sur deux canaux.



{
  "jobName": "job id",
  "accountId": "111122223333",
  "results": {
    "transcripts": [
      {
        "transcript": "When you try ... It seems to ..."
      }
    ],
    "channel_labels": {
      "channels": [
        {
          "channel_label": "ch_0",
          "items": [
            {
              "start_time": "12.282",
              "end_time": "12.592",
              "alternatives": [
                {
                  "confidence": "1.0000",
                  "content": "When"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.592",
              "end_time": "12.692",
              "alternatives": [
                {
                  "confidence": "0.8787",
                  "content": "you"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.702",
              "end_time": "13.252",
              "alternatives": [
                {
                  "confidence": "0.8318",
                  "content": "try"
                }
              ],
              "type": "pronunciation"
            },
            ...
         ]
      },
      {
          "channel_label": "ch_1",
          "items": [
            {
              "start_time": "12.379",
              "end_time": "12.589",
              "alternatives": [
                {
                  "confidence": "0.5645",
                  "content": "It"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.599",
              "end_time": "12.659",
              "alternatives": [
                {
                  "confidence": "0.2907",
                  "content": "seems"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.669",
              "end_time": "13.029",
              "alternatives": [
                {
                  "confidence": "0.2497",
                  "content": "to"
                }
              ],
              "type": "pronunciation"
            },
            ...
        ]
    }
}

Transcription de flux audio multicanal

Vous pouvez transcrire le son provenant de canaux distincts en HTTP/2 ou en WebSocket flux à l'aide de l'StartMedicalStreamTranscriptionAPI.

Par défaut, vous pouvez transcrire des flux sur deux canaux. Vous pouvez demander une augmentation du quota si vous devez transcrire des flux comportant plus de deux canaux. Pour plus d’informations sur la demande d’une augmentation de quota, consultez la section Service Quotas AWS.

Transcription de fichiers audio multicanal dans un flux HTTP/2

Pour transcrire du son multicanal dans un flux HTTP/2, utilisez l'StartMedicalStreamTranscriptionAPI et spécifiez les éléments suivants :

LanguageCode – Code de langue de l’élément audio. La valeur valide est en-US.
MediaEncoding – Encodage de l’audio. Les valeurs valides sont ogg-opus, flac et pcm.
EnableChannelIdentification – true
NumberOfChannels – Nombre de canaux dans votre audio en streaming.

Pour plus d’informations sur la configuration d’un flux HTTP/2 pour transcrire une conversation médicale, consultez la section Configuration d’un flux HTTP/2.

Transcrire du son multicanal dans un flux WebSocket

Pour partitionner les haut-parleurs en WebSocket flux, utilisez le format suivant pour créer une URI pré-signée et lancer une WebSocket demande. Spécifiez enable-channel-identification avec la valeur true et le nombre de canaux dans votre flux dans number-of-channels. Un URI pré-signé contient les informations nécessaires pour configurer une communication bidirectionnelle entre votre application et Amazon Transcribe Medical.



GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket
?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature
&X-Amz-SignedHeaders=host
&media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&enable-channel-identification=true
&number-of-channels=2

Les définitions des paramètres se trouvent dans la référence d'API ; les paramètres communs à toutes les opérations d' AWS API sont répertoriés dans la section Paramètres communs.

Pour plus d'informations sur WebSocket les demandes, consultezConfiguration d'un WebSocket stream.

Sortie de transcription en streaming multicanal

Le résultat d'une transcription en streaming est le même pour le HTTP/2 et les WebSocket requêtes. Voici un exemple de sortie.


{
    "resultId": "XXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXX",
    "startTime": 0.11,
    "endTime": 0.66,
    "isPartial": false,
    "alternatives": [
        {
            "transcript": "Left.",
            "items": [
                {
                    "startTime": 0.11,
                    "endTime": 0.45,
                    "type": "pronunciation",
                    "content": "Left",
                    "vocabularyFilterMatch": false
                },
                {
                    "startTime": 0.45,
                    "endTime": 0.45,
                    "type": "punctuation",
                    "content": ".",
                    "vocabularyFilterMatch": false
                }
            ]
        }
    ],
    "channelId": "ch_0"
}

Pour chaque segment de discours, une balise channelId indique à quel canal appartient le discours.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Partitionnement des locuteurs dans des flux en temps réel

Transcription d’une dictée médicale