Suddivisione dei parlanti in una trascrizione in batch Suddivisione dei parlanti in una trascrizione in streaming

Suddivisione dei parlanti (diarizzazione)

Con la diarizzazione degli altoparlanti, è possibile distinguere tra diversi altoparlanti nell'uscita di trascrizione. Amazon Transcribe è in grado di distinguere tra un massimo di 30 oratori diversi ed etichettare il testo di ciascun oratore unico con un valore unico (fino a). spk_0 spk_29

Oltre alle sezioni di trascrizione standard (transcripts e items), le richieste con suddivisione dei parlanti abilitata includono una sezione speaker_labels. Questa sezione è raggruppata per parlante e contiene informazioni su ogni enunciato, tra cui l'etichetta del parlante e i timestamp.


"speaker_labels": {
    "channel_label": "ch_0",
    "speakers": 2,
    "segments": [
         {
            "start_time": "4.87",
            "speaker_label": "spk_0",
            "end_time": "6.88",
            "items": [                                                 
                {
                    "start_time": "4.87",
                    "speaker_label": "spk_0",
                    "end_time": "5.02"
                },
        ...
        {
            "start_time": "8.49",
            "speaker_label": "spk_1",
            "end_time": "9.24",
            "items": [
                {
                    "start_time": "8.49",
                    "speaker_label": "spk_1",
                    "end_time": "8.88"
                },

Per visualizzare un esempio completo di trascrizione con suddivisione dei parlanti (per due parlanti), consulta Esempio di output di diarizzazione (batch).

Suddivisione dei parlanti in una trascrizione in batch

Per suddividere i parlanti in una trascrizione in batch, consulta i seguenti esempi:

Accedi alla AWS Management Console.
Nel riquadro di navigazione, scegli Processi di trascrizione, quindi seleziona Crea processo (in alto a destra). Si aprirà la pagina Specifica i dettagli del processo.
Compila tutti i campi che desideri includere nella pagina Specifica i dettagli del processo, quindi seleziona Avanti. Verrà visualizzata la pagina Configura processo - opzionale.

Per abilitare il partizionamento degli altoparlanti, in Impostazioni audio, scegli Identificazione audio. Quindi scegli Partizionamento degli altoparlanti e specifica il numero di altoparlanti.
Seleziona Crea processo per eseguire il processo di trascrizione.

Questo esempio utilizza il comando avvia processo trascrizione. Per ulteriori informazioni, consulta StartTranscriptionJob.


aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \
--output-bucket-name amzn-s3-demo-bucket \
--output-key my-output-files/ \
--language-code en-US \
--settings ShowSpeakerLabels=true,MaxSpeakerLabels=3

Ecco un altro esempio che utilizza il comando avvia processo trascrizione e un corpo della richiesta che consente la suddivisione dei parlanti con quel processo.


aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://my-first-transcription-job.json

Il file my-first-transcription-job.json contiene il seguente corpo della richiesta.


{
  "TranscriptionJobName": "my-first-transcription-job",
  "Media": {
        "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
  },
  "OutputBucketName": "amzn-s3-demo-bucket",
  "OutputKey": "my-output-files/", 
  "LanguageCode": "en-US",
  "ShowSpeakerLabels": 'TRUE',    
  "MaxSpeakerLabels": 3
 }

Questo esempio utilizza AWS SDK per Python (Boto3) per identificare i canali utilizzando il metodo start_transcription_job. Per ulteriori informazioni, consulta StartTranscriptionJob.


from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'amzn-s3-demo-bucket',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US', 
    Settings = {
        'ShowSpeakerLabels': True,
        'MaxSpeakerLabels': 3
    }    
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

Suddivisione dei parlanti in una trascrizione in streaming

Per suddividere i parlanti in una trascrizione in streaming, consulta i seguenti esempi:

Accedi alla AWS Management Console.
Nel riquadro di navigazione, scegli Real-time trascrizione. Scorri verso il basso fino a Impostazioni audio ed espandi questo campo se è ridotto al minimo.
Attiva la suddivisione dei parlanti.
A questo punto puoi eseguire la trascrizione del flusso. Seleziona Avvia streaming e inizia a parlare. Per terminare la dettatura, seleziona Interrompi streaming.

Questo esempio crea una HTTP/2 richiesta per partizionare gli altoparlanti nell'output di trascrizione. Per ulteriori informazioni sull'utilizzo HTTP/2 dello streaming con Amazon Transcribe, consulta. Configurare uno stream HTTP/2 Per ulteriori dettagli sui parametri e le intestazioni specifici di Amazon Transcribe, consulta StartStreamTranscription.


POST /stream-transcription HTTP/2
host: transcribestreaming.us-west-2.amazonaws.com
X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription
Content-Type: application/vnd.amazon.eventstream
X-Amz-Content-Sha256: string
X-Amz-Date: 20220208T235959Z
Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string
x-amzn-transcribe-language-code: en-US
x-amzn-transcribe-media-encoding: flac
x-amzn-transcribe-sample-rate: 16000             
x-amzn-transcribe-show-speaker-label: true
transfer-encoding: chunked

Le definizioni dei parametri sono disponibili nell'API Reference; i parametri comuni a tutte le operazioni AWS API sono elencati nella sezione Parametri comuni.

Questo esempio crea un URL prefirmato che separa i parlanti nell'output della trascrizione. Le interruzioni di riga sono state aggiunte per la leggibilità. Per ulteriori informazioni sull'utilizzo degli WebSocket stream con Amazon Transcribe, consultaConfigurare uno WebSocket stream. Per ulteriori dettagli sui parametri, consulta StartStreamTranscription.


GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket?
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=string
&X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date
&language-code=en-US
&specialty=PRIMARYCARE
&type=DICTATION
&media-encoding=flac
&sample-rate=16000        
&show-speaker-label=true

Le definizioni dei parametri sono disponibili nell'API Reference; i parametri comuni a tutte le operazioni AWS API sono elencati nella sezione Parametri comuni.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Applicazione di tag alle risorse

Output di esempio