Particiones de voces (diarización)

Modo de enfoque

Particiones de voces (diarización) - Amazon Transcribe

Particiones de voces en las transcripciones por lotes Particiones de voces en una transcripción en streaming

Con la diarización de los altavoces, puede distinguir entre distintos altavoces en la salida de la transcripción. Amazon Transcribe puede diferenciar entre un máximo de 30 altavoces únicos y etiqueta el texto de cada altavoz único con un valor único (directo)spk_0. spk_9

Además de las secciones de transcripciones estándar (transcripts y items), las solicitudes con la partición de las voces habilitada incluyen una sección speaker_labels. Esta sección está agrupada por hablante y contiene información sobre cada enunciado, incluida la etiqueta de la voz y las marcas de tiempo.


"speaker_labels": {
    "channel_label": "ch_0",
    "speakers": 2,
    "segments": [
         {
            "start_time": "4.87",
            "speaker_label": "spk_0",
            "end_time": "6.88",
            "items": [                                                 
                {
                    "start_time": "4.87",
                    "speaker_label": "spk_0",
                    "end_time": "5.02"
                },
        ...
        {
            "start_time": "8.49",
            "speaker_label": "spk_1",
            "end_time": "9.24",
            "items": [
                {
                    "start_time": "8.49",
                    "speaker_label": "spk_1",
                    "end_time": "8.88"
                },

Para ver un ejemplo completo de transcripción con particiones de voces (para dos hablantes), consulte. Ejemplo de resultados de diarización (lote)

Particiones de voces en las transcripciones por lotes

Para dividir las voces en una transcripción por lotes, consulte los siguientes ejemplos:

Inicie sesión en la AWS Management Console.
En el panel de navegación, elija Trabajos de transcripción y, a continuación, seleccione Crear trabajo (arriba a la derecha). Se abrirá la página Especificar los detalles del trabajo.
Rellene los campos que desee incluir en la página Especificar los detalles del trabajo y, a continuación, seleccione Siguiente. Esto lo llevará a la página Configurar trabajo: opcional.

En el panel Ajustes de audio, seleccione Partición de voces (bajo el encabezado “Tipo de identificación de audio”). Puede especificar el número de voces que desea particionar, hasta un máximo de 10.
Seleccione Crear trabajo para ejecutar su trabajo de transcripción.

AWS Management Console

Inicie sesión en la AWS Management Console.
En el panel de navegación, elija Trabajos de transcripción y, a continuación, seleccione Crear trabajo (arriba a la derecha). Se abrirá la página Especificar los detalles del trabajo.
Rellene los campos que desee incluir en la página Especificar los detalles del trabajo y, a continuación, seleccione Siguiente. Esto lo llevará a la página Configurar trabajo: opcional.

En el panel Ajustes de audio, seleccione Partición de voces (bajo el encabezado “Tipo de identificación de audio”). Puede especificar el número de voces que desea particionar, hasta un máximo de 10.
Seleccione Crear trabajo para ejecutar su trabajo de transcripción.

En este ejemplo se utiliza el start-transcription-job. Para obtener más información, consulte StartTranscriptionJob.


aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \
--output-bucket-name amzn-s3-demo-bucket \
--output-key my-output-files/ \
--language-code en-US \
--settings ShowSpeakerLabels=true,MaxSpeakerLabels=3

Este es otro ejemplo en el que se usa el start-transcription-jobcomando y un cuerpo de solicitud que permite particionar los altavoces con esa tarea.


aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://my-first-transcription-job.json

El archivo my-first-transcription-job.json contiene el siguiente cuerpo de solicitud.


{
  "TranscriptionJobName": "my-first-transcription-job",
  "Media": {
        "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
  },
  "OutputBucketName": "amzn-s3-demo-bucket",
  "OutputKey": "my-output-files/", 
  "LanguageCode": "en-US",
  "ShowSpeakerLabels": 'TRUE',    
  "MaxSpeakerLabels": 3
 }

AWS CLI

En este ejemplo se utiliza el start-transcription-job. Para obtener más información, consulte StartTranscriptionJob.


aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \
--output-bucket-name amzn-s3-demo-bucket \
--output-key my-output-files/ \
--language-code en-US \
--settings ShowSpeakerLabels=true,MaxSpeakerLabels=3

Este es otro ejemplo en el que se usa el start-transcription-jobcomando y un cuerpo de solicitud que permite particionar los altavoces con esa tarea.


aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://my-first-transcription-job.json

El archivo my-first-transcription-job.json contiene el siguiente cuerpo de solicitud.


{
  "TranscriptionJobName": "my-first-transcription-job",
  "Media": {
        "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
  },
  "OutputBucketName": "amzn-s3-demo-bucket",
  "OutputKey": "my-output-files/", 
  "LanguageCode": "en-US",
  "ShowSpeakerLabels": 'TRUE',    
  "MaxSpeakerLabels": 3
 }

En este ejemplo, se utiliza AWS SDK for Python (Boto3) para identificar los canales mediante el método start_transcription_job. Para obtener más información, consulte StartTranscriptionJob.


from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'amzn-s3-demo-bucket',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US', 
    Settings = {
        'ShowSpeakerLabels': True,
        'MaxSpeakerLabels': 3
    }    
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

AWS SDK for Python (Boto3)

En este ejemplo, se utiliza AWS SDK for Python (Boto3) para identificar los canales mediante el método start_transcription_job. Para obtener más información, consulte StartTranscriptionJob.


from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'amzn-s3-demo-bucket',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US', 
    Settings = {
        'ShowSpeakerLabels': True,
        'MaxSpeakerLabels': 3
    }    
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

Particiones de voces en una transcripción en streaming

Para particionar las voces en una transcripción en streaming, consulte los siguientes ejemplos:

Inicie sesión en la AWS Management Console.
En el panel de navegación, elija Transcripción en tiempo real. Desplácese hacia abajo hasta Ajustes de audio y expanda este campo si está minimizado.
Active Particiones de voces.
Ahora tiene todo preparado para transcribir la secuencia. Seleccione Comenzar streaming y comience a hablar. Para finalizar el dictado, seleccione Detener streaming.

Transcripciones de streaming

Inicie sesión en la AWS Management Console.
En el panel de navegación, elija Transcripción en tiempo real. Desplácese hacia abajo hasta Ajustes de audio y expanda este campo si está minimizado.
Active Particiones de voces.
Ahora tiene todo preparado para transcribir la secuencia. Seleccione Comenzar streaming y comience a hablar. Para finalizar el dictado, seleccione Detener streaming.

En este ejemplo, se crea una solicitud HTTP/2 que divide las voces de la salida de la transcripción. Para obtener más información sobre el uso de la transmisión HTTP/2 con, consulte. Amazon TranscribeConfiguración de una secuencia HTTP/2 Para obtener más información sobre los parámetros y encabezados específicos de Amazon Transcribe, consulte. StartStreamTranscription


POST /stream-transcription HTTP/2
host: transcribestreaming.us-west-2.amazonaws.com
X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription
Content-Type: application/vnd.amazon.eventstream
X-Amz-Content-Sha256: string
X-Amz-Date: 20220208T235959Z
Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string
x-amzn-transcribe-language-code: en-US
x-amzn-transcribe-media-encoding: flac
x-amzn-transcribe-sample-rate: 16000             
x-amzn-transcribe-show-speaker-label: true
transfer-encoding: chunked

Las definiciones de los parámetros se encuentran en la referencia de la API; los parámetros comunes a todas las operaciones de la AWS API se enumeran en la sección Parámetros comunes.

Secuencia HTTP/2


POST /stream-transcription HTTP/2
host: transcribestreaming.us-west-2.amazonaws.com
X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription
Content-Type: application/vnd.amazon.eventstream
X-Amz-Content-Sha256: string
X-Amz-Date: 20220208T235959Z
Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string
x-amzn-transcribe-language-code: en-US
x-amzn-transcribe-media-encoding: flac
x-amzn-transcribe-sample-rate: 16000             
x-amzn-transcribe-show-speaker-label: true
transfer-encoding: chunked

Las definiciones de los parámetros se encuentran en la referencia de la API; los parámetros comunes a todas las operaciones de la AWS API se enumeran en la sección Parámetros comunes.

En este ejemplo, se crea una URL prefirmada que separa las voces en el resultado de la transcripción. Se han añadido saltos de línea para facilitar la lectura. Para obtener más información sobre el uso de WebSocket transmisiones con Amazon Transcribe, consulteConfigurar una WebSocket transmisión. Para obtener más información sobre parámetros, consulte StartStreamTranscription.


GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket?
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=string
&X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date
&language-code=en-US
&specialty=PRIMARYCARE
&type=DICTATION
&media-encoding=flac
&sample-rate=16000        
&show-speaker-label=true

Las definiciones de los parámetros se encuentran en la referencia de la API; los parámetros comunes a todas las operaciones de la AWS API se enumeran en la sección Parámetros comunes.

WebSocket flujo


GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket?
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=string
&X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date
&language-code=en-US
&specialty=PRIMARYCARE
&type=DICTATION
&media-encoding=flac
&sample-rate=16000        
&show-speaker-label=true

Las definiciones de los parámetros se encuentran en la referencia de la API; los parámetros comunes a todas las operaciones de la AWS API se enumeran en la sección Parámetros comunes.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Etiquetado de recursos

Ejemplo de resultados

Tema siguiente:

Ejemplo de resultados

Tema anterior:

Etiquetado de recursos

¿Necesita ayuda?

En esta página

¿Le ha servido de ayuda esta página?

Enviar comentarios

Privacidad Términos del sitio Preferencias de cookies

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Particiones de voces (diarización)

Particiones de voces en las transcripciones por lotes

AWS Management Console

AWS CLI

AWS SDK for Python (Boto3)

Particiones de voces en una transcripción en streaming

Transcripciones de streaming

Secuencia HTTP/2

WebSocket flujo

Tema siguiente:

Tema anterior:

¿Necesita ayuda?

En esta página

¿Le ha servido de ayuda esta página?

Amazon Transcribe página de la consola «Especificar los detalles del trabajo». En el panel “Configuración del trabajo”, puede especificar un nombre para su trabajo de transcripción, seleccionar un tipo de modelo y especificar la configuración de idioma.

Amazon Transcribe página «Configurar trabajo» de la consola. En el panel “Ajustes de audio”, puede habilitar “Partición de voces”.

Amazon Transcribe captura de pantalla de la consola: la pestaña «configuración de audio» de la página de «transcripción en tiempo real».

Amazon Transcribe captura de pantalla de la consola: la pestaña ampliada de «ajustes de audio» con la partición de los altavoces habilitada.