Uso de un filtro de vocabulario personalizado en una transcripción por lotes Uso de un filtro de vocabulario personalizado en una transcripción en streaming

Uso de un filtro de vocabulario personalizado

Una vez creado tu filtro de vocabulario personalizado, puedes incluirlo en tus solicitudes de transcripción; consulta las siguientes secciones para ver ejemplos.

El idioma del filtro de vocabulario personalizado que incluyas en tu solicitud debe coincidir con el código de idioma que especifiques para tu contenido multimedia. Si utilizas la identificación de idioma y especificas varias opciones de idioma, puedes incluir un filtro de vocabulario personalizado por idioma especificado. Si los idiomas de tus filtros de vocabulario personalizados no coinciden con el idioma identificado en el audio, los filtros no se aplicarán a la transcripción y no habrá advertencias ni errores.

Uso de un filtro de vocabulario personalizado en una transcripción por lotes

Para usar un filtro de vocabulario personalizado con una transcripción por lotes, consulta los siguientes ejemplos:

Inicie sesión en AWS Management Console.
En el panel de navegación, selecciona Trabajos de transcripción y, a continuación, selecciona Crear trabajo (arriba a la derecha). Se abre la página Especificar los detalles del trabajo.

Asigne un nombre a su trabajo y especifique el medio de entrada. Si lo desea, incluya cualquier otro campo y, a continuación, seleccione Siguiente.
En la página Configurar trabajo, en el panel Eliminación de contenido, active el filtrado de vocabulario.
Selecciona tu filtro de vocabulario personalizado en el menú desplegable y especifica el método de filtrado.
Selecciona Crear trabajo para ejecutar tu trabajo de transcripción.

En este ejemplo se utilizan el start-transcription-jobcomando y elSettings parámetro con losVocabularyFilterMethod subparámetrosVocabularyFilterName y. Para obtener más información, consulte StartTranscriptionJob y Settings.


aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \
--output-bucket-name DOC-EXAMPLE-BUCKET \
--output-key my-output-files/ \
--language-code en-US \
--settings VocabularyFilterName=my-first-vocabulary-filter,VocabularyFilterMethod=mask

Este es otro ejemplo de uso del start-transcription-jobcomando y un cuerpo de solicitud que incluye tu filtro de vocabulario personalizado con esa tarea.


aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://my-first-vocabulary-filter-job.json

El archivo my-first-vocabulary-filter-job.json contiene el siguiente cuerpo de solicitud.


{
  "TranscriptionJobName": "my-first-transcription-job",
  "Media": {
        "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac"
  },
  "OutputBucketName": "DOC-EXAMPLE-BUCKET",
  "OutputKey": "my-output-files/", 
  "LanguageCode": "en-US",
  "Settings": {
        "VocabularyFilterName": "my-first-vocabulary-filter",
        "VocabularyFilterMethod": "mask"
   }
}

En este ejemplo se utiliza elAWS SDK for Python (Boto3) para incluir un filtro de vocabulario personalizado mediante elSettings argumento del método start_transcription_job. Para obtener más información, consulte StartTranscriptionJob y Settings.

Para ver más ejemplos de uso deAWS los SDK, incluidos ejemplos de funciones específicas, escenarios y multiservicios, consulte elEjemplos de código para Amazon Transcribe usando AWS SDKs capítulo.


from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'DOC-EXAMPLE-BUCKET',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US', 
    Settings = {
        'VocabularyFilterName': 'my-first-vocabulary-filter',
        'VocabularyFilterMethod': 'mask' 
   }
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

Uso de un filtro de vocabulario personalizado en una transcripción en streaming

Para usar un filtro de vocabulario personalizado con una transcripción en streaming, consulta los siguientes ejemplos:

Inicie sesión en el AWS Management Console.
En el panel de navegación, elija Real-time transcription (Transcripción en tiempo real). Desplázate hacia abajo hasta la configuración de eliminación de contenido y expande este campo si está minimizado.
Activa el filtrado de vocabulario. Seleccione un filtro de vocabulario personalizado en el menú desplegable y especifique el método de filtrado.

Incluye las demás configuraciones que desee aplicar a la transmisión.
Ya lo tiene todo listo para transcribir la transmisión. Selecciona Iniciar transmisión y comienza a hablar. Para finalizar el dictado, selecciona Detener la transmisión.

En este ejemplo se crea una solicitud HTTP/2 que incluye el filtro de vocabulario personalizado y el método de filtrado. Para obtener más información sobre el uso de la transmisión en HTTP/2 conAmazon Transcribe, consulteConfiguración de una transmisión HTTP /2. Para obtener más información sobre los parámetros y los encabezados específicos deAmazon Transcribe, consulte StartStreamTranscription.


POST /stream-transcription HTTP/2
host: transcribestreaming.us-west-2.amazonaws.com
X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription
Content-Type: application/vnd.amazon.eventstream
X-Amz-Content-Sha256: string
X-Amz-Date: 20220208T235959Z
Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string
x-amzn-transcribe-language-code: en-US
x-amzn-transcribe-media-encoding: flac
x-amzn-transcribe-sample-rate: 16000      
x-amzn-transcribe-vocabulary-filter-name: my-first-vocabulary-filter
x-amzn-transcribe-vocabulary-filter-method: mask
transfer-encoding: chunked

Las definiciones de los parámetros se encuentran en la referencia de la API; los parámetros comunes a todas las operaciones de laAWS API se enumeran en la sección Parámetros comunes.

En este ejemplo se crea una URL prefirmada que aplica el filtro de vocabulario personalizado a una WebSocket transmisión. Se han añadido saltos de línea para facilitar su lectura. Para obtener más información sobre el uso de WebSocket transmisiones conAmazon Transcribe, consulteConfiguración de una WebSocket transmisión. Para obtener más información sobre los parámetros, consulte StartStreamTranscription.


GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket?
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=string
&X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date
&language-code=en-US
&media-encoding=flac
&sample-rate=16000    
&vocabulary-filter-name=my-first-vocabulary-filter
&vocabulary-filter-method=mask

Las definiciones de los parámetros se encuentran en la referencia de la API; los parámetros comunes a todas las operaciones de laAWS API se enumeran en la sección Parámetros comunes.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Crear un filtro de vocabulario

Detectar el habla tóxica