Uso de filtros de vocabulario personalizados para eliminar, enmascarar o marcar palabras

Un filtro de vocabulario personalizado es un archivo de texto que contiene una lista personalizada de palabras individuales que se desea modificar en el resultado de la transcripción.

Un caso de uso común es la eliminación de términos ofensivos u obscenos; sin embargo, los filtros de vocabulario personalizados están completamente personalizados, por lo que puede seleccionar las palabras que desee. Por ejemplo, si tiene un producto nuevo a punto de lanzarse, puede ocultar el nombre del producto en las transcripciones de las reuniones. En este caso, mantienes a las partes interesadas y, up-to-date al mismo tiempo, mantienes en secreto el nombre del producto hasta su lanzamiento.

El filtrado de vocabulario tiene tres métodos de visualización: mask, remove y tag. Consulte los siguientes ejemplos para ver cómo funciona cada uno.

Máscara: reemplaza las palabras especificadas por tres asteriscos (***).


"transcript": "You can specify a list of *** or *** words, and *** *** removes them from transcripts automatically."

Eliminar: elimina las palabras especificadas sin dejar nada en su lugar.


"transcript": "You can specify a list of or words, and removes them from transcripts automatically."

Etiqueta: añade una etiqueta ("vocabularyFilterMatch": true) a cada palabra especificada, pero no altera la palabra en sí. El etiquetado permite sustituir y editar rápidamente las transcripciones.


"transcript": "You can specify a list of profane or offensive words, and amazon transcribe removes them from transcripts automatically."
...
    "alternatives": [
        {
            "confidence": "1.0",
            "content": "profane"
        }
    ],
    "type": "pronunciation",
    "vocabularyFilterMatch": true

Al enviar una solicitud de transcripción, puede especificar un filtro de vocabulario personalizado y el método de filtrado que desee aplicar. Amazon Transcribe luego modifica las coincidencias de palabras exactas cuando aparecen en la transcripción, según el método de filtrado que especifiques.

Se pueden aplicar filtros de vocabulario personalizados a las solicitudes de transcripción por lotes y en streaming. Para obtener, información acerca de cómo crear un filtro de vocabulario personalizado, consulte Creación de un filtro de vocabulario. Para obtener, información acerca de cómo crear un filtro de vocabulario personalizado, consulte Uso de filtros de vocabulario personalizados.

nota

Amazon Transcribe oculta automáticamente los términos racialmente sensibles, aunque puede excluirse de este filtro predeterminado poniéndose en contacto con AWS Technical Support.

Para ver un tutorial en vídeo sobre el filtrado de vocabulario, consulte:

Operaciones de API específicas para filtrado de vocabulario

CreateVocabularyFilter, DeleteVocabularyFilter, GetVocabularyFilter, ListVocabularyFilters, UpdateVocabularyFilter

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso de un modelo de idioma personalizado

Creación de un filtro de vocabulario