Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Salida de marcas de voz

Modo de enfoque
Salida de marcas de voz - Amazon Polly

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon Polly devuelve los objetos de marcas de voz en una secuencia JSON delimitada por saltos de línea. Los objetos de marca de voz tienen los siguientes campos:

  • time: marca temporal en milisegundos que indica el comienzo de la secuencia de audio correspondiente.

  • type: tipo de marca de voz (frase, palabra, visema o ssml)

  • start: desplazamiento en bytes (no caracteres) del inicio del objeto en el texto de entrada (sin incluir marcas de visemas)

  • end: desplazamiento en bytes (no caracteres) del final del objeto en el texto de entrada (sin incluir marcas de visemas)

  • value: varía en función del tipo de marca de voz.

    • SSML: etiqueta SSML <mark>.

    • viseme: nombre del visema

    • word o sentence: subcadena del texto de entrada delimitada por los campos start y end.

Por ejemplo, Amazon Polly genera el objeto de marca de voz word siguiente a partir del texto "Mary had a little lamb":

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

La palabra descrita ("had") comienza 373 milisegundos después de que comience la secuencia de audio; además, se inicia en el byte 5 y termina en el byte 8 del texto de entrada.

nota

Estos metadatos corresponden al ID de voz Joanna. Si utiliza otra voz con el mismo texto de entrada, los metadatos pueden variar.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.