Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
StartStreamTranscription
Avvia un HTTP/2 o uno WebSocket stream bidirezionale in cui l'audio viene trasmesso in streaming ad Amazon Transcribe e i risultati della trascrizione vengono trasmessi all'applicazione.
I parametri seguenti sono obbligatori:
-
language-code
oidentify-language
-
media-encoding
-
sample-rate
Per ulteriori informazioni sullo streaming con Amazon Transcribe, consulta Trascrizione dell'audio in streaming.
Sintassi della richiesta
POST /stream-transcription HTTP/2
x-amzn-transcribe-language-code: LanguageCode
x-amzn-transcribe-sample-rate: MediaSampleRateHertz
x-amzn-transcribe-media-encoding: MediaEncoding
x-amzn-transcribe-vocabulary-name: VocabularyName
x-amzn-transcribe-session-id: SessionId
x-amzn-transcribe-vocabulary-filter-name: VocabularyFilterName
x-amzn-transcribe-vocabulary-filter-method: VocabularyFilterMethod
x-amzn-transcribe-show-speaker-label: ShowSpeakerLabel
x-amzn-transcribe-enable-channel-identification: EnableChannelIdentification
x-amzn-transcribe-number-of-channels: NumberOfChannels
x-amzn-transcribe-enable-partial-results-stabilization: EnablePartialResultsStabilization
x-amzn-transcribe-partial-results-stability: PartialResultsStability
x-amzn-transcribe-content-identification-type: ContentIdentificationType
x-amzn-transcribe-content-redaction-type: ContentRedactionType
x-amzn-transcribe-pii-entity-types: PiiEntityTypes
x-amzn-transcribe-language-model-name: LanguageModelName
x-amzn-transcribe-identify-language: IdentifyLanguage
x-amzn-transcribe-language-options: LanguageOptions
x-amzn-transcribe-preferred-language: PreferredLanguage
x-amzn-transcribe-vocabulary-names: VocabularyNames
x-amzn-transcribe-vocabulary-filter-names: VocabularyFilterNames
Content-type: application/json
{
"AudioStream": {
"AudioEvent": {
"AudioChunk": blob
}
}
}
Parametri della richiesta URI:
La richiesta utilizza i seguenti parametri URI.
- ContentIdentificationType
-
Etichetta tutte le informazioni personali di identificazione (PII) identificate nella trascrizione.
L'identificazione del contenuto viene eseguita a livello di segmento; le informazioni PII specificate in
PiiEntityTypes
vengono contrassegnate al momento della trascrizione completa di un segmento audio.Non puoi impostare
ContentIdentificationType
eContentRedactionType
nella stessa richiesta. Se li imposti entrambi, la tua richiesta restituisce unBadRequestException
.Per ulteriori informazioni, vedere Revisione o identificazione delle informazioni di identificazione personale.
Valori validi:
PII
- ContentRedactionType
-
Cancella tutte le informazioni personali di identificazione (PII) identificate nella trascrizione.
La redazione dei contenuti viene eseguita a livello di segmento; le informazioni PII specificate in
PiiEntityTypes
vengono redatte dopo la trascrizione completa di un segmento audio.Non puoi impostare
ContentRedactionType
eContentIdentificationType
nella stessa richiesta. Se li imposti entrambi, la tua richiesta restituisce unBadRequestException
.Per ulteriori informazioni, vedere Revisione o identificazione delle informazioni di identificazione personale.
Valori validi:
PII
- EnableChannelIdentification
-
Consente l'identificazione dei canali nell'audio multicanale.
L'identificazione dei canali trascrive l'audio su ciascun canale in modo indipendente, quindi aggiunge l'uscita per ciascun canale in un'unica trascrizione.
Se disponi di audio multicanale e non abiliti l'identificazione dei canali, l'audio viene trascritto in modo continuo e la trascrizione non viene separata per canale.
Se includi
EnableChannelIdentification
nella tua richiesta, devi includere ancheNumberOfChannels
.Per ulteriori informazioni, consulta Trascrizione dell'audio multicanale.
- EnablePartialResultsStabilization
-
Consente la stabilizzazione parziale dei risultati per la trascrizione. La stabilizzazione parziale dei risultati può ridurre la latenza dell'output, ma può influire sulla precisione. Per ulteriori informazioni, consulta Stabilizzazione parziale dei risultati.
- IdentifyLanguage
-
Consente l'identificazione automatica della lingua per la trascrizione.
Se lo includi
IdentifyLanguage
, puoi opzionalmente includere un elenco di codici linguistici, utilizzandoLanguageOptions
, che ritieni possano essere presenti nel tuo flusso audio. L'inclusione delle opzioni linguistiche può migliorare l'accuratezza della trascrizione.Puoi includere anche una lingua preferita utilizzando
PreferredLanguage
. L'aggiunta di una lingua preferita può aiutare Amazon Transcribe a identificare la lingua più rapidamente rispetto a quando si omette questo parametro.Se hai un audio multicanale che contiene lingue diverse su ogni canale e hai abilitato l'identificazione dei canali, l'identificazione automatica della lingua identifica la lingua dominante su ciascun canale audio.
Tieni presente che devi includere uno
LanguageCode
oIdentifyLanguage
nella tua richiesta. Se si includono entrambi i parametri, la richiesta ha esito negativo.L'identificazione della lingua in streaming non può essere combinata con modelli o redazioni linguistiche personalizzati.
- LanguageCode
-
Specifica il codice della lingua che rappresenta la lingua parlata nell'audio.
Se non sei sicuro della lingua parlata nel tuo audio, prendi in considerazione l'utilizzo
IdentifyLanguage
per abilitare l'identificazione automatica della lingua.Per un elenco delle lingue supportate dallo streaming di Amazon Transcribe, consulta la tabella Lingue supportate.
Valori validi:
en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH
- LanguageModelName
-
Specifica il nome del modello linguistico personalizzato che desideri utilizzare durante l'elaborazione della trascrizione. Nota che i nomi dei modelli linguistici fanno distinzione tra maiuscole e minuscole
La lingua del modello linguistico specificato deve corrispondere al codice linguistico specificato nella richiesta di trascrizione. Se le lingue non corrispondono, il modello linguistico personalizzato non viene applicato. Non ci sono errori o avvisi associati a una mancata corrispondenza linguistica.
Per ulteriori informazioni, consulta Modelli linguistici personalizzati.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.
Pattern:
^[0-9a-zA-Z._-]+
- LanguageOptions
-
Specifica due o più codici linguistici che rappresentino le lingue che ritieni possano essere presenti nei tuoi media; non è consigliabile includerne più di cinque. Se non sei sicuro di quali lingue siano presenti, non includere questo parametro.
L'inclusione delle opzioni linguistiche può migliorare l'accuratezza dell'identificazione linguistica.
Se includi
LanguageOptions
nella tua richiesta, devi includere ancheIdentifyLanguage
.Per un elenco delle lingue supportate dallo streaming di Amazon Transcribe, consulta la tabella Lingue supportate.
Importante
Puoi includere un solo dialetto linguistico per ogni lingua per ogni stream. Ad esempio, non è possibile includere
en-US
een-AU
nella stessa richiesta.Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.
Pattern:
^[a-zA-Z-,]+
- MediaEncoding
-
Specifica la codifica dell'audio in ingresso. I formati supportati sono:
-
FLAC
-
Audio codificato OPUS in un contenitore Ogg
-
PCM (solo formati audio little-endian firmati a 16 bit, che non includono WAV)
Per ulteriori informazioni, consulta Formati multimediali.
Valori validi:
pcm | ogg-opus | flac
Campo obbligatorio: sì
-
- MediaSampleRateHertz
-
Frequenza di campionamento dell'audio in ingresso (in hertz). L'audio di bassa qualità, come l'audio del telefono, è in genere di circa 8.000 Hz. L'audio di alta qualità varia in genere da 16.000 Hz a 48.000 Hz. Tieni presente che la frequenza di campionamento specificata deve corrispondere a quella dell'audio.
Intervallo valido: valore minimo pari a 8000. Valmassimo massimo pari 48000.
Campo obbligatorio: sì
- NumberOfChannels
-
Specifica il numero di canali nel tuo streaming audio. Questo valore deve essere
2
dato che sono supportati solo due canali. Se l'audio non contiene più canali, non includere questo parametro nella richiesta.Se includi
NumberOfChannels
nella tua richiesta, devi includere ancheEnableChannelIdentification
.Intervallo valido: valore minimo pari a 2.
- PartialResultsStability
-
Specifica il livello di stabilità da utilizzare quando si abilita la stabilizzazione parziale dei risultati (
EnablePartialResultsStabilization
).La bassa stabilità offre la massima precisione. L'elevata stabilità trascrive più velocemente, ma con una precisione leggermente inferiore.
Per ulteriori informazioni, consulta Stabilizzazione parziale dei risultati.
Valori validi:
high | medium | low
- PiiEntityTypes
-
Specifica quali tipi di informazioni di identificazione personale (PII) desideri cancellare nella tua trascrizione. Puoi includere tutti i tipi che desideri oppure puoi selezionarli
ALL
.Per includere
PiiEntityTypes
nella tua richiesta, devi includere anche uno dei dueContentIdentificationType
ContentRedactionType
.I valori devono essere separati da virgole e possono includere:
ADDRESS
BANK_ACCOUNT_NUMBER
BANK_ROUTING
,CREDIT_DEBIT_CVV
,CREDIT_DEBIT_EXPIRY
,CREDIT_DEBIT_NUMBER
,EMAIL
,NAME
,PHONE
,PIN
,SSN
, oALL
.Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 300.
Pattern:
^[A-Z_, ]+
- PreferredLanguage
-
Specifica una lingua preferita dal sottoinsieme di codici linguistici in cui hai specificato
LanguageOptions
.Puoi usare questo parametro solo se hai incluso
IdentifyLanguage
eLanguageOptions
nella tua richiesta.Valori validi:
en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH
- SessionId
-
Specifica un nome per la tua sessione di trascrizione. Se non includi questo parametro nella tua richiesta, Amazon Transcribe genera un ID e lo restituisce nella risposta.
Limitazioni di lunghezza: lunghezza fissa pari 36.
Pattern:
[a-fA-F0-9]{8}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{12}
- ShowSpeakerLabel
-
Abilita il partizionamento degli altoparlanti (diarizzazione) nell'output di trascrizione. Il partizionamento degli altoparlanti etichetta il discorso dei singoli altoparlanti nel file multimediale.
Per ulteriori informazioni, consulta Partitioning speaker (diarizzazione).
- VocabularyFilterMethod
-
Specifica come vuoi che il filtro del vocabolario venga applicato alla tua trascrizione.
Per sostituire le parole con
***
, sceglimask
.Per eliminare le parole, scegli
remove
.Per contrassegnare le parole senza modificarle, scegli
tag
.Valori validi:
remove | mask | tag
- VocabularyFilterName
-
Specifica il nome del filtro di vocabolario personalizzato che desideri utilizzare durante l'elaborazione della trascrizione. Nota che i nomi dei filtri del vocabolario fanno distinzione tra maiuscole e minuscole.
Se la lingua del filtro di vocabolario personalizzato specificato non corrisponde alla lingua identificata nei file multimediali, il filtro del vocabolario non viene applicato alla trascrizione.
Importante
Questo parametro non è destinato all'uso con il
IdentifyLanguage
parametro. Se stai includendoIdentifyLanguage
nella tua richiesta e desideri utilizzare uno o più filtri di vocabolario con la tua trascrizione, usa invece ilVocabularyFilterNames
parametro.Per ulteriori informazioni, vedi Uso del filtro del vocabolario con parole indesiderate.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.
Pattern:
^[0-9a-zA-Z._-]+
- VocabularyFilterNames
-
Specifica i nomi dei filtri vocabolari personalizzati che desideri utilizzare durante l'elaborazione della trascrizione. Nota che i nomi dei filtri del vocabolario fanno distinzione tra maiuscole e minuscole.
Se nessuna delle lingue dei filtri di vocabolario personalizzati specificati corrisponde alla lingua identificata nei tuoi media, il tuo lavoro fallisce.
Importante
Questo parametro è destinato esclusivamente all'uso con il
IdentifyLanguage
parametro. Se non lo includiIdentifyLanguage
nella tua richiesta e desideri utilizzare un filtro di vocabolario personalizzato con la tua trascrizione, usa invece ilVocabularyFilterName
parametro.Per ulteriori informazioni, vedi Uso del filtro del vocabolario con parole indesiderate.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 3000.
Pattern:
^[a-zA-Z0-9,-._]+
- VocabularyName
-
Specifica il nome del vocabolario personalizzato che desideri utilizzare durante l'elaborazione della trascrizione. Nota che i nomi dei vocabolari fanno distinzione tra maiuscole e minuscole.
Se la lingua del vocabolario personalizzato specificato non corrisponde alla lingua identificata nei tuoi media, il vocabolario personalizzato non viene applicato alla trascrizione.
Importante
Questo parametro non è destinato all'uso con il
IdentifyLanguage
parametro. Se stai includendoIdentifyLanguage
nella tua richiesta e desideri utilizzare uno o più vocabolari personalizzati con la tua trascrizione, usa invece ilVocabularyNames
parametro.Per ulteriori informazioni, consulta Vocabolari personalizzati.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.
Pattern:
^[0-9a-zA-Z._-]+
- VocabularyNames
-
Specifica i nomi dei vocabolari personalizzati che desideri utilizzare durante l'elaborazione della trascrizione. Nota che i nomi dei vocabolari fanno distinzione tra maiuscole e minuscole.
Se nessuna delle lingue dei vocabolari personalizzati specificati corrisponde alla lingua identificata nei tuoi media, il tuo lavoro fallisce.
Importante
Questo parametro è destinato esclusivamente all'uso con il
IdentifyLanguage
parametro. Se non lo includiIdentifyLanguage
nella tua richiesta e desideri utilizzare un vocabolario personalizzato con la tua trascrizione, usa invece ilVocabularyName
parametro.Per ulteriori informazioni, consulta Vocabolari personalizzati.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 3000.
Pattern:
^[a-zA-Z0-9,-._]+
Corpo della richiesta
La richiesta accetta i seguenti dati in formato JSON.
- AudioStream
-
Un flusso codificato di blob audio. I flussi audio sono codificati come HTTP/2 o frame di WebSocket dati.
Per ulteriori informazioni, consulta Trascrizione dell'audio in streaming.
Tipo: AudioStream oggetto
Campo obbligatorio: sì
Sintassi della risposta
HTTP/2 200
x-amzn-request-id: RequestId
x-amzn-transcribe-language-code: LanguageCode
x-amzn-transcribe-sample-rate: MediaSampleRateHertz
x-amzn-transcribe-media-encoding: MediaEncoding
x-amzn-transcribe-vocabulary-name: VocabularyName
x-amzn-transcribe-session-id: SessionId
x-amzn-transcribe-vocabulary-filter-name: VocabularyFilterName
x-amzn-transcribe-vocabulary-filter-method: VocabularyFilterMethod
x-amzn-transcribe-show-speaker-label: ShowSpeakerLabel
x-amzn-transcribe-enable-channel-identification: EnableChannelIdentification
x-amzn-transcribe-number-of-channels: NumberOfChannels
x-amzn-transcribe-enable-partial-results-stabilization: EnablePartialResultsStabilization
x-amzn-transcribe-partial-results-stability: PartialResultsStability
x-amzn-transcribe-content-identification-type: ContentIdentificationType
x-amzn-transcribe-content-redaction-type: ContentRedactionType
x-amzn-transcribe-pii-entity-types: PiiEntityTypes
x-amzn-transcribe-language-model-name: LanguageModelName
x-amzn-transcribe-identify-language: IdentifyLanguage
x-amzn-transcribe-language-options: LanguageOptions
x-amzn-transcribe-preferred-language: PreferredLanguage
x-amzn-transcribe-vocabulary-names: VocabularyNames
x-amzn-transcribe-vocabulary-filter-names: VocabularyFilterNames
Content-type: application/json
{
"TranscriptResultStream": {
"BadRequestException": {
},
"ConflictException": {
},
"InternalFailureException": {
},
"LimitExceededException": {
},
"ServiceUnavailableException": {
},
"TranscriptEvent": {
"Transcript": {
"Results": [
{
"Alternatives": [
{
"Entities": [
{
"Category": "string",
"Confidence": number,
"Content": "string",
"EndTime": number,
"StartTime": number,
"Type": "string"
}
],
"Items": [
{
"Confidence": number,
"Content": "string",
"EndTime": number,
"Speaker": "string",
"Stable": boolean,
"StartTime": number,
"Type": "string",
"VocabularyFilterMatch": boolean
}
],
"Transcript": "string"
}
],
"ChannelId": "string",
"EndTime": number,
"IsPartial": boolean,
"LanguageCode": "string",
"LanguageIdentification": [
{
"LanguageCode": "string",
"Score": number
}
],
"ResultId": "string",
"StartTime": number
}
]
}
}
}
}
Elementi di risposta
Se l'operazione riesce, il servizio restituisce una risposta HTTP 200.
La risposta restituisce le seguenti intestazioni HTTP.
- ContentIdentificationType
-
Mostra se l'identificazione dei contenuti è stata abilitata per la trascrizione.
Valori validi:
PII
- ContentRedactionType
-
Mostra se la redazione dei contenuti è stata abilitata per la trascrizione.
Valori validi:
PII
- EnableChannelIdentification
-
Indica se l'identificazione del canale è stata abilitata per la trascrizione.
- EnablePartialResultsStabilization
-
Indica se la stabilizzazione parziale dei risultati è stata abilitata per la trascrizione.
- IdentifyLanguage
-
Indica se l'identificazione automatica della lingua è stata abilitata per la trascrizione.
- LanguageCode
-
Fornisce il codice della lingua specificato nella richiesta.
Valori validi:
en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH
- LanguageModelName
-
Fornisce il nome del modello linguistico personalizzato specificato nella richiesta.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.
Pattern:
^[0-9a-zA-Z._-]+
- LanguageOptions
-
Fornisce i codici linguistici specificati nella richiesta.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.
Pattern:
^[a-zA-Z-,]+
- MediaEncoding
-
Fornisce la codifica multimediale specificata nella richiesta.
Valori validi:
pcm | ogg-opus | flac
- MediaSampleRateHertz
-
Fornisce la frequenza di campionamento specificata nella richiesta.
Intervallo valido: valore minimo pari a 8000. Valmassimo massimo pari 48000.
- NumberOfChannels
-
Fornisce il numero di canali che hai specificato nella tua richiesta.
Intervallo valido: valore minimo pari a 2.
- PartialResultsStability
-
Fornisce il livello di stabilizzazione utilizzato per la trascrizione.
Valori validi:
high | medium | low
- PiiEntityTypes
-
Elenca i tipi di entità PII specificati nella richiesta.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 300.
Pattern:
^[A-Z_, ]+
- PreferredLanguage
-
Fornisce la lingua preferita specificata nella richiesta.
Valori validi:
en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH
- RequestId
-
Fornisce l'identificatore per la tua richiesta di streaming.
- SessionId
-
Fornisce l'identificatore per la sessione di trascrizione.
Limitazioni di lunghezza: lunghezza fissa pari 36.
Pattern:
[a-fA-F0-9]{8}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{12}
- ShowSpeakerLabel
-
Indica se il partizionamento degli altoparlanti è stato abilitato per la trascrizione.
- VocabularyFilterMethod
-
Fornisce il metodo di filtraggio del vocabolario utilizzato nella trascrizione.
Valori validi:
remove | mask | tag
- VocabularyFilterName
-
Fornisce il nome del filtro di vocabolario personalizzato specificato nella richiesta.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.
Pattern:
^[0-9a-zA-Z._-]+
- VocabularyFilterNames
-
Fornisce i nomi dei filtri di vocabolario personalizzati specificati nella richiesta.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 3000.
Pattern:
^[a-zA-Z0-9,-._]+
- VocabularyName
-
Fornisce il nome del vocabolario personalizzato specificato nella richiesta.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.
Pattern:
^[0-9a-zA-Z._-]+
- VocabularyNames
-
Fornisce i nomi dei vocabolari personalizzati specificati nella richiesta.
Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 3000.
Pattern:
^[a-zA-Z0-9,-._]+
I dati seguenti vengono restituiti in formato JSON mediante il servizio.
- TranscriptResultStream
-
Fornisce informazioni dettagliate sulla sessione di streaming.
Tipo: TranscriptResultStream oggetto
Errori
Per informazioni sugli errori comuni a tutte le operazioni, consultare Errori comuni.
- BadRequestException
-
Uno o più argomenti dell'
StartCallAnalyticsStreamTranscription
operazioneStartStreamTranscription
StartMedicalStreamTranscription
, or non erano validi. Ad esempio,MediaEncoding
o haLanguageCode
utilizzato valori non supportati. Controlla i parametri specificati e riprova la richiesta.Codice di stato HTTP: 400
- ConflictException
-
È iniziato un nuovo stream con lo stesso ID di sessione. Lo stream corrente è stato interrotto.
Codice di stato HTTP: 409
- InternalFailureException
-
Si è verificato un problema durante l'elaborazione dell'audio. Amazon Transcribe ha terminato l'elaborazione.
Codice di stato HTTP: 500
- LimitExceededException
-
Il tuo cliente ha superato uno dei limiti di Amazon Transcribe. Questo è in genere il limite di lunghezza dell'audio. Suddividi il flusso audio in blocchi più piccoli e riprova la richiesta.
Codice di stato HTTP: 429
- ServiceUnavailableException
-
Il servizio non è attualmente disponibile. Prova la tua richiesta più tardi.
Codice di stato HTTP: 503
Vedi anche
Per ulteriori informazioni sull'utilizzo di questa API in uno degli SDK AWS specifici della lingua, consulta quanto segue: