Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
La fonctionnalité Amazon Bedrock Data Automation (BDA) propose un ensemble de sorties standard pour traiter et générer des informations pour les fichiers audio. Voici un aperçu détaillé de chaque type d'opération :
Résumé audio complet
Le résumé audio complet génère un résumé global de l'ensemble du fichier audio. Il résume les principaux thèmes, événements et informations présentés tout au long de l'audio dans un résumé concis.
Transcription audio complète
La fonction de transcription audio complète fournit une représentation textuelle complète de tout le contenu vocal de l'audio. Il utilise une technologie avancée de reconnaissance vocale pour transcrire avec précision le dialogue, la narration et d'autres éléments audio. La transcription inclut l'horodatage, ce qui facilite la navigation et la recherche dans le contenu audio en fonction des mots prononcés.
Résumé du sujet
Le résumé des rubriques audio sépare le fichier audio en sections appelées rubriques et les résume pour fournir des informations clés. Ces sujets sont horodatés pour faciliter leur intégration dans le fichier audio dans son ensemble. Cette fonctionnalité n'est pas activée par défaut.
Modération du contenu
La modération du contenu utilise des signaux audio et textuels pour identifier et classer les contenus toxiques vocaux en sept catégories différentes :
-
Blasphème : discours contenant des mots, des expressions ou des acronymes impolis, vulgaires ou offensants.
-
Discours haineux : discours qui critique, insulte, dénonce ou déshumanise une personne ou un groupe de personnes sur la base d’une identité (telle que la race, l’origine ethnique, le sexe, la religion, l’orientation sexuelle, les capacités et l’origine nationale).
-
Sexualité : discours qui indique un intérêt, une activité ou une excitation sexuelle en utilisant des références directes ou indirectes à des parties du corps, à des traits physiques ou au sexe.
-
Insultes : discours qui inclut un langage dégradant, humiliant, moqueur, insultant ou dénigrant. Ce type de langage est également qualifié d'intimidation
-
Violence ou menace : discours qui inclut des menaces visant à infliger de la douleur, des blessures ou de l’hostilité à une personne ou à un groupe de personnes.
-
Graphique : discours qui utilise des images visuellement descriptives et d’une expression désagréable. Ce type de langage est souvent intentionnellement verbeux pour amplifier l’inconfort du destinataire.
-
Harcèlement ou abus : discours visant à affecter le bien-être psychologique du destinataire et comprenant notamment des termes dégradants et objectivants. Ce type de langage est également qualifié de harcèlement.
Sortie audio standard
Voici un exemple de sortie standard pour un fichier audio traité via BDA :
{
"metadata": {
"id": "audio_123",
"semantic_modality": "AUDIO",
"s3_bucket": "my-audio-bucket",
"s3_prefix": "audios/",
"format": "MP3",
"sample_rate": 44100,
"bit_rate": 128000,
"duration_millis": 180000,
"channels": 2
},
"audio_segments": [
{
"start_timestamp_millis": 0,
"end_timestamp_millis": 30000,
"id": "audio_segment_1",
"type": "TRANSCRIPT",
"text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance.",
},
{
"start_timestamp_millis": 30000,
"end_timestamp_millis": 60000,
"id": "audio_segment_2",
"type": "TRANSCRIPT",
"text": "Let's start by looking at the healthcare industry. AI is revolutionizing diagnostics, drug discovery, and personalized medicine.",
}
}
]
"topics": [
{
"topic_index": 0,
"start_timestamp_millis": 0,
"end_timestamp_millis": 30000,
"summary": "As follows: The opening of a podcast, introducing the topic of discussion, which involves how AI is impacting various industries.",
"transcript": {
"representation": {
"text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance."
}
},
"audio": {
"summary": "A podcast discussion about recent advancements in artificial intelligence and their potential impact on various industries.",
"transcript": {
"representation": {
"text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance. Let's start by looking at the healthcare industry. AI is revolutionizing diagnostics, drug discovery, and personalized medicine."
}
},
"content_moderation": [
{
"id": "mod_12345",
"type": "CONTENT_MODERATION",
"confidence": 0.1,
"start_timestamp_millis": 0,
"end_timestamp_millis": 180000,
"moderation_categories": [
{
"category": "profanity",
"confidence": 0.05
}
]
}
],
},
"statistics": {
"word_count": 150,
"segment_count": 6
}
}
Cette sortie inclut :
-
Métadonnées audio
-
Récapitulatif audio
-
Récapitulatif du sujet
-
Transcription complète
-
Résultats de modération du contenu
-
Statistiques sur le contenu analysé
Cet exemple illustre la nature complète de la sortie BDA pour le son, fournissant des données riches et structurées qui peuvent être facilement intégrées dans diverses applications pour une analyse ou un traitement plus approfondi.
Restrictions relatives au traitement audio BDA
BDA prend en charge les clips audio aux formats de fichier AMR, FLAC, M4A MP3, Ogg et WAV. La taille maximale des fichiers audio est de 2 048 Mo. La fréquence d'échantillonnage audio minimale est de 8 000 Hz et la fréquence d'échantillonnage maximale est de 48 000 Hz. La durée audio maximale est de 240 minutes et la durée minimale est de 500 millisecondes. Si un fichier audio contient plusieurs flux audio, il ne traitera que le premier flux.