Audio

Mode de mise au point

Audio - Amazon Bedrock

La fonctionnalité Amazon Bedrock Data Automation (BDA) propose un ensemble de sorties standard pour traiter et générer des informations pour les fichiers audio. Voici un aperçu détaillé de chaque type d'opération :

Résumé audio complet

Le résumé audio complet génère un résumé global de l'ensemble du fichier audio. Il résume les principaux thèmes, événements et informations présentés tout au long de l'audio dans un résumé concis.

Transcription audio complète

La fonction de transcription audio complète fournit une représentation textuelle complète de tout le contenu vocal de l'audio. Il utilise une technologie avancée de reconnaissance vocale pour transcrire avec précision le dialogue, la narration et d'autres éléments audio. La transcription inclut l'horodatage, ce qui facilite la navigation et la recherche dans le contenu audio en fonction des mots prononcés.

Résumé du sujet

Le résumé des rubriques audio sépare le fichier audio en sections appelées rubriques et les résume pour fournir des informations clés. Ces sujets sont horodatés pour faciliter leur intégration dans le fichier audio dans son ensemble. Cette fonctionnalité n'est pas activée par défaut.

Modération du contenu

La modération du contenu utilise des signaux audio et textuels pour identifier et classer les contenus toxiques vocaux en sept catégories différentes :

Blasphème : discours contenant des mots, des expressions ou des acronymes impolis, vulgaires ou offensants.
Discours haineux : discours qui critique, insulte, dénonce ou déshumanise une personne ou un groupe de personnes sur la base d’une identité (telle que la race, l’origine ethnique, le sexe, la religion, l’orientation sexuelle, les capacités et l’origine nationale).
Sexualité : discours qui indique un intérêt, une activité ou une excitation sexuelle en utilisant des références directes ou indirectes à des parties du corps, à des traits physiques ou au sexe.
Insultes : discours qui inclut un langage dégradant, humiliant, moqueur, insultant ou dénigrant. Ce type de langage est également qualifié d'intimidation
Violence ou menace : discours qui inclut des menaces visant à infliger de la douleur, des blessures ou de l’hostilité à une personne ou à un groupe de personnes.
Graphique : discours qui utilise des images visuellement descriptives et d’une expression désagréable. Ce type de langage est souvent intentionnellement verbeux pour amplifier l’inconfort du destinataire.
Harcèlement ou abus : discours visant à affecter le bien-être psychologique du destinataire et comprenant notamment des termes dégradants et objectivants. Ce type de langage est également qualifié de harcèlement.

Sortie audio standard

Voici un exemple de sortie standard pour un fichier audio traité via BDA :


{
"metadata": {
    "id": "audio_123",
    "semantic_modality": "AUDIO",
    "s3_bucket": "my-audio-bucket",
    "s3_prefix": "audios/",
    "format": "MP3",
    "sample_rate": 44100,
    "bit_rate": 128000,
    "duration_millis": 180000,
    "channels": 2
},
"audio_segments": [
        {
            "start_timestamp_millis": 0,
            "end_timestamp_millis": 30000,
            "id": "audio_segment_1",
            "type": "TRANSCRIPT",
            "text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance.",
        },
        {
            "start_timestamp_millis": 30000,
            "end_timestamp_millis": 60000,
            "id": "audio_segment_2",
            "type": "TRANSCRIPT",
            "text": "Let's start by looking at the healthcare industry. AI is revolutionizing diagnostics, drug discovery, and personalized medicine.",
            }
        }
    ]
 "topics": [
    {
      "topic_index": 0,
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 30000,
      "summary": "As follows: The opening of a podcast, introducing the topic of discussion, which involves how AI is impacting various industries.",
      "transcript": {
        "representation": {
          "text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance."
        }
      },
"audio": {
    "summary": "A podcast discussion about recent advancements in artificial intelligence and their potential impact on various industries.",
    "transcript": {
        "representation": {
            "text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance. Let's start by looking at the healthcare industry. AI is revolutionizing diagnostics, drug discovery, and personalized medicine."
        }
    },
    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "CONTENT_MODERATION",
            "confidence": 0.1,
            "start_timestamp_millis": 0,
            "end_timestamp_millis": 180000,
            "moderation_categories": [
                {
                    "category": "profanity",
                    "confidence": 0.05
                }
            ]
        }
    ],
    
},
"statistics": {
    "word_count": 150,
    "segment_count": 6
}
}

Cette sortie inclut :

Métadonnées audio
Récapitulatif audio
Récapitulatif du sujet
Transcription complète
Résultats de modération du contenu
Statistiques sur le contenu analysé

Cet exemple illustre la nature complète de la sortie BDA pour le son, fournissant des données riches et structurées qui peuvent être facilement intégrées dans diverses applications pour une analyse ou un traitement plus approfondi.

Restrictions relatives au traitement audio BDA

BDA prend en charge les clips audio aux formats de fichier AMR, FLAC, M4A MP3, Ogg et WAV. La taille maximale des fichiers audio est de 2 048 Mo. La fréquence d'échantillonnage audio minimale est de 8 000 Hz et la fréquence d'échantillonnage maximale est de 48 000 Hz. La durée audio maximale est de 240 minutes et la durée minimale est de 500 millisecondes. Si un fichier audio contient plusieurs flux audio, il ne traitera que le premier flux.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Images

Résultats et plans personnalisés

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Audio

Résumé audio complet

Transcription audio complète

Résumé du sujet

Modération du contenu

Sortie audio standard

Restrictions relatives au traitement audio BDA

Related resources

Cette page vous a-t-elle été utile ?

Related resources

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?