Données non structurées Données structurées

Transformation des données en base de connaissances

Pour créer une base de connaissances, connectez-vous à une source de données prise en charge à laquelle vous souhaitez que votre base de connaissances puisse accéder. Votre base de connaissances sera en mesure de répondre aux requêtes utilisateur ou de générer des réponses en fonction des données extraites.

Les bases de connaissances Amazon Bedrock prennent en charge divers documents, notamment du texte, des images ou des documents multimodaux contenant des tableaux, des graphiques, des diagrammes et d’autres images. Les données multimodales font référence à une combinaison de données textuelles et visuelles. Le texte, le Markdown, le HTML et les PDF sont des exemples de types de fichiers contenant des données non structurées.

Les sections suivantes décrivent les types de données pris en charge par les bases de connaissances Amazon Bedrock et les services auxquels vous pouvez connecter votre base de connaissances pour chaque type de données :

Données non structurées

Les données non structurées font référence aux données qui ne sont pas intégrées de force dans une structure prédéfinie. Les bases de connaissances Amazon Bedrock permettent de se connecter aux services suivants pour ajouter des données non structurées à votre base de connaissances :

Amazon S3
Confluence
Personnalisé
Google Drive
Microsoft OneDrive
Microsoft SharePoint
Web Crawler

Une source de données contient la forme brute de vos documents. Pour optimiser le processus de requête, une base de connaissances convertit vos données brutes en vectorisations, une représentation numérique des données, afin de quantifier la similitude avec les requêtes qui sont également converties en vectorisations. Les bases de connaissances Amazon Bedrock utilisent les ressources suivantes pour convertir votre source de données :

Modèle de vectorisation : modèle de fondation qui convertit vos données en vectorisations. Pour les données multimodales contenant à la fois du texte et des images, vous pouvez utiliser des modèles d'intégration multimodaux tels qu'Amazon Titan Multimodal Embeddings G1 ou Cohere Embed v3.
Magasin de vecteurs : service qui stocke la représentation vectorielle de vos données. Les magasins de vecteurs suivants sont pris en charge :
- Amazon OpenSearch sans serveur
- Clusters gérés par Amazon OpenSearch Service
- Amazon Neptune
- Amazon Aurora (RDS)
- Pinecone
- Redis Enterprise Cloud
- Atlas MongoDB
- Amazon S3 Vectors

Le processus de conversion de vos données en vectorisations s’appelle l’ingestion. Le processus d’ingestion qui transforme vos données en base de connaissances comprend les étapes suivantes :

Ingestion

Les données sont analysées par l’analyseur que vous avez choisi. Pour en savoir plus sur l’analyse, consultez Options d’analyse structurée pour votre source de données.
Chaque document de votre source de données est divisé en fragments, des subdivisions des données qui peuvent être définies par le nombre de jetons et d’autres paramètres. Pour plus d’informations sur la fragmentation, consultez Fonctionnement du découpage du contenu pour les bases de connaissances.
Le modèle de vectorisation que vous avez choisi convertit les données en vectorisations. Pour le contenu multimodal, les images sont intégrées sous forme de vecteurs visuels tandis que le texte est intégré sous forme de vecteurs de texte, ce qui permet d'effectuer une recherche dans les deux modalités.
Les vectorisations sont écrites dans un index vectoriel dans le magasin de vecteurs de votre choix.

Une fois le processus d’ingestion terminé, votre base de connaissances est prête à être consultée. Pour plus d’informations sur la manière d’interroger et d’extraire des informations dans votre base de connaissances, consultez Extraction d’informations à partir de sources de données à l’aide des bases de connaissances Amazon Bedrock.

Si vous modifiez une source de données, vous devez synchroniser les modifications afin d’intégrer les ajouts, les modifications et les suppressions dans la base de connaissances. Certaines sources de données prennent en charge l’ingestion ou la suppression directes de fichiers dans la base de connaissances, ce qui évite de traiter la modification et l’ingestion des sources de données comme des étapes distinctes et de toujours effectuer des synchronisations complètes. Pour savoir comment intégrer des documents directement dans votre base de connaissances et dans les sources de données qui la prennent en charge, consultez Ingestion des modifications directement dans une base de connaissances.

Les bases de connaissances Amazon Bedrock proposent différentes options pour personnaliser la manière dont vos données sont ingérées. Pour plus d’informations sur la personnalisation de ce processus, consultez Personnalisation d’une base de connaissances.

Données structurées

Les données structurées font référence aux données tabulaires dans un format prédéfini par le magasin de données dans lequel elles se trouvent. Les bases de connaissances Amazon Bedrock se connectent aux magasins de données structurés pris en charge via le moteur de requête Amazon Redshift. Les bases de connaissances Amazon Bedrock fournissent un mécanisme entièrement géré qui analyse les modèles de requête, l’historique des requêtes et les métadonnées de schéma afin de convertir les requêtes en langage naturel en requêtes SQL. Ces requêtes converties sont ensuite utilisées pour extraire des informations pertinentes à partir de sources de données prises en charge.

Les bases de connaissances Amazon Bedrock permettent de se connecter aux services suivants pour ajouter des magasins de données structurés à votre base de connaissances :

Amazon Redshift
AWS Glue Data Catalog(AWS Lake Formation)

Si vous connectez votre base de connaissances à un magasin de données structuré, vous n’avez pas besoin de convertir les données en vectorisations. Au lieu de cela, les bases de connaissances Amazon Bedrock peuvent directement interroger le magasin de données structurées. Au cours de la requête, les bases de connaissances Amazon Bedrock peuvent convertir les requêtes des utilisateurs en requêtes SQL afin d’extraire les données pertinentes pour la requête utilisateur et de générer des réponses plus précises. Vous pouvez également générer des requêtes SQL sans extraire de données et les utiliser dans d’autres flux de travail.

Par exemple, un référentiel de base de données contient le tableau suivant contenant des informations sur les clients et leurs achats :

ID du client	Montant dépensé en 2020	Montant dépensé en 2021	Montant dépensé en 2022	Montant total dépensé à ce jour
1	200	300	500	1 000
2	150	100	120	370
3	300	300	300	900
4	720	180	100	900
5	500	400	100	1 000
6	900	800	1 000	2700
7	470	420	400	1290
8	250	280	250	780
9	620	830	740	2190
10	300	200	300	800

Si une requête utilisateur indique « donnez-moi un résumé des 5 clients les plus dépensiers », la base de connaissances peut effectuer les opérations suivantes :

Convertir la requête en requête SQL.
Renvoyer un extrait du tableau contenant les éléments suivants :
- Colonnes du tableau pertinentes « Numéro du client » et « Montant total des achats effectués à ce jour »
- Lignes du tableau contenant le montant total des achats pour les 10 clients les plus dépensiers
Générer une réponse indiquant quels clients sont les 5 clients les plus dépensiers et combien ils ont dépensé.

Voici d’autres exemples de requêtes pour lesquelles une base de connaissances peut générer un extrait de tableau :

« les 5 meilleurs clients en termes de dépenses en 2020 »
« le meilleur client en termes de montant d’achat en 2020 »
« les 5 meilleurs clients en termes de montant d’achat entre 2020 et 2022 »
« les 5 clients les plus dépensiers en 2020-2022 »
« les clients dont le montant total des achats est inférieur à 10 € »
« les 5 clients les moins dépensiers »

Plus une requête est précise ou détaillée, plus la base de connaissances peut affiner les informations exactes à renvoyer. Par exemple, au lieu de la requête « Les 10 meilleurs clients en termes de dépenses en 2020 », une requête plus spécifique est « trouvez les 10 clients ayant acheté le plus haut montant total d'achat à ce jour pour les clients en 2020 ». La requête spécifique fait référence au nom de colonne « Montant total des achats à ce jour » dans le tableau de la base de données des dépenses des clients et indique également que les données doivent être triées selon le « montant le plus élevé ».

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Fonctionnement des bases de connaissances

Extraction d’informations à partir de sources de données