Modélisation des rubriques - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Modélisation des rubriques

Vous pouvez utiliser Amazon Comprehend pour examiner le contenu d'un ensemble de documents afin de déterminer des thèmes communs. Par exemple, vous pouvez fournir à Amazon Comprehend une collection d'articles de presse, qui déterminera les sujets, tels que le sport, la politique ou le divertissement. Le texte des documents n'a pas besoin d'être annoté.

Amazon Comprehend utilise un modèle d'apprentissage basé sur l'allocation de dirichlets latents pour déterminer les sujets d'un ensemble de documents. Il examine chaque document afin de déterminer le contexte et le sens d'un mot. L'ensemble de mots qui appartiennent fréquemment au même contexte dans l'ensemble du document constitue un sujet.

Un mot est associé à un sujet dans un document en fonction de la prévalence de ce sujet dans le document et de l'affinité du sujet avec le mot. Le même mot peut être associé à différents sujets dans différents documents en fonction de la distribution des sujets dans un document particulier.

Par exemple, le mot « glucose » dans un article qui parle principalement de sport peut être attribué au sujet « sport », tandis que le même mot dans un article sur la « médecine » sera attribué au sujet « médecine ».

Chaque mot associé à un sujet reçoit une pondération qui indique dans quelle mesure le mot aide à définir le sujet. Le poids indique le nombre de fois que le mot apparaît dans le sujet par rapport aux autres mots du sujet, sur l'ensemble du document.

Pour obtenir des résultats aussi précis que possible, vous devez fournir à Amazon Comprehend le plus grand corpus possible sur lequel travailler. Pour un résultat optimal :

  • Vous devez utiliser au moins 1 000 documents dans chaque tâche de modélisation de sujets.

  • Chaque document doit comporter au moins 3 phrases.

  • Si un document est principalement composé de données numériques, vous devez le supprimer du corpus.

La modélisation thématique est un processus asynchrone. Vous soumettez votre liste de documents à Amazon Comprehend à partir d'un compartiment Amazon S3 à l'StartTopicsDetectionJobaide de cette opération. La réponse est envoyée à un compartiment Amazon S3. Vous pouvez configurer à la fois les compartiments d'entrée et de sortie. Obtenez la liste des rubriques de modélisation des tâches que vous avez soumises à l'aide de l'ListTopicsDetectionJobsopération et consultez les informations relatives à une tâche utilisant cette DescribeTopicsDetectionJobopération. Le contenu livré aux compartiments Amazon S3 peut contenir du contenu client. Pour plus d'informations sur la suppression de données sensibles, consultez How Do I Empty an S3 Bucket? (Comment puis-je vider un compartiment S3 ?) ou How Do I Delete an S3 Bucket? (Comment supprimer un compartiment S3 ?).

Les documents doivent être dans des fichiers texte au format UTF-8. Vous pouvez soumettre vos documents de deux manières. Le tableau suivant présente les options.

Format Description
Un document par fichier Chaque fichier contient un document d'entrée. C'est la meilleure solution pour les collections de documents volumineux.
Un document par ligne

L'entrée est un fichier unique. Chaque ligne du fichier est considérée comme un document. C'est la meilleure solution pour les documents courts, tels que les publications sur les réseaux sociaux.

Chaque ligne doit se terminer par une ligne d'alimentation (LF,\n), un retour en chariot (CR, \ r), ou les deux (CRLF, \ r\n). Le séparateur de ligne Unicode (u+2028) ne peut pas être utilisé pour terminer une ligne.

Pour plus d'informations, consultez le type de données InputDataConfig.

Une fois qu'Amazon Comprehend a traité votre collection de documents, il renvoie une archive compressée contenant deux fichiers, ettopic-terms.csv. doc-topics.csv Pour plus d'informations sur le fichier de sortie, consultez OutputDataConfig.

Le premier fichier de sortie est une liste des rubriques de la collection. topic-terms.csv Pour chaque sujet, la liste inclut, par défaut, les principaux termes par sujet en fonction de leur poids. Par exemple, si vous fournissez à Amazon Comprehend un ensemble d'articles de journaux, celui-ci peut renvoyer ce qui suit pour décrire les deux premiers sujets de la collection :

Rubrique Durée Weight
000 équipe 0,118533
000 game 0,106072
000 player 0,031625
000 saison 0,023633
000 jouer 0,021118
000 cour 0,024454
000 entraîneur 0,016012
000 jeux 0,016191
000 football 0,015049
000 quarterback 0,014239
001 tasse 0,205236
001 nourriture 0,040686
001 minutes 0,036062
001 ajouter 0,029697
001 cuillère à soupe 0,028789
001 huile 0,021254
001 poivre 0,022205
001 cuillère à café 0,020040
001 vin 0,016588
001 sucre 0,015101

Les poids représentent une distribution de probabilité sur les mots d'un sujet donné. Comme Amazon Comprehend renvoie uniquement les 10 premiers mots pour chaque sujet, la somme des pondérations ne sera pas égale à 1,0. Dans les rares cas où un sujet contient moins de 10 mots, la somme des pondérations sera de 1,0.

Les mots sont triés en fonction de leur pouvoir discriminant en examinant leur occurrence dans tous les sujets. Cela correspond généralement à leur poids, mais dans certains cas, comme les mots « play » et « yard » dans le tableau, cela se traduit par un ordre différent du poids.

Vous pouvez spécifier le nombre de sujets à renvoyer. Par exemple, si vous demandez à Amazon Comprehend de renvoyer 25 sujets, les 25 sujets les plus importants de la collection seront renvoyés. Amazon Comprehend peut détecter jusqu'à 100 sujets dans une collection. Choisissez le nombre de sujets en fonction de vos connaissances du domaine. Il faudra peut-être faire quelques essais pour arriver au bon numéro.

Le second fichier répertorie doc-topics.csv les documents associés à un sujet et la proportion du document qui est concernée par le sujet. Si vous l'avez spécifié, ONE_DOC_PER_FILE le document est identifié par le nom du fichier. Si vous l'avez spécifié, ONE_DOC_PER_LINE le document est identifié par le nom du fichier et le numéro de ligne indexé à 0 dans le fichier. Par exemple, Amazon Comprehend peut renvoyer les informations suivantes pour un ensemble de documents soumis avec un seul document par fichier :

Document Rubrique Proportion
sample-doc1 000 0,999330137
sample-doc2 000 0,998532187
sample-doc3 000 0,998384574
...    
Échantillon-DOCN 000 3,57E-04

Amazon Comprehend utilise les informations du jeu de données de listes de lemmatisation de MBM, qui est disponible ici sous la licence Open Database (ODbL) v1.0.