Importance de la transformation des entités - Amazon Machine Learning

Nous ne mettons plus à jour le service Amazon Machine Learning et n'acceptons plus de nouveaux utilisateurs pour ce service. Cette documentation est disponible pour les utilisateurs existants, mais nous ne la mettons plus à jour. Pour plus d'informations, veuillez consulter la rubriqueQu'est-ce qu'Amazon Machine Learning.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Importance de la transformation des entités

Considérez un modèle d'apprentissage-machine dont la tâche consiste à déterminer si une transaction de carte de crédit est frauduleuse ou non. Sur la base de la connaissance du contexte de votre application et de l'analyse des données, vous pouvez décider des champs de données (ou entités) qu'il est important d'inclure dans les données d'entrée. Par exemple, le montant de la transaction, le nom du vendeur, l'adresse et l'adresse du propriétaire de la carte de crédit sont importants à fournir au processus d'apprentissage. D'un autre côté, un ID de transaction généré de façon aléatoire ne porte aucune information (si nous savons qu'il est vraiment aléatoire) et n'est pas utile.

Une fois que vous avez décidé quels champs inclure, vous transformez ces entités pour faciliter le processus d'apprentissage. Les transformations ajoutent une expérience en arrière-plan aux données d'entrée, ce qui permet au modèle d'apprentissage-machine de bénéficier de cette expérience. Par exemple, l'adresse de vendeur suivante est représentée sous la forme d'une chaîne :

« 123 Main Street, Seattle, WA 98101 »

Par elle-même, l'adresse a un pouvoir expressif limité : elle est utile uniquement pour apprendre les tendances associées à l'adresse exacte. La décomposer en éléments constitutifs, toutefois, peut créer des entités supplémentaires telles que « Address » (123 Main Street), « City » (Seattle), « State » (WA) et « Zip » (98101). Maintenant, l'algorithme d'apprentissage peut regrouper plus de transactions disparates et découvrir des tendances plus larges. Certains codes zip de vendeurs connaissent éventuellement plus d'activités frauduleuses que d'autres.

Pour plus d'informations sur l'approche et le processus de transformation d'entités, consultez Concepts d'apprentissage-machine.