I/O Interface pour l'algorithme Object2Vec Recommandation d'instance EC2 pour l'algorithme Object2Vec Exemples de blocs-notes

Algorithme Object2Vec

L'algorithme Amazon SageMaker AI Object2Vec est un algorithme d'intégration neuronale à usage général hautement personnalisable. Il peut apprendre les intégrations denses à faible dimension des objets à haute dimension. Les intégrations sont apprises de manière à ce que la sémantique de la relation entre les paires d'objets de l'espace d'origine soit conservée dans le script d'intégration. Vous pouvez utiliser les intégrations apprises pour, par exemple, calculer efficacement les voisins les plus proches d'objets et visualiser les clusters naturels d'objets connexes dans l'espace à faible dimension. Vous pouvez également utiliser les intégrations comme caractéristiques des objets correspondants des tâches supervisées en aval, telles que la classification ou la régression.

Object2Vec généralise la célèbre technique d'intégration Word2Vec pour les mots optimisés dans l'IA. SageMaker BlazingText algorithme Pour un article de blog expliquant comment appliquer Object2Vec à certains cas d'utilisation pratiques, consultez Introduction à Amazon SageMaker AI Object2Vec.

Rubriques

I/O Interface pour l'algorithme Object2Vec

Vous pouvez utiliser Object2Vec sur différents types de données d'entrée, y compris les éléments suivants :

Type de données d’entrée	Exemple
Sentence-sentence paires	« Un match de foot avec plusieurs hommes qui jouent. » et « Certains hommes font du sport. »
Labels-sequence paires	Les tags de genre du film « Titanic », tels que « Romance » et « Drame », et sa courte description : « Le Titanic de James Cameron est une romance épique et pleine d'action qui se déroule sur le malheureux voyage inaugural du. R.M.S Titanic. Ce navire de croisière était le plus luxueux de son époque, un bateau de rêve, qui a mené plus de 1 500 personnes à la mort dans les eaux glacées de l'Atlantique Nord aux premières heures du jour du 15 avril 1912. »
Customer-customer paires	L'ID client Jane et ID client Jackie.
Product-product paires	L'ID produit football et l'ID produit basket-ball
Paires utilisateur-élément de révision d'élément	Un ID d'utilisateur et les éléments qu'elle a achetés, tels que des pommes, des poires et des oranges.

Pour transformer les données d'entrée dans les formats pris en charge, vous devez les prétraiter. De façon native, Object2Vec prend actuellement en charge deux types d'entrée :

Un jeton discret, qui est représenté sous la forme d'une liste d'un seul integer-id. Par exemple, [10].
Une séquence de jetons discrets, qui est représentée sous la forme d'une liste de integer-ids. Par exemple, [0,12,10,13].

L'objet de chaque paire peut être asymétrique. Par exemple, les paires peuvent être (jeton, séquence) ou (jeton, jeton) ou (séquence, séquence). Pour les entrées de jeton, l'algorithme prend en charge les intégrations simples comme encodeurs compatibles. Pour les séquences de vecteurs de jetons, l'algorithme prend en charge les éléments suivants comme encodeurs :

Average-pooled intégrations
Réseaux neuronaux convolutifs (CNN, convolutional neural networks) hiérarchiques
Multi-layered mémoire bidirectionnelle à long terme (BilsTMS)

L'étiquette d'entrée pour chaque paire peut être l'une des actions suivantes :

Une étiquette de catégorie qui exprime la relation entre les objets dans la paire
Un score qui exprime la puissance de la similarité entre les deux objets

Pour les étiquettes de catégorie utilisées dans la classification, l'algorithme prend en charge la fonction perte entropie croisée. Pour les étiquettes ratings/score basées utilisées dans la régression, l'algorithme prend en charge la fonction de perte par erreur quadratique moyenne (MSE). Spécifiez ces fonctions de perte avec l'hyperparamètre output_layer lorsque vous créez la tâche d'entraînement du modèle.

Recommandation d'instance EC2 pour l'algorithme Object2Vec

Le type d'instance Amazon Elastic Compute Cloud (Amazon EC2) que vous utilisez dépend de si vous entraînez ou exécutez l'inférence.

Lors de l'entraînement d'un modèle à l'aide de l'algorithme Object2Vec sur une UC, commencez par une instance ml.m5.2xlarge. Pour les entraînements sur un GPU, commencez par une instance ml.p2.xlarge. Si l'entraînement prend trop de temps sur cette instance, vous pouvez utiliser une instance plus grande. Actuellement, l'algorithme Object2Vec permet d'entraîner sur une seule machine. Toutefois, il n'offre pas la prise en charge de plusieurs processeurs graphiques. Object2Vec prend en charge les familles d'instances de GPU P2, P3, G4dn et G5 pour l'entraînement et l'inférence.

Pour une inférence dotée d'un modèle Object2Vec entraîné qui comporte un réseau de neurones profond, nous vous recommandons d'utiliser l'instance GPU ml.p3.2xlarge. La mémoire GPU étant faible, la variable d'environnement INFERENCE_PREFERRED_MODE peut être spécifiée pour déterminer si le réseau d'inférence Optimisation du GPU : classification ou régression ou Optimisation du GPU : intégrations de l'encodeur doit être chargé dans le GPU.

Exemples de blocs-notes Object2Vec

Utilisation d'Object2Vec pour encoder des phrases dans des intégrations de longueur fixe

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Formats d'inférence

Comment ça marche