Interface d'entrée et de sortie pour l' TensorFlow algorithme de classification de texte - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Interface d'entrée et de sortie pour l' TensorFlow algorithme de classification de texte

Chacun des modèles préentraînés répertoriés dans TensorFlow Hub Models peut être affiné pour n'importe quel ensemble de données composé de phrases de texte comportant un nombre quelconque de classes. Le modèle pré-entraîné associe une couche de classification au modèle d'intégration de texte et initialise les paramètres de la couche sur des valeurs aléatoires. La dimension de sortie de la couche de classification est déterminée en fonction du nombre de classes détectées dans les données d'entrée.

Sachez comment formater vos données d'entraînement pour les saisir dans le TensorFlow modèle de classification de texte.

  • Format d'entrée des données d'entraînement : répertoire contenant un fichier data.csv. Chaque ligne de la première colonne doit comporter des étiquettes de classe entières comprises entre 0 et le nombre de classes. Chaque ligne de la seconde colonne doit contenir les données de type correspondant.

Voici un exemple de CSV fichier d'entrée. Notez que le fichier ne doit pas avoir d'en-tête. Le fichier doit être hébergé dans un compartiment Amazon S3 avec un chemin similaire au suivant : s3://bucket_name/input_directory/. Notez que le / de fin est obligatoire.

| | | |---|---| |0 |hide new secretions from the parental units| |0 |contains no wit , only labored gags| |1 |that loves its characters and communicates something rather beautiful about human nature| |...|...|

Entraînement incrémentiel

Vous pouvez amorcer l'entraînement d'un nouveau modèle à l'aide d'artefacts provenant d'un modèle avec lequel vous vous êtes déjà entraîné SageMaker. L'entraînement incrémentiel permet de gagner du temps lorsque vous souhaitez entraîner un nouveau modèle avec des données identiques ou similaires.

Note

Vous ne pouvez amorcer qu'un modèle de classification de SageMaker texte avec un autre TensorFlow modèle de classification de texte dans TensorFlow lequel vous avez été entraîné SageMaker.

Vous pouvez utiliser n'importe quel jeu de données pour l'entraînement incrémentiel, à condition que l'ensemble de classes reste le même. L'étape d'entraînement incrémentiel est similaire à l'étape d'affinage, mais au lieu de commencer par un modèle pré-entraîné, vous commencez par un modèle affiné existant.

Pour plus d'informations sur l'utilisation de l'entraînement incrémentiel avec l' TensorFlow algorithme de classification de SageMaker texte, consultez le bloc-notes d'exemple Introduction à JumpStart la classification de texte.

Inférence avec l'algorithme de classification de texte TensorFlow

Vous pouvez héberger le modèle affiné issu de votre formation en classification de TensorFlow texte à des fins d'inférence. Tous les formats de texte brut pour l'inférence doivent avoir le type de contenu application/x-text.

L'inférence génère des valeurs de probabilité, des étiquettes de classe pour toutes les classes et l'étiquette prédite correspondant à l'indice de classe dont la probabilité est la plus élevée codée au JSON format. Le TensorFlow modèle Classification de texte traite une seule chaîne par demande et ne produit qu'une seule ligne. Voici un exemple de réponse JSON formatée :

accept: application/json;verbose {"probabilities": [prob_0, prob_1, prob_2, ...], "labels": [label_0, label_1, label_2, ...], "predicted_label": predicted_label}

Si accept a pour valeur application/json, le modèle génère en sortie uniquement des probabilités.