Alertes d'évaluation - Amazon Machine Learning

Nous ne mettons plus à jour le service Amazon Machine Learning et n'acceptons plus de nouveaux utilisateurs pour ce service. Cette documentation est disponible pour les utilisateurs existants, mais nous ne la mettons plus à jour. Pour plus d'informations, veuillez consulter la rubriqueQu'est-ce qu'Amazon Machine Learning.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Alertes d'évaluation

Amazon ML fournit des renseignements pour vous aider à valider si vous avez évalué correctement le modèle. Si l'un des critères de validation n'est pas satisfait par l'évaluation, la console Amazon ML vous alerte en affichant le critère de validation qui n'a pas été respecté, comme suit.

  • L'évaluation du modèle d'apprentissage-machine s'effectue sur des données mises de côté

    Amazon ML vous avertit si vous utilisez la même source de données pour la formation et l'évaluation. Si vous utilisez Amazon ML pour fractionner vos données, vous répondez à ce critère de validité. Si vous n'utilisez pas Amazon ML pour fractionner vos données, veillez à évaluer votre modèle d'apprentissage/machine avec une source de données autre que la source de données de formation.

  • Des données suffisantes ont été utilisées pour l'évaluation du modèle prédictif

    Amazon ML vous avertit si le nombre d'observations/d'enregistrements dans vos données d'évaluation est inférieur à 10 % du nombre d'observations que vous avez dans votre source de données de formation. Pour évaluer correctement votre modèle, il est important de fournir un échantillon de données suffisamment grand. Ce critère vous permet de savoir si vous utilisez trop peu de données. La quantité de données requise pour évaluer votre modèle d'apprentissage/machine est subjective. Une valeur de 10 % est sélectionnée ici comme palliatif en l'absence d'une meilleure mesure.

  • Correspondance des schémas

    Amazon ML vous avertit si les schémas utilisés pour les sources de données de formation et d'évaluation ne sont pas les mêmes. Si vous avez des attributs qui n'existent pas dans la source de données d'évaluation ou si vous avez d'autres attributs, Amazon ML affiche cette alerte.

  • Tous les enregistrements issus des fichiers d'évaluation ont été utilisés pour l'évaluation des performances du modèle prédictif

    Il est important de savoir si toutes les enregistrements fournis pour l'évaluation ont été réellement utilisés pour évaluer le modèle. Amazon ML vous avertit si certains enregistrements figurant dans la source de données d'évaluation étaient non valides et n'ont pas été inclus dans le calcul de la métrique de précision. Par exemple, si la variable cible est manquante pour certaines observations dans la source de données d'évaluation, Amazon ML n'est pas en mesure de vérifier si les prédictions du modèle d'apprentissage/machine pour ces observations sont correctes. Dans ce cas, les enregistrements avec des valeurs cibles manquantes sont considérés comme non valides.

  • Distribution de la variable cible

    Amazon ML vous montre la distribution de l'attribut cible à partir des sources de données de formation et d'évaluation afin que vous puissiez vérifier si la cible est distribuée de façon similaire dans les deux sources de données. Si le modèle a été formé sur des données de formation avec une distribution de la cible différente de la distribution de la cible sur les données d'évaluation, la qualité de l'évaluation pourrait en pâtir, car elle serait calculée sur des données dotées de statistiques très différentes. Il est recommandé d'avoir des données distribuées de manière similaire dans les données de formation et d'évaluation, et de faire en sorte que ces ensembles de données imitent autant que possible les données que le modèle rencontrera lorsqu'il réalisera des prédictions.

    Si cette alerte se déclenche, essayez d'utiliser la stratégie de fractionnement aléatoire pour diviser les données en sources de données de formation et d'évaluation. Dans de rares cas, cette alerte peut vous avertir par erreur de différences de distribution de la cible même si vous avez divisé vos données de façon aléatoire. Amazon ML utilise des statistiques de données approximatives pour évaluer les distributions des données, ce qui peut parfois déclencher par erreur cette alerte.