Exécution d’un modèle Étiquettes personnalisées Amazon Rekognition entraîné - Rekognition

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exécution d’un modèle Étiquettes personnalisées Amazon Rekognition entraîné

Lorsque vous êtes satisfait des performances du modèle, vous pouvez commencer à l’utiliser. Vous pouvez démarrer et arrêter un modèle à l'aide de la console ou du AWS SDK. La console inclut également des exemples d’opérations du kit SDK que vous pouvez utiliser.

Unités d’inférence

Lorsque vous démarrez votre modèle, vous spécifiez le nombre de ressources de calcul, appelées unités d’inférence, utilisées par le modèle.

Important

Vous êtes facturé en fonction du nombre d’heures d’exécution de votre modèle et du nombre d’unités d’inférence qu’il utilise pendant son exécution, en fonction de la façon dont vous configurez l’exécution de votre modèle. Par exemple, si vous démarrez le modèle avec deux unités d’inférence et que vous l’utilisez pendant 8 heures, 16 heures d’inférence vous sont facturées (8 heures d’exécution * deux unités d’inférence). Pour plus d’informations, consultez Heures d’inférence. Si vous n’arrêtez pas explicitement votre modèle, des frais vous seront facturés même si vous n’analysez pas activement les images avec votre modèle.

Les transactions par seconde (TPS) prises en charge par une seule unité d’inférence sont affectées par les facteurs suivants.

  • Un modèle qui détecte des étiquettes au niveau de l’image (classification) a généralement un nombre TPS plus élevé qu’un modèle qui détecte et localise des objets à l’aide de cadres de délimitation (détection d’objets).

  • La complexité du modèle.

  • Une image avec une résolution plus élevée nécessite plus de temps pour l’analyse.

  • Un plus grand nombre d’objets dans une image nécessite plus de temps pour l’analyse.

  • Les petites images sont analysées plus rapidement que les images plus grandes.

  • Une image transmise sous forme d’octets d’image est analysée plus rapidement que lorsque vous l’avez d’abord téléchargée dans un compartiment Amazon S3, puis que vous la référencez. Les images transmises sous forme d’octets d’image doivent avoir une taille inférieure à 4 Mo. Nous vous recommandons d’utiliser des octets d’image pour le traitement des images en temps quasi réel et lorsque la taille de l’image est inférieure à 4 Mo. Par exemple, des images capturées par une caméra IP.

  • Le traitement des images stockées dans un compartiment Amazon S3 est plus rapide que de télécharger des images, les convertir en octets d’image, puis les transmettre à des fins d’analyse.

  • L’analyse d’une image déjà stockée dans un compartiment Amazon S3 est probablement plus rapide que d’analyser la même image transmise sous forme d’octets d’image. Cela est particulièrement vrai si la taille de l’image est plus grande.

Si le nombre d’appels à DetectCustomLabels dépasse le nombre TPS maximum pris en charge par la somme des unités d’inférence utilisées par un modèle, Étiquettes personnalisées Amazon Rekognition renvoie une exception ProvisionedThroughputExceededException.

Gestion du débit à l’aide d’unités d’inférence

Vous pouvez augmenter ou diminuer le débit de votre modèle en fonction des exigences de votre application. Pour augmenter le débit, utilisez des unités d’inférence supplémentaires. Chaque unité d’inférence supplémentaire augmente votre vitesse de traitement d’une unité d’inférence. Pour plus d’informations sur le calcul du nombre d’unités d’inférence dont vous avez besoin, consultez Calculate inference units for Amazon Rekognition Custom Labels and Amazon Lookout for Vision models. Si vous souhaitez modifier le débit pris en charge par votre modèle, deux options s’offrent à vous :

Ajout ou suppression des unités d’inférence manuellement

Arrêtez le modèle, puis redémarrez-le avec le nombre d’unités d’inférence requis. L’inconvénient de cette approche est que le modèle ne peut pas recevoir de demandes pendant le redémarrage et qu’il ne peut pas être utilisé pour gérer les pics de demande. Utilisez cette approche si le débit de votre modèle est stable et que votre cas d’utilisation peut tolérer 10 à 20 minutes d’indisponibilité. Par exemple, si vous souhaitez effectuer des appels groupés vers votre modèle selon un calendrier hebdomadaire.

Mise à l’échelle automatique d’unités d’inférence

Si votre modèle doit faire face à des pics de demande, la fonctionnalité Étiquettes personnalisées Amazon Rekognition peut automatiquement mettre à l’échelle le nombre d’unités d’inférence utilisées par votre modèle. À mesure que la demande augmente, la fonctionnalité Étiquettes personnalisées Amazon Rekognition ajoute des unités d’inférence supplémentaires au modèle et les supprime lorsque la demande diminue.

Pour permettre à Étiquettes personnalisées Amazon Rekognition de mettre à l’échelle automatiquement les unités d’inférence d’un modèle, démarrez le modèle et définissez le nombre maximum d’unités d’inférence qu’il peut utiliser à l’aide du paramètre MaxInferenceUnits. La définition d’un nombre maximum d’unités d’inférence vous permet de gérer le coût d’exécution du modèle en limitant le nombre d’unités d’inférence disponibles. Si vous ne spécifiez pas de nombre maximum d’unités, la fonctionnalité Étiquettes personnalisées Amazon Rekognition ne mettra pas automatiquement à l’échelle votre modèle, mais utilisera uniquement le nombre d’unités d’inférence avec lequel vous avez commencé. Pour plus d’informations concernant le nombre maximum d’unités d’inférence, consultez Service Quotas.

Vous pouvez également spécifier un nombre minimum d’unités d’inférence à l’aide du paramètre MinInferenceUnits. Cela vous permet de spécifier le débit minimum pour votre modèle, où une seule unité d’inférence représente 1 heure de traitement.

Note

Vous ne pouvez pas définir le nombre maximum d’unités d’inférence avec la console Étiquettes personnalisées Amazon Rekognition. Spécifiez plutôt le paramètre d’entrée MaxInferenceUnits de l’opération StartProjectVersion.

Les étiquettes personnalisées Amazon Rekognition fournissent les métriques CloudWatch Amazon Logs suivantes que vous pouvez utiliser pour déterminer l'état actuel du dimensionnement automatique d'un modèle.

Métrique Description

DesiredInferenceUnits

Le nombre d’unités d’inférence par rapport auxquelles la fonctionnalité Étiquettes personnalisées Amazon Rekognition est augmentée ou réduite.

InServiceInferenceUnits

Le nombre d’unités d’inférence utilisées par le modèle.

Si DesiredInferenceUnits = InServiceInferenceUnits, la fonctionnalité Étiquettes personnalisées Amazon Rekognition ne met pas actuellement à l’échelle le nombre d’unités d’inférence.

Si DesiredInferenceUnits > InServiceInferenceUnits, la fonctionnalité Étiquettes personnalisées Amazon Rekognition augmente à la valeur de DesiredInferenceUnits.

Si DesiredInferenceUnits < InServiceInferenceUnits, la fonctionnalité Étiquettes personnalisées Amazon Rekognition est réduite à la valeur de DesiredInferenceUnits.

Pour plus d'informations concernant les métriques renvoyées par les étiquettes personnalisées Amazon Rekognition et les dimensions de filtrage, CloudWatch consultez les métriques pour Rekognition.

Pour connaître le nombre maximum d’unités d’inférence que vous avez demandées pour un modèle, appelez DescribeProjectsVersion et vérifiez le champ MaxInferenceUnits dans la réponse. Pour obtenir un exemple de code, consultez Décrire un modèle (SDK).

Zones de disponibilité

La fonctionnalité Étiquettes personnalisées Amazon Rekognition distribue les unités d’inférence dans plusieurs zones de disponibilité au sein d’une région AWS afin d’augmenter la disponibilité. Pour plus d’informations, consultez Zones de disponibilité. Pour protéger vos modèles de production contre les pannes de zone de disponibilité et les défaillances des unités d’inférence, démarrez vos modèles de production avec au moins deux unités d’inférence.

En cas de panne de la zone de disponibilité, toutes les unités d’inférence de la zone de disponibilité ne sont pas disponibles et la capacité du modèle est réduite. Les appels aux DetectCustomlabels sont redistribués entre les unités d'inférence restantes. Ces appels réussissent s’ils ne dépassent pas les transactions par seconde (TPS) prises en charge par les unités d’inférence restantes. Une fois qu’AWS a réparé la zone de disponibilité, les unités d’inférence sont redémarrées et leur capacité maximum est rétablie.

Si une seule unité d’inférence échoue, la fonctionnalité Étiquettes personnalisées Amazon Rekognition lance automatiquement une nouvelle unité d’inférence dans la même zone de disponibilité. La capacité du modèle est réduite jusqu’au démarrage de la nouvelle unité d’inférence.