Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Beheben Sie Inference Recommender-Fehler
Dieser Abschnitt enthält Informationen dazu, wie Sie häufige Fehler verstehen und verhindern können, welche Fehlermeldungen sie generieren und wie Sie diese Fehler beheben können.
Fehlerbehebung
Sie können versuchen, Ihren Fehler zu beheben, indem Sie die folgenden Schritte ausführen:
-
Prüfen Sie, ob Sie alle Voraussetzungen für die Verwendung von Inference Recommender erfüllt haben. Weitere Informationen finden Sie unter Voraussetzungen für Inference Recommender.
-
Vergewissern Sie sich, dass Sie Ihr Modell von Model Registry aus auf einem Endpunkt bereitstellen können und ob es Ihre Payloads fehlerfrei verarbeiten kann. Weitere Informationen finden Sie unter Bereitstellen eines Modells aus dem Verzeichnis.
-
Wenn Sie einen Inference Recommender-Job starten, sollten Sie sehen, dass in der Konsole Endpoints erstellt werden, und Sie können die Protokolle überprüfen. CloudWatch
Häufige Fehler
In der folgenden Tabelle finden Sie häufig auftretende Inference Recommender-Fehler und deren Lösungen.
Fehler | Lösung |
---|---|
Geben Sie |
Stellen Sie sicher, dass Sie die ML-Domain oder |
Die angegebene Rolle ARN kann nicht übernommen werden und es ist ein |
Stellen Sie sicher, dass die angegebene Ausführungsrolle über die erforderlichen Berechtigungen verfügt, die in den Voraussetzungen angegeben sind. |
Geben Sie |
Stellen Sie sicher, dass Sie das ML-Framework angeben oder, |
Benutzer am Ende der vorherigen Phase sind 0, während die ersten Benutzer der aktuellen Phase 1 sind. |
Benutzer beziehen sich hier auf virtuelle Benutzer oder Threads, die zum Senden von Anfragen verwendet werden. Jede Phase beginnt mit A-Benutzern und endet mit B-Benutzern, also B > A. Zwischen den aufeinanderfolgenden Phasen, x_1 und x_2, benötigen wir abs (x_2.A – x_1.B) <= 3 und >= 0. |
Die Gesamtdauer des Datenverkehrs (über) sollte nicht länger als die Auftragsdauer sein. |
Die Gesamtdauer all Ihrer Phasen darf die Jobdauer nicht überschreiten. |
Der Burstable-Instance-Typ ml.t2.medium ist nicht zulässig. |
Inference Recommender unterstützt keine Lasttests für die T2-Instance-Familie, da Burstable-Instances keine konsistente Leistung bieten. |
ResourceLimitExceeded beim Aufrufen der CreateEndpoint Operation |
Sie haben ein SageMaker Ressourcenlimit überschritten. Beispielsweise kann Inference Recommender möglicherweise keine Endpunkte für das Benchmarking bereitstellen, wenn das Konto das Endpunktkontingent erreicht hat. Weitere Informationen zu SageMaker Limits und Kontingenten finden Sie unter SageMakerAmazon-Endpunkte und Kontingente. |
ModelError beim Aufrufen InvokeEndpoint von Operation |
Ein Modellfehler kann aus folgenden Gründen auftreten:
|
PayloadError beim Aufrufen von InvokeEndpoint Operation |
Ein Payload-Fehler kann aus folgenden Gründen auftreten:
|
Prüfen CloudWatch
Wenn Sie einen Inference Recommender-Job starten, sollten Sie sehen, dass in der Konsole Endpoints erstellt werden. Wählen Sie einen der Endpunkte aus und sehen Sie sich die CloudWatch Protokolle an, um nach 4xx/5xx-Fehlern zu suchen. Wenn Sie einen erfolgreichen Inference Recommender-Job ausgeführt haben, können Sie die Endpunktnamen als Teil der Ergebnisse sehen. Selbst wenn Ihr Inference Recommender-Job nicht erfolgreich ist, können Sie die CloudWatch Protokolle der gelöschten Endpunkte trotzdem überprüfen, indem Sie die folgenden Schritte ausführen:
-
Öffnen Sie die CloudWatch Amazon-Konsole unter https://console.aws.amazon.com/cloudwatch/
. -
Wählen Sie aus der Dropdown-Liste Region oben rechts die Region aus, in der Sie den Inference Recommender-Job erstellt haben.
-
Wählen Sie im Navigationsbereich von CloudWatch Logs und anschließend Log-Gruppen aus.
-
Suchen Sie nach der Protokollgruppe namens
/aws/sagemaker/Endpoints/sm-epc-*
. Wählen Sie die Protokollgruppe auf der Grundlage Ihres letzten Inference Recommender-Jobs aus.
Sie können Ihren Job auch beheben, indem Sie die Inference Recommender-Protokolle CloudWatch überprüfen. Die Inference Recommender-Protokolle, die in der /aws/sagemaker/InferenceRecommendationsJobs
CloudWatch Protokollgruppe veröffentlicht werden, bieten einen umfassenden Überblick über den Fortschritt des Jobs im Protokollstream.
Detaillierte Informationen zu jeder der getesteten Endpunktkonfigurationen finden Sie im <jobName>
/execution
Protokollstream.<jobName>
/Endpoint/<endpointName>
Überblick über die Inference Recommender-Logstreams
-
enthält allgemeine Jobinformationen wie Endpunktkonfigurationen, die für das Benchmarking geplant sind, den Grund für das Überspringen von Kompilierungsaufträgen und den Grund für die fehlgeschlagene Validierung.<jobName>
/execution -
enthält Informationen wie den Fortschritt der Ressourcenerstellung, die Testkonfiguration, den Grund für den Stopp des Ladetests und den Status der Ressourcenbereinigung.<jobName>
/Endpoint/<endpointName>
-
enthält Informationen zu Kompilierungsaufträgen, die von Inference Recommender erstellt wurden, wie z. B. die Konfiguration des Kompilierungsauftrags und den Status des Kompilierungsauftrags.<jobName>
/CompilationJob/<compilationJobName>
Erstellen Sie einen Alarm für Inference Recommender-Fehlermeldungen
Inference Recommender gibt Protokollanweisungen für Fehler aus, die bei der Fehlerbehebung hilfreich sein können. Mit einer CloudWatch Protokollgruppe und einem Metrikfilter können Sie beim Senden der Daten in diesen Protokolldaten nach Begriffen und Mustern suchen. CloudWatch Anschließend können Sie einen CloudWatch Alarm erstellen, der auf dem Metrikfilter für Protokollgruppen basiert. Weitere Informationen finden Sie unter Erstellen eines CloudWatch Alarms auf der Grundlage eines Metrikfilters für Protokollgruppen.
Überprüfen Sie die Benchmarks
Wenn Sie einen Inference Recommender-Job starten, erstellt Inference Recommender mehrere Benchmarks, um die Leistung Ihres Modells auf verschiedenen Instance-Typen zu bewerten. Sie können den verwenden ListInferenceRecommendationsJobStepsAPI, um die Details für alle Benchmarks anzuzeigen. Wenn Sie einen fehlgeschlagenen Benchmark haben, können Sie die Gründe für das Scheitern als Teil der Ergebnisse sehen.
Um den zu verwenden ListInferenceRecommendationsJobStepsAPI, geben Sie die folgenden Werte an:
-
Geben Sie für den Namen des
JobName
Inference Recommender-Jobs an. -
Für
StepType
, wird verwendet,BENCHMARK
um Details zu den Benchmarks des Jobs zurückzugeben. -
Für
Status
, wird verwendet,FAILED
um nur Details zu den fehlgeschlagenen Benchmarks zurückzugeben. Eine Liste der anderen Statustypen finden Sie in demStatus
Feld in der ListInferenceRecommendationsJobStepsAPI.
# Create a low-level SageMaker service client. import boto3 aws_region =
'<region>'
sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # Provide the job name for the SageMaker Inference Recommender job job_name ='<job-name>'
# Filter for benchmarks step_type = 'BENCHMARK' # Filter for benchmarks that have a FAILED status status = 'FAILED' response = sagemaker_client.list_inference_recommendations_job_steps( JobName = job_name, StepType = step_type, Status = status )
Sie können das Antwortobjekt drucken, um die Ergebnisse anzuzeigen. Im vorherigen Codebeispiel wurde die Antwort in einer Variablen mit dem Namen gespeichertresponse
:
print(response)