Leitfaden zur Kompatibilität von Datenformaten

In diesem Handbuch werden die Datenformattypen beschrieben, die mit SageMaker Clarif-Verarbeitungsaufträgen kompatibel sind. Zu den unterstützten Datenformattypen gehören die Dateierweiterungen, die Datenstruktur und spezifische Anforderungen oder Einschränkungen für Tabellen-, Bild- und Zeitreihendatensätze. In diesem Leitfaden erfahren Sie auch, wie Sie überprüfen können, ob Ihr Datensatz diesen Anforderungen entspricht.

Auf einer höheren Ebene folgt der SageMaker Clarify-Verarbeitungsjob dem Eingabe-Prozess-Ausgabe-Modell zur Berechnung von Messwerten und Merkmalsattributionen. Einzelheiten finden Sie in den folgenden Beispielen.

Die Eingabe für den Verarbeitungsauftrag SageMaker Clarify besteht aus folgenden Komponenten:

Der zu analysierende Datensatz.
Die Analysekonfiguration. Weitere Informationen darüber, wie Sie diese Analyse konfigurieren, finden Sie unter Analyse-Konfigurationsdateien.

Während der Verarbeitungsphase berechnet SageMaker Clarify Verzerrungsmetriken und Merkmalszuweisungen. Der SageMaker Clarify-Verarbeitungsjob schließt die folgenden Schritte im Backend ab:

Der SageMaker Clarif-Verarbeitungsjob analysiert Ihre Analysekonfiguration und lädt Ihren Datensatz.
Um Messwerte und Featureszuschreibungen nach dem Training zu berechnen, benötigt der Auftrag Modellvorhersagen aus Ihrem Modell. Der Verarbeitungsjob SageMaker Clarify serialisiert Ihre Daten und sendet sie als Anfrage an Ihr Modell, das auf einem SageMaker KI-Echtzeit-Inferenzendpunkt bereitgestellt wird. Danach extrahiert der SageMaker Clarify-Verarbeitungsjob Prognosen aus der Antwort.
Der Verarbeitungsauftrag SageMaker Clarify führt die Verzerrungs- und Erklärbarkeitsanalyse durch und gibt anschließend die Ergebnisse aus.

Weitere Informationen finden Sie unter Wie SageMaker Clarify Processing Jobs funktionieren.

Der Parameter, mit dem Sie das Format der Daten angeben, hängt wie folgt davon ab, wo die Daten im Verarbeitungsablauf verwendet werden:

Verwenden Sie für einen Eingabedatensatz den dataset_type Parameter, um das Format oder den MIME-Typ anzugeben.
Verwenden Sie bei einer Anfrage an einen Endpunkt den content_type Parameter, um das Format anzugeben.
Verwenden Sie für eine Antwort von einem Endpunkt den accept_type Parameter, um das Format anzugeben.

Der Eingabedatensatz, die Anfrage und die Antwort an und vom Endpunkt benötigen nicht dasselbe Format. Sie können beispielsweise einen Parquet-Datensatz mit einer CSV Anforderungsnutzlast und einer JSON Lines Antwortnutzlast unter den folgenden Bedingungen verwenden.

Ihre Analyse ist korrekt konfiguriert.
Ihr Modell unterstützt die Anforderungs- und Antwortformate.

Anmerkung

Wenn content_type oder nicht angegeben accept_type werden, leitet der Clarith-Container SageMaker den Wert und ab. content_type accept_type

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Analyse-Konfigurationsdateien

Tabellendaten