Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Guía de compatibilidad de formatos de datos
Esta guía describe los tipos de formato de datos que son compatibles con los trabajos de procesamiento SageMaker de Clarify. Los tipos de formatos de datos admitidos incluyen las extensiones de archivo, la estructura de datos y los requisitos o restricciones específicos para los conjuntos de datos tabulares, de imágenes y de series temporales. Esta guía también muestra cómo comprobar si su conjunto de datos cumple con estos requisitos.
En un nivel superior, el trabajo de procesamiento de SageMaker Clarify sigue el modelo de entrada-proceso-salida para calcular las métricas de sesgo y las atribuciones de características. Consulte los siguientes ejemplos para obtener detalles.
La entrada al trabajo de procesamiento de SageMaker Clarify consiste en lo siguiente:
-
El conjunto de datos que se va a analizar.
-
La configuración del análisis. Para obtener más información sobre cómo configurar un análisis, consulteArchivos de configuración de análisis.
Durante la fase de procesamiento, SageMaker Clarify calcula las métricas de sesgo y las atribuciones de las características. El trabajo SageMaker de procesamiento de Clarify completa los siguientes pasos en el backend:
-
El trabajo SageMaker de procesamiento de Clarify analiza la configuración de análisis y carga el conjunto de datos.
-
Para calcular las métricas de sesgo y las atribuciones de características posteriores al entrenamiento, el trabajo requiere predicciones del modelo a partir de su modelo. El trabajo SageMaker de procesamiento de Clarify serializa los datos y los envía como una solicitud a su modelo, que se implementa en un punto final de inferencia en SageMaker tiempo real. Después de eso, el trabajo de procesamiento SageMaker de Clarify extrae las predicciones de la respuesta.
-
El trabajo SageMaker de procesamiento de Clarify realiza el análisis de sesgo y explicabilidad y, a continuación, genera los resultados.
Para obtener más información, consulte Cómo funcionan los SageMaker trabajos de procesamiento de Clarify.
El parámetro que utilice para especificar el formato de los datos depende del lugar en el flujo de procesamiento donde se utilicen los datos, de la siguiente manera:
-
En el caso de un conjunto de datos de entrada, utilice el
dataset_type
parámetro para especificar el formato o MIME el tipo. -
Para una solicitud a un punto de conexión, utilice el parámetro
content_type
para especificar el formato. -
Para una respuesta de un punto de conexión, utilice el parámetro
accept_type
para especificar el formato.
El conjunto de datos de entrada, la solicitud y la respuesta hacia y desde el punto de conexión no requieren el mismo formato. Por ejemplo, puede usar un conjunto de datos de Parquet con una carga útil de CSV solicitud y una carga útil de respuesta de JSON Lines si se cumplen las siguientes condiciones.
-
El análisis está configurado correctamente.
-
El modelo admite los formatos de solicitud y respuesta.
nota
Si accept_type
se proporcionan content_type
o no, el contenedor SageMaker Clarify deduce la y. content_type
accept_type