Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Guía de compatibilidad de formatos de datos
Esta guía describe los tipos de formato de datos que son compatibles con los trabajos de procesamiento SageMaker de Clarify. Los tipos de formatos de datos compatibles incluyen las extensiones de archivo, la estructura de datos y los requisitos o restricciones específicos para los conjuntos de datos tabulares, de imágenes y de series temporales. Esta guía también muestra cómo comprobar si su conjunto de datos cumple con estos requisitos.
En un nivel superior, el trabajo de procesamiento de SageMaker Clarify sigue el modelo de entrada-proceso-salida para calcular las métricas de sesgo y las atribuciones de características. Consulte los siguientes ejemplos para obtener detalles.
La entrada al trabajo de procesamiento de SageMaker Clarify consiste en lo siguiente:
-
El conjunto de datos que se va a analizar.
-
La configuración del análisis. Para obtener más información acerca de cómo configurar un análisis, consulte Archivos de configuración del análisis.
Durante la etapa de procesamiento, SageMaker Clarify calcula las métricas de sesgo y las atribuciones de características. El trabajo SageMaker de procesamiento de Clarify completa los siguientes pasos en el backend:
-
El trabajo SageMaker de procesamiento de Clarify analiza la configuración de análisis y carga el conjunto de datos.
-
Para calcular las métricas de sesgo y las atribuciones de características posteriores al entrenamiento, el trabajo requiere predicciones del modelo a partir de su modelo. El trabajo SageMaker de procesamiento de Clarify serializa los datos y los envía como una solicitud a su modelo, que se implementa en un punto final de inferencia en tiempo real de la SageMaker IA. Después, el trabajo de procesamiento de SageMaker Clarify extrae las predicciones de la respuesta.
-
El trabajo SageMaker de procesamiento de Clarify realiza el análisis de sesgo y explicabilidad y, a continuación, genera los resultados.
Para obtener más información, consulte Cómo funcionan los SageMaker trabajos de procesamiento de Clarify.
El parámetro que utilice para especificar el formato de los datos depende del lugar en el flujo de procesamiento donde se utilicen los datos, de la siguiente manera:
-
Para un conjunto de datos de entrada, utilice el parámetro
dataset_type
para especificar el formato o el tipo MIME. -
Para una solicitud a un punto de conexión, utilice el parámetro
content_type
para especificar el formato. -
Para una respuesta de un punto de conexión, utilice el parámetro
accept_type
para especificar el formato.
El conjunto de datos de entrada, la solicitud y la respuesta hacia y desde el punto de conexión no requieren el mismo formato. Por ejemplo, puede usar un conjunto de datos Parquet con una carga de solicitud CSV y una carga de respuesta JSON Lines si se cumplen las siguientes condiciones.
-
El análisis está configurado correctamente.
-
El modelo admite los formatos de solicitud y respuesta.
nota
Si accept_type
se proporcionan content_type
o no, el contenedor SageMaker Clarify deduce la y. content_type
accept_type