Edición de la configuración de muestreo del flujo de datos - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Edición de la configuración de muestreo del flujo de datos

Al importar datos tabulares a un flujo de datos de Data Wrangler, puede tomar una muestra de su conjunto de datos para acelerar el proceso de exploración y limpieza de datos. Ejecutar transformaciones exploratorias en una muestra del conjunto de datos suele ser más rápido que ejecutar transformaciones en todo el conjunto de datos, y cuando esté listo para exportar el conjunto de datos y crear un modelo, puede aplicar las transformaciones a todo el conjunto de datos.

Canvas admite los siguientes métodos de muestreo:

  • FirstK: Canvas selecciona los primeros K elementos del conjunto de datos, donde K es un número que especifique. Este método de muestreo es simple, pero puede provocar sesgos si el conjunto de datos no está ordenado aleatoriamente.

  • Aleatorio: Canvas selecciona los elementos del conjunto de datos de forma aleatoria, y cada elemento tiene la misma probabilidad de ser elegido. Este método de muestreo ayuda a garantizar que la muestra sea representativa de todo el conjunto de datos.

  • Estratificado: Canvas divide el conjunto de datos en grupos (o estratos) en función de uno o más atributos (por ejemplo, la edad y el nivel de ingresos). A continuación, selecciona aleatoriamente un número proporcional de elementos de cada grupo. Este método garantiza que todos los subgrupos relevantes estén adecuadamente representados en la muestra.

Puede editar la configuración de muestreo en cualquier momento para cambiar el tamaño de la muestra utilizada para la exploración de datos.

Para realizar cambios en la configuración de muestreo, haga lo siguiente:

  1. En el gráfico de flujo de datos, seleccione el nodo del origen de datos.

  2. Elija Muestreo en la barra de navegación inferior.

  3. Se abre el cuadro de diálogo Muestreo. En el menú desplegable Método de muestreo, seleccione el método de muestreo que desee.

  4. En Tamaño máximo de la muestra, introduzca el número de filas que desee muestrear.

  5. Elija Actualizar para guardar los cambios.

Ahora deberían aplicarse los cambios en la configuración de muestreo.