Edite la configuración de muestreo del flujo de datos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Edite la configuración de muestreo del flujo de datos

Al importar datos tabulares a un flujo de datos de Data Wrangler, puede optar por tomar una muestra de su conjunto de datos para acelerar el proceso de exploración y limpieza de datos. Ejecutar transformaciones exploratorias en una muestra de tu conjunto de datos suele ser más rápido que ejecutar transformaciones en todo tu conjunto de datos, y cuando estés listo para exportar tu conjunto de datos y crear un modelo, puedes aplicar las transformaciones a todo el conjunto de datos.

Canvas admite los siguientes métodos de muestreo:

  • FirstK — Canvas selecciona los primeros K elementos de su conjunto de datos, donde K es un número que especifique. Este método de muestreo es simple, pero puede provocar sesgos si el conjunto de datos no está ordenado aleatoriamente.

  • Aleatorio: Canvas selecciona los elementos del conjunto de datos de forma aleatoria, y cada elemento tiene la misma probabilidad de ser elegido. Este método de muestreo ayuda a garantizar que la muestra sea representativa de todo el conjunto de datos.

  • Estratificado: Canvas divide el conjunto de datos en grupos (o estratos) en función de uno o más atributos (por ejemplo, la edad y el nivel de ingresos). Luego, se selecciona aleatoriamente un número proporcional de elementos de cada grupo. Este método garantiza que todos los subgrupos relevantes estén adecuadamente representados en la muestra.

Puede editar la configuración de muestreo en cualquier momento para cambiar el tamaño de la muestra utilizada para la exploración de datos.

Para realizar cambios en la configuración de muestreo, haga lo siguiente:

  1. En el gráfico de flujo de datos, seleccione el nodo de la fuente de datos.

  2. Elija Muestreo en la barra de navegación inferior.

  3. Se abre el cuadro de diálogo de muestreo. En el menú desplegable Método de muestreo, seleccione el método de muestreo que desee.

  4. En Tamaño máximo de muestra, introduzca el número de filas que desee muestrear.

  5. Elija Actualizar para guardar los cambios.

Ahora deberían aplicarse los cambios en la configuración de muestreo.