Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Edición de la configuración de muestreo del flujo de datos

Modo de enfoque
Edición de la configuración de muestreo del flujo de datos - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Al importar datos tabulares a un flujo de datos de Data Wrangler, puede tomar una muestra de su conjunto de datos para acelerar el proceso de exploración y limpieza de datos. Ejecutar transformaciones exploratorias en una muestra del conjunto de datos suele ser más rápido que ejecutar transformaciones en todo el conjunto de datos, y cuando esté listo para exportar el conjunto de datos y crear un modelo, puede aplicar las transformaciones a todo el conjunto de datos.

Canvas admite los siguientes métodos de muestreo:

  • FirstK: Canvas selecciona los primeros K elementos del conjunto de datos, donde K es un número que especifique. Este método de muestreo es simple, pero puede provocar sesgos si el conjunto de datos no está ordenado aleatoriamente.

  • Aleatorio: Canvas selecciona los elementos del conjunto de datos de forma aleatoria, y cada elemento tiene la misma probabilidad de ser elegido. Este método de muestreo ayuda a garantizar que la muestra sea representativa de todo el conjunto de datos.

  • Estratificado: Canvas divide el conjunto de datos en grupos (o estratos) en función de uno o más atributos (por ejemplo, la edad y el nivel de ingresos). A continuación, selecciona aleatoriamente un número proporcional de elementos de cada grupo. Este método garantiza que todos los subgrupos relevantes estén adecuadamente representados en la muestra.

Puede editar la configuración de muestreo en cualquier momento para cambiar el tamaño de la muestra utilizada para la exploración de datos.

Para realizar cambios en la configuración de muestreo, haga lo siguiente:

  1. En el gráfico de flujo de datos, seleccione el nodo del origen de datos.

  2. Elija Muestreo en la barra de navegación inferior.

  3. Se abre el cuadro de diálogo Muestreo. En el menú desplegable Método de muestreo, seleccione el método de muestreo que desee.

  4. En Tamaño máximo de la muestra, introduzca el número de filas que desee muestrear.

  5. Elija Actualizar para guardar los cambios.

Ahora deberían aplicarse los cambios en la configuración de muestreo.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.