Uso de Spigot para tomar muestras del conjunto de datos
Para probar las transformaciones realizadas por el trabajo, es posible que desee obtener una muestra de los datos para comprobar que la transformación funciona según lo previsto. La transformación Spigot escribe un subconjunto de registros del conjunto de datos en un archivo JSON en un bucket de Amazon S3. El método de muestreo de datos puede ser un número especificado de registros del principio del archivo o un factor de probabilidad utilizado para elegir los registros.
Para agregar un nodo de transformación Spigot al diagrama de trabajo
-
(Opcional) abra el panel de recursos y elija Spigot para agregar una nueva transformación al diagrama de trabajo, si es necesario.
-
En la pestaña Node properties (Propiedades del nodo), ingrese un nombre para el nodo en el diagrama de trabajo. Si todavía no se ha seleccionado un nodo principal, elija un nodo de la lista Node parents (Nodos principales) para utilizar como origen de entrada para la transformación.
-
Elija la pestaña Transform (Transformación) en el panel de detalles del nodo.
-
Escriba una ruta de Amazon S3 o elija Browse S3 (Examinar S3) para elegir una ubicación en Amazon S3. Esta es la ubicación donde el trabajo escribe el archivo JSON que contiene la muestra de datos.
-
Ingrese la información para el método de muestreo. Puede especificar un valor para Number of records (Número de registros) que se escribirá desde el principio del conjunto de datos y un Probability threshold (Umbral de probabilidad) (que se ingresa como un valor decimal con un valor máximo de 1) para seleccionar cualquier registro determinado.
Por ejemplo, para escribir los primeros 50 registros del conjunto de datos, debe establecer Number of records en 50 y Probability threshold en 1 (100 %).