Filtrado de claves dentro de un conjunto de datos - AWS Glue

Filtrado de claves dentro de un conjunto de datos

Use la transformación Filter (Filtro) para crear un nuevo conjunto de datos al filtrar los registros del conjunto de datos de entrada en función de una expresión regular. Las filas que no satisfacen la condición del filtro se eliminan de la salida.

  • Para los tipos de datos de cadena, puede filtrar filas en las que el valor de clave coincida con una cadena especificada.

  • Para los tipos de datos numéricos, puede filtrar filas mediante la comparación del valor clave con un valor especificado a través de los operadores de comparación <, >, =, !=, <= y >=.

Si especifica varias condiciones de filtro, los resultados se combinan mediante un operador AND de forma predeterminada, pero puede elegir OR en su lugar.

La transformación Filtro distingue entre mayúsculas y minúsculas. Agregue una transformación ApplyMapping (Aplicar mapeo)como nodo principal si necesita nombres de clave de propiedad que no distingan entre mayúsculas y minúsculas.

Para agregar un nodo de transformación de filtro al diagrama de trabajo
  1. (Opcional) abra el panel de recursos y elija Filtro para agregar una nueva transformación al diagrama de trabajo, si es necesario.

  2. En la pestaña Node properties (Propiedades del nodo), ingrese un nombre para el nodo en el diagrama de trabajo. Si todavía no se ha seleccionado un nodo principal, elija un nodo de la lista Node parents (Nodos principales) para utilizar como origen de entrada para la transformación.

  3. Elija la pestaña Transform (Transformación).

  4. Elija Global AND (Global Y) o Global OR (Global O). Esto determina cómo se combinan distintas condiciones de filtro. Todas las condiciones se combinan mediante operaciones AND o OR. Si solo tiene una sola condición de filtro, puede elegir entre cualquiera de las dos.

  5. Elija el botón Add condition (Agregar condición) en la sección Filter condition (Condición de filtro) para agregar una condición de filtro.

    En el campo Key (Clave), elija un nombre de clave de propiedad a partir del conjunto de datos. En el campo Operation (Operación) elija el operador de comparación. En el campo Value (Valor), ingrese el valor de comparación. Estas son algunas ejemplos de condiciones de filtro:

    • year >= 2018

    • State matches 'CA*'

    Cuando filtra los valores de cadena, asegúrese de que el valor de comparación utiliza un formato de expresión regular que coincida con el lenguaje de script seleccionado en las propiedades del trabajo (Python o Scala).

  6. Agregue condiciones de filtro adicionales, según sea necesario.

  7. (Opcional) después de configurar las propiedades del nodo de transformación, puede ver el esquema de datos para sus datos al seleccionar la pestaña Output schema (Esquema de salida) en el panel de detalles del nodo. La primera vez que elija esta pestaña para cualquier nodo de trabajo, se le pedirá que proporcione un rol de IAM para acceder a los datos. Si no ha especificado un rol de IAM en Job details (Detalles del trabajo), se le pedirá que ingrese un rol de IAM aquí.

  8. (Opcional) después de configurar las propiedades del nodo y las propiedades de transformación, puede obtener una previsualización del conjunto de datos modificado si selecciona la opción Data preview (Previsualización de datos) en el panel de detalles del nodo. La primera vez que elija esta pestaña para cualquier nodo de trabajo, se le pedirá que proporcione un rol de IAM para acceder a los datos. Hay un costo asociado con el uso de este recurso y la facturación comienza tan pronto como proporcione un rol de IAM.