La transformación Join (Combinación) le permite combinar dos conjuntos de datos en uno. Especifique los nombres de clave en el esquema de cada conjunto de datos que desea comparar. El DynamicFrame
de salida contiene las filas donde las claves cumplen la condición de combinación. Las filas de cada conjunto de datos que cumplen con la condición de combinación se combinan en una sola fila en el DynamicFrame
de salida que contiene todas las columnas encontradas en cualquiera de los conjuntos de datos.
Para agregar un nodo de transformación de combinación al diagrama de trabajo
-
Si sólo hay un origen de datos disponible, debe agregar un nuevo nodo de origen de datos al diagrama de trabajo.
-
Elija uno de los nodos de origen para la combinación. Abra el panel de recursos y, a continuación, elija Unir para agregar una nueva transformación al diagrama de trabajo.
-
En la pestaña Node properties (Propiedades del nodo), ingrese un nombre para el nodo en el diagrama de trabajo.
-
En la pestaña Node properties (Propiedades del nodo), en el encabezado Node parents (Nodos principales), agregue un nodo principal para que haya dos conjuntos de datos que proporcionen entradas para la combinación. El principal puede ser un nodo de origen de datos o un nodo de transformación.
nota
Una combinación sólo puede tener dos nodos principales.
-
Elija la pestaña Transform (Transformación).
Si aparece un mensaje que indica que hay nombres de clave conflictivos, puede:
-
Seleccionar Resolve it (Resolver) para agregar automáticamente un nodo de transformación ApplyMapping (Aplicar mapeo) en el diagrama de trabajo. El nodo Aplicar mapeo agrega un prefijo a cualquier clave del conjunto de datos que tenga el mismo nombre que una clave del otro conjunto de datos. Por ejemplo, si utiliza el valor predeterminado de
right
, cualquier clave en el conjunto de datos derecho que tenga el mismo nombre que una clave en el conjunto de datos izquierdo cambiará de nombre a(right)key name
. -
Agregue manualmente un nodo de transformación con anterioridad en el diagrama de trabajo para eliminar o cambiar el nombre de las claves en conflicto.
-
-
Elija el tipo de combinación en la lista Join type (Tipo de combinación).
-
Inner join (Combinación interna): devuelve una fila con columnas de ambos conjuntos de datos para cada coincidencia basada en la condición de combinación. Las filas que no satisfacen la condición de combinación no se devuelven.
-
Left join (Combinación izquierda): todas las filas del conjunto de datos izquierdo y solo las filas del conjunto de datos derecho que satisfacen la condición de combinación.
-
Right join (Combinación derecha): todas las filas del conjunto de datos derecho y solo las filas del conjunto de datos izquierdo que satisfacen la condición de combinación.
-
Outer join (Combinación externa): todas las filas de ambos conjuntos de datos.
-
Left semi join (Semicombinación izquierda): todas las filas del conjunto de datos izquierdo que tienen una coincidencia en el conjunto de datos derecho en función de la condición de combinación.
-
Left anti join (Anticombinación izquierda): todas las filas del conjunto de datos izquierdo que no tienen una coincidencia en el conjunto de datos derecho en función de la condición de combinación.
-
-
En la pestaña Transform (Transformación), en el encabezado Join conditions (Condiciones de combinación), elija Add condition (Agregar condición). Elija una clave de propiedad de cada conjunto de datos para comparar. Las claves de propiedad en el lado izquierdo del operador de comparación se conocen como el conjunto de datos izquierdo y las claves de propiedad de la derecha se denominan conjunto de datos derecho.
Para condiciones de combinación más complejas, puede agregar claves coincidentes adicionales al seleccionar Add condition (Agregar condición) más de una vez. Si agrega una condición por accidente, puede elegir el ícono de eliminación (
) para eliminarla.
(Opcional) después de configurar las propiedades del nodo de transformación, puede ver el esquema de datos para sus datos al seleccionar la pestaña Output schema (Esquema de salida) en el panel de detalles del nodo. La primera vez que elija esta pestaña para cualquier nodo de trabajo, se le pedirá que proporcione un rol de IAM para acceder a los datos. Si no ha especificado un rol de IAM en Job details (Detalles del trabajo), se le pedirá que ingrese un rol de IAM aquí.
(Opcional) después de configurar las propiedades del nodo y las propiedades de transformación, puede obtener una previsualización del conjunto de datos modificado si selecciona la opción Data preview (Previsualización de datos) en el panel de detalles del nodo. La primera vez que elija esta pestaña para cualquier nodo de trabajo, se le pedirá que proporcione un rol de IAM para acceder a los datos. Hay un costo asociado con el uso de este recurso y la facturación comienza tan pronto como proporcione un rol de IAM.
Para obtener un ejemplo del esquema de salida de combinación, considere una combinación entre dos conjuntos de datos con las siguientes claves de propiedad:
Left: {id, dept, hire_date, salary, employment_status}
Right: {id, first_name, last_name, hire_date, title}
La combinación está configurada para que coincida en las claves id
y hire_date
mediante el operador de comparación =
.
Debido a que ambos conjuntos de datos contienen claves id
y hire_date
, debe elegir Resolve it (Resolver) para agregar automáticamente el prefijo right
a las claves del conjunto de datos correcto.
Las claves en el esquema de salida serían:
{id, dept, hire_date, salary, employment_status,
(right)id, first_name, last_name, (right)hire_date, title}