Trouvez des mots clés dans des tableaux à l'aide de `regexp_like`

Mode de mise au point

Trouvez des mots clés dans des tableaux à l'aide de regexp_like - Amazon Athena

Les exemples suivants illustrent comment explorer un jeu de données à la recherche d'un mot-clé dans un élément à l'intérieur d'un tableau, à l'aide de la fonction regexp_like. Il prend comme entrée le modèle d'une expression régulière à évaluer, ou une liste de termes séparés par une barre (|), évalue le modèle, et détermine si la chaîne spécifiée le contient.

Le modèle d'expression régulière doit être contenu dans la chaîne, mais n'a pas besoin de lui correspondre. Pour faire correspondre l'ensemble de la chaîne, placez le modèle entre les symboles ^ et $, par exemple '^pattern$'.

Considérons une matrice des sites contenant leur nom d'hôte et un élément flaggedActivity. Cet élément comprend un ARRAY, contenant plusieurs éléments MAP, chacun offrant différents mots-clés populaires et leur nombre de popularité. Supposons que vous vouliez trouver un mot-clé particulier à l'intérieur d'une MAP de ce tableau.

Pour chercher des sites dans cet ensemble de données, avec un mot-clé particulier, nous utilisons regexp_like au lieu de l'opérateur SQL similaire LIKE, car la recherche avec plusieurs mots-clés est plus efficace avec regexp_like.

Exemple 1 : à l'aide de `regexp_like`

La requête de cet exemple utilise la fonction regexp_like pour rechercher des termes 'politics|bigdata', détectés dans les valeurs au sein des tableaux :


WITH dataset AS (
  SELECT ARRAY[
    CAST(
      ROW('aws.amazon.com', ROW(ARRAY[
          MAP(ARRAY['term', 'count'], ARRAY['bigdata', '10']),
          MAP(ARRAY['term', 'count'], ARRAY['serverless', '50']),
          MAP(ARRAY['term', 'count'], ARRAY['analytics', '82']),
          MAP(ARRAY['term', 'count'], ARRAY['iot', '74'])
      ])
      ) AS ROW(hostname VARCHAR, flaggedActivity ROW(flags ARRAY(MAP(VARCHAR, VARCHAR)) ))
   ),
   CAST(
     ROW('news.cnn.com', ROW(ARRAY[
       MAP(ARRAY['term', 'count'], ARRAY['politics', '241']),
       MAP(ARRAY['term', 'count'], ARRAY['technology', '211']),
       MAP(ARRAY['term', 'count'], ARRAY['serverless', '25']),
       MAP(ARRAY['term', 'count'], ARRAY['iot', '170'])
     ])
     ) AS ROW(hostname VARCHAR, flaggedActivity ROW(flags ARRAY(MAP(VARCHAR, VARCHAR)) ))
   ),
   CAST(
     ROW('netflix.com', ROW(ARRAY[
       MAP(ARRAY['term', 'count'], ARRAY['cartoons', '1020']),
       MAP(ARRAY['term', 'count'], ARRAY['house of cards', '112042']),
       MAP(ARRAY['term', 'count'], ARRAY['orange is the new black', '342']),
       MAP(ARRAY['term', 'count'], ARRAY['iot', '4'])
     ])
     ) AS ROW(hostname VARCHAR, flaggedActivity ROW(flags ARRAY(MAP(VARCHAR, VARCHAR)) ))
   )
 ] AS items
),
sites AS (
  SELECT sites.hostname, sites.flaggedactivity
  FROM dataset, UNNEST(items) t(sites)
)
SELECT hostname
FROM sites, UNNEST(sites.flaggedActivity.flags) t(flags)
WHERE regexp_like(flags['term'], 'politics|bigdata')
GROUP BY (hostname)

Cette requête renvoie deux sites :


+----------------+
| hostname       |
+----------------+
| aws.amazon.com |
+----------------+
| news.cnn.com   |
+----------------+

Exemple 2 : à l'aide de `regexp_like`

La requête de l'exemple suivant ajoute le total des scores de popularité pour les sites correspondant à vos critères de recherche avec la fonction regexp_like, puis les classe par ordre décroissant.


WITH dataset AS (
  SELECT ARRAY[
    CAST(
      ROW('aws.amazon.com', ROW(ARRAY[
          MAP(ARRAY['term', 'count'], ARRAY['bigdata', '10']),
          MAP(ARRAY['term', 'count'], ARRAY['serverless', '50']),
          MAP(ARRAY['term', 'count'], ARRAY['analytics', '82']),
          MAP(ARRAY['term', 'count'], ARRAY['iot', '74'])
      ])
      ) AS ROW(hostname VARCHAR, flaggedActivity ROW(flags ARRAY(MAP(VARCHAR, VARCHAR)) ))
    ),
    CAST(
      ROW('news.cnn.com', ROW(ARRAY[
        MAP(ARRAY['term', 'count'], ARRAY['politics', '241']),
        MAP(ARRAY['term', 'count'], ARRAY['technology', '211']),
        MAP(ARRAY['term', 'count'], ARRAY['serverless', '25']),
        MAP(ARRAY['term', 'count'], ARRAY['iot', '170'])
      ])
      ) AS ROW(hostname VARCHAR, flaggedActivity ROW(flags ARRAY(MAP(VARCHAR, VARCHAR)) ))
    ),
    CAST(
      ROW('netflix.com', ROW(ARRAY[
        MAP(ARRAY['term', 'count'], ARRAY['cartoons', '1020']),
        MAP(ARRAY['term', 'count'], ARRAY['house of cards', '112042']),
        MAP(ARRAY['term', 'count'], ARRAY['orange is the new black', '342']),
        MAP(ARRAY['term', 'count'], ARRAY['iot', '4'])
      ])
      ) AS ROW(hostname VARCHAR, flaggedActivity ROW(flags ARRAY(MAP(VARCHAR, VARCHAR)) ))
    )
  ] AS items
),
sites AS (
  SELECT sites.hostname, sites.flaggedactivity
  FROM dataset, UNNEST(items) t(sites)
)
SELECT hostname, array_agg(flags['term']) AS terms, SUM(CAST(flags['count'] AS INTEGER)) AS total
FROM sites, UNNEST(sites.flaggedActivity.flags) t(flags)
WHERE regexp_like(flags['term'], 'politics|bigdata')
GROUP BY (hostname)
ORDER BY total DESC

Cette requête renvoie deux sites :


+------------------------------------+
| hostname       | terms    | total  |
+----------------+-------------------+
| news.cnn.com   | politics |  241   |
+----------------+-------------------+
| aws.amazon.com | bigdata |  10    |
+----------------+-------------------+

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Filtrez les tableaux à l'aide de UNNEST

Interrogez des données géospatiales

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Trouvez des mots clés dans des tableaux à l'aide de `regexp_like`

Exemple 1 : à l'aide de `regexp_like`

Exemple 2 : à l'aide de `regexp_like`

Cette page vous a-t-elle été utile ?

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?

Sélectionner vos préférences de cookies

Trouvez des mots clés dans des tableaux à l'aide de regexp_like

Exemple 1 : à l'aide de regexp_like

Exemple 2 : à l'aide de regexp_like

Cette page vous a-t-elle été utile ?

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?

Trouvez des mots clés dans des tableaux à l'aide de `regexp_like`

Exemple 1 : à l'aide de `regexp_like`

Exemple 2 : à l'aide de `regexp_like`