Panoramica di Componenti Vantaggi Permissions Accesso a Dataset Enrichment Scrivere istruzioni personalizzate efficaci Due approcci all'arricchimento semantico Domande e risposte sul set di dati Riepilogo

Arricchimento del set di dati

Dataset Enrichment è una funzionalità di Amazon Quick Sight che consente agli autori di set di dati di aggiungere ricchi metadati semantici ai propri set di dati. Fornendo descrizioni, istruzioni personalizzate e metadati strutturati, ti assicuri che sia i consumatori umani che AI-powered gli agenti comprendano cosa rappresenta un set di dati e come utilizzarlo.

Panoramica sull'arricchimento dei set di dati

Dataset Enrichment consente agli autori e ai professionisti degli autori di annotare i set di dati con un contesto semantico sia a livello di set di dati che a livello di colonna. Questi metadati collegano i dati grezzi al contesto aziendale. Serve due tipi di pubblico:

Consumatori di set di dati (altri autori, lettori professionisti): acquisisci un contesto aziendale migliore sul contenuto di ciascun set di dati, sul suo scopo e sui casi d'uso appropriati.
Agenti AI: ricevi informazioni contestuali più complete per generare domande e interpretazioni più accurate quando rispondi alle domande tramite Dataset Q&A.

Componenti di Dataset Enrichment

Dataset-level arricchimento

Importante

Non aggiungere informazioni riservate ai campi Descrizione del set di dati o Istruzioni personalizzate. Queste informazioni sono visibili a tutti i visualizzatori del set di dati.

Descrizione del set di dati: Un riepilogo a livello aziendale di ciò che rappresenta il set di dati, del suo ambito e dell'uso previsto. Questa descrizione è visibile a tutti gli utenti del set di dati nell'interfaccia utente e li aiuta a comprendere rapidamente lo scopo del set di dati. Lunghezza massima: 5.000 caratteri.
Istruzioni personalizzate: Free-form istruzioni di testo utilizzate specificamente dagli agenti di intelligenza artificiale. Queste istruzioni guidano l'IA su come interpretare, interrogare e ragionare sul set di dati. Lunghezza massima: 5.000 caratteri.
Caricamento di file: Puoi caricare un singolo file in formato YAML, JSON o TXT contenente metadati semantici di livello catalogo esportati da strumenti di terze parti (ad esempio, Databricks, dbt o Alation). Ciò consente di inserire centinaia di definizioni di colonne, regole aziendali e calcoli metrici in un unico caricamento, eliminando l'immissione manuale colonna per colonna. Lunghezza massima: 50.000 caratteri.

Column-level arricchimento

cartelle: Organizza le colonne in raggruppamenti logici per facilitare la navigazione e la comprensione.
Descrizione della colonna: Una descrizione leggibile dall'uomo di ciò che rappresenta ogni colonna, dei suoi valori validi e del significato aziendale. Lunghezza massima: 500 caratteri.
Note aggiuntive: Contesto supplementare per ogni colonna, ad esempio considerazioni sulla qualità dei dati, tabelle correlate o modelli di analisi comuni. Lunghezza massima: 2.000 caratteri.

Vantaggi dell'arricchimento dei set di dati

Domande e risposte più accurate AI-powered sui set di dati: un contesto semantico più ricco aiuta gli agenti di intelligenza artificiale a generare query e interpretazioni SQL più precise, portando a risposte significativamente migliori.
Migliore comprensione per i consumatori: le descrizioni e i metadati aiutano tutti gli utenti dell'organizzazione a capire cosa contengono i set di dati e come utilizzarli correttamente.
Ridimensiona i metadati da cataloghi esterni: File Upload consente agli autori di importare metadati completi da strumenti di catalogo di terze parti con un'unica operazione, anziché inserire manualmente le definizioni colonna per colonna.

Autorizzazioni e requisiti

Gli autori e gli autori professionisti con licenze Enterprise possono arricchire qualsiasi set di dati di loro proprietà o gestione.

Accesso a Dataset Enrichment

Per accedere a Dataset Enrichment, completare i seguenti passaggi.

Salva il tuo set di dati nell'esperienza di preparazione dei dati.
Selezionare la scheda Output.
Inserisci la descrizione del set di dati e le istruzioni personalizzate o carica un file di metadati semantici.

Scrivere istruzioni personalizzate efficaci

Le istruzioni personalizzate sono il componente di maggior impatto di Dataset Enrichment. Guidano direttamente gli agenti di intelligenza artificiale su come interpretare e interrogare un set di dati. Di seguito sono riportati alcuni esempi di istruzioni personalizzate efficaci e inefficaci.

Buone istruzioni personalizzate

Esempio 1: set di dati sulle entrate


This dataset contains net revenue after returns and discounts, calculated
on an accrual basis. Revenue is recognized at the point of sale for retail
transactions and upon delivery confirmation for B2B orders. All figures are
in USD. The 'revenue' column specifically excludes taxes, shipping fees,
and promotional credits. For year-over-year comparisons, use the
'fiscal_year' field rather than 'calendar_year' as our fiscal year runs
April–March.

Perché è efficace:

Chiarisce i termini ambigui (entrate nette e lorde)
Definisce la metodologia di calcolo
Speciifica la valuta e le esclusioni
Fornisce indicazioni su come utilizzare correttamente campi specifici

Esempio 2: set di dati del cliente


Customer status definitions: 'Active' = purchased within last 12 months;
'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months
inactive. The 'customer_segment' field uses RFM analysis (Recency,
Frequency, Monetary). 'Lifetime_value' is calculated as total historical
spend, not predictive LTV. When analyzing customer counts, always filter
out 'is_test_account = true' to exclude internal test data.

Perché è efficace:

Definisce la logica e le soglie aziendali
Spiega acronimi e metodologie
Avverte in merito a considerazioni sulla qualità dei dati
Guida il corretto filtraggio per un'analisi accurata

Istruzioni personalizzate inefficaci

Esempio: set di dati dei clienti


Contains customer information including names, addresses, purchase history,
and other details. Use this for customer analysis.

Perché è inefficace:

Descrive ciò che è già evidente dai nomi delle colonne
Non fornisce alcun contesto o definizione aziendale
Non offre alcuna guida sulla qualità dei dati, sui calcoli o sul corretto utilizzo
Non aiuta l'IA a distinguere tra concetti simili

Principi chiave per scrivere buone istruzioni personalizzate

Chiarisci le ambiguità: definisci i termini che possono avere più interpretazioni.
Spiega la logica aziendale: documenta i calcoli, le soglie e le categorizzazioni.
Fornisci un contesto: includi unità, periodi di tempo, valute e ambito.
Guida all'utilizzo: spiega quali campi utilizzare per analisi specifiche.
Avvisa dei casi limite: annota i problemi di qualità dei dati, i record dei test o i casi speciali.
Sii specifico: usa esempi concreti e un linguaggio preciso.

Due approcci all'arricchimento semantico

Annotazione manuale UI-based

Gli autori dei set di dati aggiungono direttamente descrizioni di set di dati e colonne e istruzioni personalizzate tramite l'interfaccia Quick Sight. Quick Sight mostra le descrizioni in modo ben visibile nell'interfaccia utente, aiutando tutti gli utenti a comprendere il contenuto dei set di dati, le definizioni delle colonne e i casi d'uso appropriati.

Caricamento di file da cataloghi esterni

Gli autori dei set di dati possono esportare metadati semantici da cataloghi esterni e allegare un file per set di dati in formato YAML, JSON o TXT tramite l'API o l'interfaccia utente. Sebbene queste informazioni vengano utilizzate dai modelli di intelligenza artificiale anziché visualizzate nell'interfaccia utente, consentono metadati di livello di catalogo su larga scala.

Il livello di consumo: Dataset Q&A

Dataset Q&A è il livello di consumo che utilizza i metadati di Dataset Enrichment. Consente agli utenti di porre domande aperte in linguaggio naturale direttamente sui set di dati a cui hanno accesso, senza bisogno di dashboard predefinite o argomenti configurati manualmente.

L'agente AI utilizza il contesto arricchito nei seguenti modi:

Rilevamento delle risorse: l'agente utilizza le descrizioni dei set di dati e i metadati semantici per identificare il set di dati giusto per la domanda dell'utente.
Text-to-SQL generazione: istruzioni personalizzate, descrizioni delle colonne e metadati caricati guidano l'IA nella generazione di query SQL più accurate.
Risposte governate: tutte le risposte rispettano le Row-Level regole di sicurezza (RLS) e Column-Level sicurezza (CLS).

Senza arricchimento, l'agente AI ha solo nomi di colonne e tipi di dati con cui lavorare, che sono spesso ambigui. Con l'arricchimento, l'agente riceve il contesto aziendale completo necessario per:

Disambiguare campi e concetti simili
Applica calcoli e filtri corretti
Comprendi le soglie e le categorizzazioni specifiche dell'azienda
Escludi i dati di test e gestisci i casi limite in modo appropriato

Dopo aver aggiunto un contesto semantico a un set di dati, gli utenti possono fare riferimento al set di dati nelle domande e risposte e interrogarlo tramite chat. L'agente AI utilizza i metadati aggiunti per fornire risposte più accurate.

Riepilogo

Dataset Enrichment aggiunge metadati semantici ai set di dati per l'analisi. AI-powered Investendo qualche minuto nell'aggiunta di descrizioni, istruzioni personalizzate e file di metadati, gli autori dei set di dati possono migliorare l'accuratezza delle domande e AI-powered risposte, rendendo al contempo i set di dati più comprensibili e accessibili a tutti i consumatori dell'organizzazione.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Domande frequenti

Descrizione dei dati