Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Arricchimento del set di dati
Dataset Enrichment è una funzionalità di Amazon Quick Sight che consente agli autori di set di dati di aggiungere ricchi metadati semantici ai propri set di dati. Fornendo descrizioni, istruzioni personalizzate e metadati strutturati, ti assicuri che sia i consumatori umani che AI-powered gli agenti comprendano cosa rappresenta un set di dati e come utilizzarlo.
Panoramica sull'arricchimento dei set di dati
Dataset Enrichment consente agli autori e ai professionisti degli autori di annotare i set di dati con un contesto semantico sia a livello di set di dati che a livello di colonna. Questi metadati collegano i dati grezzi al contesto aziendale. Serve due tipi di pubblico:
-
Consumatori di set di dati (altri autori, lettori professionisti): acquisisci un contesto aziendale migliore sul contenuto di ciascun set di dati, sul suo scopo e sui casi d'uso appropriati.
-
Agenti AI: ricevi informazioni contestuali più complete per generare domande e interpretazioni più accurate quando rispondi alle domande tramite Dataset Q&A.
Componenti di Dataset Enrichment
Dataset-level arricchimento
Importante
Non aggiungere informazioni riservate ai campi Descrizione del set di dati o Istruzioni personalizzate. Queste informazioni sono visibili a tutti i visualizzatori del set di dati.
- Descrizione del set di dati
-
Un riepilogo a livello aziendale di ciò che rappresenta il set di dati, del suo ambito e dell'uso previsto. Questa descrizione è visibile a tutti gli utenti del set di dati nell'interfaccia utente e li aiuta a comprendere rapidamente lo scopo del set di dati. Lunghezza massima: 5.000 caratteri.
- Istruzioni personalizzate
-
Free-form istruzioni di testo utilizzate specificamente dagli agenti di intelligenza artificiale. Queste istruzioni guidano l'IA su come interpretare, interrogare e ragionare sul set di dati. Lunghezza massima: 5.000 caratteri.
- Caricamento di file
-
Puoi caricare un singolo file in formato YAML, JSON o TXT contenente metadati semantici di livello catalogo esportati da strumenti di terze parti (ad esempio, Databricks, dbt o Alation). Ciò consente di inserire centinaia di definizioni di colonne, regole aziendali e calcoli metrici in un unico caricamento, eliminando l'immissione manuale colonna per colonna. Lunghezza massima: 50.000 caratteri.
Column-level arricchimento
- cartelle
-
Organizza le colonne in raggruppamenti logici per facilitare la navigazione e la comprensione.
- Descrizione della colonna
-
Una descrizione leggibile dall'uomo di ciò che rappresenta ogni colonna, dei suoi valori validi e del significato aziendale. Lunghezza massima: 500 caratteri.
- Note aggiuntive
-
Contesto supplementare per ogni colonna, ad esempio considerazioni sulla qualità dei dati, tabelle correlate o modelli di analisi comuni. Lunghezza massima: 2.000 caratteri.
Vantaggi dell'arricchimento dei set di dati
-
Domande e risposte più accurate AI-powered sui set di dati: un contesto semantico più ricco aiuta gli agenti di intelligenza artificiale a generare query e interpretazioni SQL più precise, portando a risposte significativamente migliori.
-
Migliore comprensione per i consumatori: le descrizioni e i metadati aiutano tutti gli utenti dell'organizzazione a capire cosa contengono i set di dati e come utilizzarli correttamente.
-
Ridimensiona i metadati da cataloghi esterni: File Upload consente agli autori di importare metadati completi da strumenti di catalogo di terze parti con un'unica operazione, anziché inserire manualmente le definizioni colonna per colonna.
Autorizzazioni e requisiti
Gli autori e gli autori professionisti con licenze Enterprise possono arricchire qualsiasi set di dati di loro proprietà o gestione.
Accesso a Dataset Enrichment
Per accedere a Dataset Enrichment, completare i seguenti passaggi.
-
Salva il tuo set di dati nell'esperienza di preparazione dei dati.
-
Selezionare la scheda Output.
-
Inserisci la descrizione del set di dati e le istruzioni personalizzate o carica un file di metadati semantici.
Scrivere istruzioni personalizzate efficaci
Le istruzioni personalizzate sono il componente di maggior impatto di Dataset Enrichment. Guidano direttamente gli agenti di intelligenza artificiale su come interpretare e interrogare un set di dati. Di seguito sono riportati alcuni esempi di istruzioni personalizzate efficaci e inefficaci.
Buone istruzioni personalizzate
Esempio 1: set di dati sulle entrate
This dataset contains net revenue after returns and discounts, calculated on an accrual basis. Revenue is recognized at the point of sale for retail transactions and upon delivery confirmation for B2B orders. All figures are in USD. The 'revenue' column specifically excludes taxes, shipping fees, and promotional credits. For year-over-year comparisons, use the 'fiscal_year' field rather than 'calendar_year' as our fiscal year runs April–March.
Perché è efficace:
-
Chiarisce i termini ambigui (entrate nette e lorde)
-
Definisce la metodologia di calcolo
-
Speciifica la valuta e le esclusioni
-
Fornisce indicazioni su come utilizzare correttamente campi specifici
Esempio 2: set di dati del cliente
Customer status definitions: 'Active' = purchased within last 12 months; 'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months inactive. The 'customer_segment' field uses RFM analysis (Recency, Frequency, Monetary). 'Lifetime_value' is calculated as total historical spend, not predictive LTV. When analyzing customer counts, always filter out 'is_test_account = true' to exclude internal test data.
Perché è efficace:
-
Definisce la logica e le soglie aziendali
-
Spiega acronimi e metodologie
-
Avverte in merito a considerazioni sulla qualità dei dati
-
Guida il corretto filtraggio per un'analisi accurata
Istruzioni personalizzate inefficaci
Esempio: set di dati dei clienti
Contains customer information including names, addresses, purchase history, and other details. Use this for customer analysis.
Perché è inefficace:
-
Descrive ciò che è già evidente dai nomi delle colonne
-
Non fornisce alcun contesto o definizione aziendale
-
Non offre alcuna guida sulla qualità dei dati, sui calcoli o sul corretto utilizzo
-
Non aiuta l'IA a distinguere tra concetti simili
Principi chiave per scrivere buone istruzioni personalizzate
-
Chiarisci le ambiguità: definisci i termini che possono avere più interpretazioni.
-
Spiega la logica aziendale: documenta i calcoli, le soglie e le categorizzazioni.
-
Fornisci un contesto: includi unità, periodi di tempo, valute e ambito.
-
Guida all'utilizzo: spiega quali campi utilizzare per analisi specifiche.
-
Avvisa dei casi limite: annota i problemi di qualità dei dati, i record dei test o i casi speciali.
-
Sii specifico: usa esempi concreti e un linguaggio preciso.
Due approcci all'arricchimento semantico
Annotazione manuale UI-based
Gli autori dei set di dati aggiungono direttamente descrizioni di set di dati e colonne e istruzioni personalizzate tramite l'interfaccia Quick Sight. Quick Sight mostra le descrizioni in modo ben visibile nell'interfaccia utente, aiutando tutti gli utenti a comprendere il contenuto dei set di dati, le definizioni delle colonne e i casi d'uso appropriati.
Caricamento di file da cataloghi esterni
Gli autori dei set di dati possono esportare metadati semantici da cataloghi esterni e allegare un file per set di dati in formato YAML, JSON o TXT tramite l'API o l'interfaccia utente. Sebbene queste informazioni vengano utilizzate dai modelli di intelligenza artificiale anziché visualizzate nell'interfaccia utente, consentono metadati di livello di catalogo su larga scala.
Il livello di consumo: Dataset Q&A
Dataset Q&A è il livello di consumo che utilizza i metadati di Dataset Enrichment. Consente agli utenti di porre domande aperte in linguaggio naturale direttamente sui set di dati a cui hanno accesso, senza bisogno di dashboard predefinite o argomenti configurati manualmente.
L'agente AI utilizza il contesto arricchito nei seguenti modi:
-
Rilevamento delle risorse: l'agente utilizza le descrizioni dei set di dati e i metadati semantici per identificare il set di dati giusto per la domanda dell'utente.
-
Text-to-SQL generazione: istruzioni personalizzate, descrizioni delle colonne e metadati caricati guidano l'IA nella generazione di query SQL più accurate.
-
Risposte governate: tutte le risposte rispettano le Row-Level regole di sicurezza (RLS) e Column-Level sicurezza (CLS).
Senza arricchimento, l'agente AI ha solo nomi di colonne e tipi di dati con cui lavorare, che sono spesso ambigui. Con l'arricchimento, l'agente riceve il contesto aziendale completo necessario per:
-
Disambiguare campi e concetti simili
-
Applica calcoli e filtri corretti
-
Comprendi le soglie e le categorizzazioni specifiche dell'azienda
-
Escludi i dati di test e gestisci i casi limite in modo appropriato
Dopo aver aggiunto un contesto semantico a un set di dati, gli utenti possono fare riferimento al set di dati nelle domande e risposte e interrogarlo tramite chat. L'agente AI utilizza i metadati aggiunti per fornire risposte più accurate.
Riepilogo
Dataset Enrichment aggiunge metadati semantici ai set di dati per l'analisi. AI-powered Investendo qualche minuto nell'aggiunta di descrizioni, istruzioni personalizzate e file di metadati, gli autori dei set di dati possono migliorare l'accuratezza delle domande e AI-powered risposte, rendendo al contempo i set di dati più comprensibili e accessibili a tutti i consumatori dell'organizzazione.