Analisi della qualità e della quantità di dati nei set di dati - Amazon Personalize

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Analisi della qualità e della quantità di dati nei set di dati

Dopo aver importato i dati in un set di dati Item Interactions, Users o Items, puoi utilizzare la console Amazon Personalize per analizzare i dati. Puoi conoscere i tuoi dati tramite approfondimenti sui dati e statistiche su colonne e righe. E puoi scoprire quali azioni puoi intraprendere per migliorare i tuoi dati. Queste azioni possono aiutarti a soddisfare i requisiti di risorse di Amazon Personalize, come i requisiti di formazione dei modelli, oppure possono portare a consigli migliori.

Importante

Non puoi utilizzare la console Amazon Personalize per analizzare i dati in un set di dati di interazioni Action o Actions.

Dopo aver apportato le modifiche consigliate, puoi importare nuovamente i dati e vedere se hai risolto eventuali problemi o migliorato le statistiche dei set di dati. Per informazioni sull'aggiornamento dei dati, consultaImportazione di più dati di addestramento nei set di dati.

Se non vedi alcuna analisi, i tuoi dati sono in linea con le aspettative relative ai dati di Amazon Personalize. Puoi analizzare i dati in un gruppo di set di dati Domain o in un gruppo di set di dati personalizzato.

Quando genera approfondimenti e calcola statistiche, Amazon Personalize considera tutti i dati in blocco e in streaming provenienti da utenti non anonimi. Gli eventi di utenti anonimi non vengono presi in considerazione finché non li associ a un. userId Per ulteriori informazioni, consulta Registrazione di eventi per utenti anonimi.

Autorizzazioni necessarie per l'analisi dei dati

Se concedi agli utenti l'accesso completo ad Amazon Personalize, non è richiesta alcuna modifica delle autorizzazioni. Se concedi ai tuoi utenti solo le autorizzazioni necessarie per eseguire un'attività in Amazon Personalize, la AWS Identity and Access Management tua policy (IAM) deve includere le seguenti azioni aggiuntive di analisi dei dati.

  • personalizza: CreateDataInsightsJob

  • personalizzare: ListDataInsightsJobs

  • personalizzare: DescribeDataInsightsJob

  • personalizzare: GetDataInsights

Informazioni approfondite sui dati

Di seguito sono elencate le possibili informazioni sui dati che puoi generare in Amazon Personalize.

Informazione dettagliata Azione Set di dati correlati
Il set di dati Interactions contiene solo X interazioni. L'addestramento dei modelli richiede un minimo di 1.000 interazioni. Ne consigliamo almeno 50.000. Importa Y record di interazioni uniche aggiuntivi prima di addestrare un modello. Interazioni tra oggetti
Il set di dati Interactions ha solo X utenti unici con due o più interazioni. La formazione dei modelli richiede almeno 25 utenti di questo tipo. Ne consigliamo almeno 1.000. Importa almeno 2 record di interazioni ciascuno per Y utenti aggiuntivi. Interazioni tra elementi
L'X% degli elementi nel set di dati Items non presenta interazioni nel set di dati Interazioni, pertanto potrebbero non essere consigliate.

Assicurati di importare tutti i dati sulle interazioni e di verificare la presenza di ID non corrispondenti tra i set di dati degli elementi e delle interazioni. Controlla le statistiche del set di dati riportate di seguito per i set di dati relativi agli elementi e alle interazioni per assicurarti di aver importato il numero di righe previsto. Se il tuo caso d'uso o la tua ricetta utilizza l'esplorazione, modifica la configurazione di esplorazione per consigliare più elementi senza dati sulle interazioni.

Interazioni tra elementi e oggetti
L'X% degli utenti nel set di dati Users non ha interazioni nel set di dati Interazioni. Questi utenti riceveranno consigli sugli articoli più diffusi.

Assicurati di importare tutti i dati sulle interazioni e verifica la presenza di ID non corrispondenti tra gli utenti e i set di dati delle interazioni. Controlla le statistiche sui set di dati riportate di seguito per i set di dati relativi agli utenti e alle interazioni per assicurarti di aver importato il numero di righe previsto. Importa eventuali interazioni aggiuntive in modo che più utenti dispongano dei dati sulle interazioni.

Interazioni tra elementi e utenti
Il <Users or Items or Interactions>set di dati contiene X% di righe con un valore mancante. Ciò può influire negativamente sui consigli. Consigliamo che tutti i campi obbligatori e facoltativi siano completi almeno al 70%.

Importa record completi aggiuntivi o importa nuovamente i dati senza righe incomplete o importa nuovamente i dati con i valori mancanti sostituiti con dati sostitutivi, come la media per le colonne numeriche o il valore più comune per le colonne categoriche.

Qualsiasi
Le seguenti colonne del <datasetType>set di dati sono complete per meno del 70%: <ColumnName,... >. ColumnName Se questi dati vengono inclusi nella formazione, possono influire negativamente sulle raccomandazioni. È consigliabile che le colonne che consentono valori nulli siano complete almeno al 70%.

Importa record completi aggiuntivi o importa nuovamente i dati senza righe incomplete o importa nuovamente i dati con i valori mancanti sostituiti con dati sostitutivi, come la media per le colonne numeriche o il valore più comune per le colonne categoriche.

Qualsiasi
Le seguenti colonne (numeriche) presentano valori anomali: <,... >. ColumnName ColumnName Gli outlier non sono sempre un problema, ma a volte influiscono negativamente sulle raccomandazioni.

Utilizzando la colonna Statistiche riportata di seguito, verifica se i valori minimo e massimo di queste colonne corrispondono alle tue aspettative. Se questi valori sono imprevisti, controlla che i dati in queste colonne non contengano imprecisioni e controlla la raccolta e l'elaborazione dei dati per individuare eventuali problemi.

Qualsiasi
Le seguenti colonne contengono più di 1000 categorie possibili: <ColumnName, ColumnName... >. Se questi dati vengono inclusi nella formazione, possono influire negativamente sui consigli: <ColumnName, ColumnName... >.

Controlla i dati categorici per individuare eventuali problemi, ad esempio categorie duplicate causate da variazioni ortografiche. Risolvi eventuali imprecisioni e importa nuovamente i dati.

Qualsiasi
Le seguenti colonne di metadati testuali sono complete per meno dell'85% e non verranno utilizzate nell'addestramento dei modelli: <,... >. ColumnName ColumnName

Importa righe aggiuntive o importa nuovamente le righe con i dati di testo per queste colonne.

Item
Il set di dati Interactions contiene più di 10 tipi di eventi unici, il che impedirà l'addestramento del modello.

Controlla la colonna relativa al tipo di evento per eventuali imprecisioni, ad esempio tipi di eventi duplicati causati da variazioni ortografiche. Rimuovi i tipi di eventi non necessari e importa nuovamente i dati.

Interazioni tra gli elementi
Il set di dati Interactions ha lo stesso timestamp per tutti i record. Se utilizzi una ricetta USER_SEGMENTATION e tutti i record hanno lo stesso timestamp, l'addestramento del modello avrà esito negativo.

Controlla i tuoi dati per eventuali problemi relativi ai timestamp e sostituisci i timestamp duplicati con timestamp unici.

Interazioni tra gli articoli

Visualizzazione di approfondimenti e statistiche sui set di dati

Per visualizzare approfondimenti e statistiche sui tuoi dati nei set di dati Amazon Personalize, accedi ai set di dati nella console Amazon Personalize e scegli Esegui analisi.

Per visualizzare approfondimenti e statistiche
  1. Apri la console Amazon Personalize all'indirizzo https://console.aws.amazon.com/personalize/home e accedi al tuo account.

  2. Nella pagina dei gruppi di set di dati, scegli il tuo gruppo di set di dati.

  3. Dal riquadro di navigazione, in Datasets, scegli Analisi dei dati.

  4. In alto a destra, scegli Esegui analisi. Amazon Personalize inizia ad analizzare i tuoi dati. Questa operazione può richiedere fino a 15 minuti. In caso di successo, i risultati vengono visualizzati in questa pagina.

  5. In Insights, utilizza quanto segue per filtrare gli approfondimenti visualizzati.

    • Per trovare approfondimenti che includono un linguaggio specifico, inserisci i tuoi criteri in Trova approfondimenti. Man mano che inserisci il testo, l'elenco si aggiorna per includere solo gli approfondimenti la cui stringa esatta è contenuta nell'analisi o nell'azione consigliata.

    • Per filtrare gli approfondimenti in base al tipo di set di dati, modifica Tutti i set di dati nel tipo di set di dati specifico. L'elenco viene aggiornato per includere solo le informazioni relative a questo set di dati.

  6. Per visualizzare le statistiche relative a un set di dati, procedi come segue.

    • Per visualizzare dettagli e statistiche generali su un set di dati, ad esempio il numero di righe, gli utenti unici e gli elementi unici in un set di dati Interazioni, espandi la sezione relativa al set di dati.

    • Per visualizzare le statistiche dettagliate per una colonna, espandi la sezione del set di dati, scegli Statistiche a livello di colonna e scegli il pulsante di opzione per la colonna.

  7. Correggi eventuali problemi relativi ai dati, importali nuovamente ed esegui un'altra analisi per verificarli. Per ulteriori informazioni sulla nuova importazione dei dati, consultaImportazione di più dati di addestramento nei set di dati.