Algoritmo di allocazione di Dirichlet latente () LDA - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Algoritmo di allocazione di Dirichlet latente () LDA

L'algoritmo Amazon SageMaker AI Latent Dirichlet Allocation (LDA) è un algoritmo di apprendimento non supervisionato che tenta di descrivere un insieme di osservazioni come una combinazione di categorie distinte. LDAè più comunemente usato per scoprire un numero specificato dall'utente di argomenti condivisi da documenti all'interno di un corpus di testo. Qui ogni osservazione è un documento, le caratteristiche sono la presenza (o conteggio occorrenza) di ciascuna parola e le categorie sono gli argomenti. Poiché il metodo non è supervisionato, gli argomenti non sono specificati in anticipo e il loro allineamento con il modo in cui un umano può naturalmente classificare documenti non è garantito. Gli argomenti vengono appresi sotto forma di una distribuzione di probabilità sulle parole incontrate in ogni documento. Ogni documento, a sua volta, viene descritto come una combinazione di argomenti.

Il contenuto esatto di due documenti con combinazioni di argomenti simili non sarà lo stesso. Tuttavia, in generale, puoi supporre che questi documenti utilizzino più di frequente un sottoinsieme di parole condiviso, rispetto a un documento proveniente da un gruppo diverso di argomenti. Ciò consente di LDA scoprire questi gruppi di parole e utilizzarli per formare argomenti. Come esempio estremamente semplice, dato un insieme di documenti in cui le uniche parole che compaiono al loro interno sono: eat, sleep, play, meow e bark, LDA potrebbero nascere argomenti come i seguenti:

Argomento

mangiare dormire giocare miagolare abbaiare
Argomento 1 0,1 0,3 0,2 0,4 0,0
Argomento 2 0,2 0,1 0,4 0,0 0,3

Puoi dedurre che i documenti che hanno maggiori probabilità di appartenere all'Argomento 1 riguardano i gatti (che possono miagolare e dormire) e che i documenti che rientrano nell'Argomento 2 riguardano i cani (che preferiscono giocare e abbaiare). Questi argomenti possono essere trovati anche se le parole cane e gatto non compaiono in alcun testo.

Scelta tra Latent Dirichlet Allocation (LDA) e Neural Topic Model () NTM

I modelli tematici sono comunemente usati per produrre argomenti a partire da corpus che (1) racchiudono in modo coerente il significato semantico e (2) descrivono bene i documenti. Pertanto, i modelli tematici mirano a ridurre al minimo le perplessità e massimizzare la coerenza degli argomenti.

Perplexity è una metrica intrinseca di valutazione della modellazione del linguaggio che misura l'inverso della media geometrica di verosimiglianza per parola nei dati di test. Un punteggio di perplessità inferiore indica migliori prestazioni di generalizzazione. La ricerca ha dimostrato che la probabilità calcolata per parola spesso non è in linea con il giudizio umano e può essere del tutto non correlata, pertanto è stata introdotta la coerenza tra gli argomenti. Ogni argomento dedotto dal modello è composto da parole e la coerenza degli argomenti viene calcolata in base alle prime N parole per quel particolare argomento del modello. Viene spesso definita come la media o la mediana dei punteggi di somiglianza tra parole a coppie delle parole di quell'argomento, ad esempio Pointwise Mutual Information (). PMI Un modello promettente genera argomenti coerenti o argomenti con punteggi di coerenza tematici elevati.

Sebbene l'obiettivo sia quello di elaborare un modello tematico che riduca al minimo le perplessità e massimizzi la coerenza degli argomenti, spesso c'è un compromesso con entrambi e. LDA NTM Una recente ricerca di Amazon, Dinget et al., 2018 ha dimostrato che NTM è promettente per raggiungere un'elevata coerenza tematica, ma LDA addestrata con il campionamento di Gibbs collassato consente di ottenere una maggiore perplessità. Esiste un compromesso tra perplessità e coerenza tematica. Dal punto di vista della praticità per quanto riguarda l'hardware e la potenza di calcolo, l' SageMaker NTMhardware è più flessibile e può scalare meglio perché NTM può essere eseguito LDA e parallelizzato su più istanze, mentre supporta solo l'addestramento a singola CPU istanza. GPU GPU LDA CPU

LDAInterfaccia di input/output per l'algoritmo

LDAprevede che i dati vengano forniti sul canale ferroviario e, facoltativamente, supporta un canale di test, che viene valutato dal modello finale. LDAsupporta sia i formati recordIO-wrapped-protobuf (densi e sparsi) che quelli di file. CSV InfattiCSV, i dati devono essere densi e avere una dimensione uguale al numero di record * alla dimensione del vocabolario. LDApuò essere addestrato in modalità File o Pipe quando si utilizza protobuf con RecordIO, ma solo in modalità File per il formato. CSV

Per inferenza, sono supportati i tipi di contenuti text/csv, application/json e application/x-recordio-protobuf. I dati sparsi possono anche essere passati per e. application/json application/x-recordio-protobuf LDArestituzioni application/json o application/x-recordio-protobuf previsioni di inferenza, che includono il topic_mixture vettore per ogni osservazione.

Consulta Notebook di esempio LDA per maggiori dettagli sui formati dei file di addestramento e inferenza.

EC2Raccomandazione di istanza per l'algoritmo LDA

LDAattualmente supporta solo la CPU formazione a istanza singola. CPUle istanze sono consigliate per l'hosting/inferenza.

Notebook di esempio LDA

Per un taccuino di esempio che mostra come addestrare l'algoritmo SageMaker AI Latent Dirichlet Allocation su un set di dati e poi come implementare il modello addestrato per eseguire inferenze sulle combinazioni di argomenti nei documenti di input, vedi An Introduction to AI. SageMaker LDA Per istruzioni su come creare e accedere alle istanze di notebook Jupyter da utilizzare per eseguire l'esempio in AI, consulta. SageMaker Istanze Amazon SageMaker Notebook Dopo aver creato un'istanza di notebook e averla aperta, seleziona la scheda Esempi di SageMaker AI per visualizzare un elenco di tutti gli esempi di IA. SageMaker L'argomento relativo alla modellazione di notebook che utilizzano NTM gli algoritmi si trova nella sezione Introduzione agli algoritmi di Amazon. Per aprire un notebook, fai clic sulla relativa scheda Use (Utilizza) e seleziona Create copy (Crea copia).