Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Algoritmo di allocazione di Dirichlet latente () LDA
L'algoritmo Amazon SageMaker AI Latent Dirichlet Allocation (LDA) è un algoritmo di apprendimento non supervisionato che tenta di descrivere un insieme di osservazioni come una combinazione di categorie distinte. LDAè più comunemente usato per scoprire un numero specificato dall'utente di argomenti condivisi da documenti all'interno di un corpus di testo. Qui ogni osservazione è un documento, le caratteristiche sono la presenza (o conteggio occorrenza) di ciascuna parola e le categorie sono gli argomenti. Poiché il metodo non è supervisionato, gli argomenti non sono specificati in anticipo e il loro allineamento con il modo in cui un umano può naturalmente classificare documenti non è garantito. Gli argomenti vengono appresi sotto forma di una distribuzione di probabilità sulle parole incontrate in ogni documento. Ogni documento, a sua volta, viene descritto come una combinazione di argomenti.
Il contenuto esatto di due documenti con combinazioni di argomenti simili non sarà lo stesso. Tuttavia, in generale, puoi supporre che questi documenti utilizzino più di frequente un sottoinsieme di parole condiviso, rispetto a un documento proveniente da un gruppo diverso di argomenti. Ciò consente di LDA scoprire questi gruppi di parole e utilizzarli per formare argomenti. Come esempio estremamente semplice, dato un insieme di documenti in cui le uniche parole che compaiono al loro interno sono: eat, sleep, play, meow e bark, LDA potrebbero nascere argomenti come i seguenti:
Argomento |
mangiare | dormire | giocare | miagolare | abbaiare |
---|---|---|---|---|---|
Argomento 1 | 0,1 | 0,3 | 0,2 | 0,4 | 0,0 |
Argomento 2 | 0,2 | 0,1 | 0,4 | 0,0 | 0,3 |
Puoi dedurre che i documenti che hanno maggiori probabilità di appartenere all'Argomento 1 riguardano i gatti (che possono miagolare e dormire) e che i documenti che rientrano nell'Argomento 2 riguardano i cani (che preferiscono giocare e abbaiare). Questi argomenti possono essere trovati anche se le parole cane e gatto non compaiono in alcun testo.
Argomenti
Scelta tra Latent Dirichlet Allocation (LDA) e Neural Topic Model () NTM
I modelli tematici sono comunemente usati per produrre argomenti a partire da corpus che (1) racchiudono in modo coerente il significato semantico e (2) descrivono bene i documenti. Pertanto, i modelli tematici mirano a ridurre al minimo le perplessità e massimizzare la coerenza degli argomenti.
Perplexity è una metrica intrinseca di valutazione della modellazione del linguaggio che misura l'inverso della media geometrica di verosimiglianza per parola nei dati di test. Un punteggio di perplessità inferiore indica migliori prestazioni di generalizzazione. La ricerca ha dimostrato che la probabilità calcolata per parola spesso non è in linea con il giudizio umano e può essere del tutto non correlata, pertanto è stata introdotta la coerenza tra gli argomenti. Ogni argomento dedotto dal modello è composto da parole e la coerenza degli argomenti viene calcolata in base alle prime N parole per quel particolare argomento del modello. Viene spesso definita come la media o la mediana dei punteggi di somiglianza tra parole a coppie delle parole di quell'argomento, ad esempio Pointwise Mutual Information (). PMI Un modello promettente genera argomenti coerenti o argomenti con punteggi di coerenza tematici elevati.
Sebbene l'obiettivo sia quello di elaborare un modello tematico che riduca al minimo le perplessità e massimizzi la coerenza degli argomenti, spesso c'è un compromesso con entrambi e. LDA NTM Una recente ricerca di Amazon, Dinget et al., 2018 ha dimostrato che NTM è promettente per raggiungere un'elevata coerenza tematica, ma LDA addestrata con il campionamento di Gibbs collassato consente di ottenere una maggiore perplessità. Esiste un compromesso tra perplessità e coerenza tematica. Dal punto di vista della praticità per quanto riguarda l'hardware e la potenza di calcolo, l' SageMaker NTMhardware è più flessibile e può scalare meglio perché NTM può essere eseguito LDA e parallelizzato su più istanze, mentre supporta solo l'addestramento a singola CPU istanza. GPU GPU LDA CPU
Argomenti
LDAInterfaccia di input/output per l'algoritmo
LDAprevede che i dati vengano forniti sul canale ferroviario e, facoltativamente, supporta un canale di test, che viene valutato dal modello finale. LDAsupporta sia i formati recordIO-wrapped-protobuf
(densi e sparsi) che quelli di file. CSV
InfattiCSV
, i dati devono essere densi e avere una dimensione uguale al numero di record * alla dimensione del vocabolario. LDApuò essere addestrato in modalità File o Pipe quando si utilizza protobuf con RecordIO, ma solo in modalità File per il formato. CSV
Per inferenza, sono supportati i tipi di contenuti text/csv
, application/json
e application/x-recordio-protobuf
. I dati sparsi possono anche essere passati per e. application/json
application/x-recordio-protobuf
LDArestituzioni application/json
o application/x-recordio-protobuf
previsioni di inferenza, che includono il topic_mixture
vettore per ogni osservazione.
Consulta Notebook di esempio LDA per maggiori dettagli sui formati dei file di addestramento e inferenza.
EC2Raccomandazione di istanza per l'algoritmo LDA
LDAattualmente supporta solo la CPU formazione a istanza singola. CPUle istanze sono consigliate per l'hosting/inferenza.
Notebook di esempio LDA
Per un taccuino di esempio che mostra come addestrare l'algoritmo SageMaker AI Latent Dirichlet Allocation su un set di dati e poi come implementare il modello addestrato per eseguire inferenze sulle combinazioni di argomenti nei documenti di input, vedi An Introduction to AI. SageMaker LDA