

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Algoritmo Modello neurale di argomenti (NTM)
<a name="ntm"></a>

Amazon SageMaker AI NTM è un algoritmo di apprendimento non supervisionato che viene utilizzato per organizzare un corpus di documenti in *argomenti* che contengono raggruppamenti di parole in base alla loro distribuzione statistica. I documenti che contengono frequenti occorrenze di parole come "bici", "auto", "treno", "chilometraggio" e "velocità" potrebbero condividere un argomento sul "trasporto", ad esempio. La modellazione degli argomenti può essere utilizzata per classificare o riepilogare i documenti in base agli argomenti rilevati o per recuperare informazioni o consigliare i contenuti in base alle somiglianze tra argomenti. Gli argomenti dei documenti che NTM apprende sono caratterizzati come una *rappresentazione latente* perché gli argomenti sono dedotti dalle distribuzioni di parole osservate nel corpus. La semantica degli argomenti solitamente viene dedotta esaminando le parole più importanti che contengono. Poiché il metodo non è supervisionato, viene preventivamente specificato solo il numero di argomenti e non gli argomenti stessi. Inoltre, non è possibile garantire l'allineamento degli argomenti con la capacità umana di categorizzare naturalmente dei documenti.

La modellazione degli argomenti offre un modo per visualizzare i contenuti di un ampio corpus di documenti in termini di argomenti appresi. I documenti relativi a ogni argomento possono essere indicizzati o ricercati in base alle relative etichette. Le rappresentazioni latenti dei documenti possono essere utilizzate anche per individuare documenti simili nell'ambito degli argomenti. È inoltre possibile utilizzare le rappresentazioni latenti dei documenti che il modello di argomenti apprende per inserirle in un altro algoritmo supervisionato, come un classificatore di documenti. Poiché le rappresentazioni latenti dei documenti dovrebbero acquisire la semantica dei documenti soggiacenti, gli algoritmi basati in parte su tali rappresentazioni dovrebbero funzionare meglio rispetto a quelli basati solo su caratteristiche lessicali.

Sebbene sia possibile utilizzare sia gli algoritmi Amazon SageMaker AI NTM che LDA per la modellazione degli argomenti, si tratta di algoritmi distinti e ci si può aspettare che producano risultati diversi sugli stessi dati di input.

Per ulteriori informazioni sulla matematica alla base di NTM, consulta [Neural Variational Inference for Text Processing](https://arxiv.org/pdf/1511.06038.pdf).

**Topics**
+ [Interfaccia di input/output per l'algoritmo NTM](#NTM-inputoutput)
+ [Raccomandazione istanza EC2 per l'algoritmo NTM](#NTM-instances)
+ [Notebook di esempio NTM](#NTM-sample-notebooks)
+ [Iperparametri NTM](ntm_hyperparameters.md)
+ [Ottimizzazione di un modello NTM](ntm-tuning.md)
+ [Formati della risposta NTM](ntm-in-formats.md)

## Interfaccia di input/output per l'algoritmo NTM
<a name="NTM-inputoutput"></a>

Amazon SageMaker AI Neural Topic Model supporta quattro canali di dati: addestramento, convalida, test e ausiliario. I canali di dati di convalida, test e ausiliari sono opzionali. Se specifichi uno qualsiasi di questi canali opzionali, imposta il valore del parametro `S3DataDistributionType` su `FullyReplicated`. Se si forniscono i dati di convalida, la perdita relativa a questi dati viene registrata per ogni epoca e il modello interrompe l’addestramento non appena rileva che la perdita di convalida non sta migliorando. Se non si forniscono i dati di convalida, l'algoritmo si interrompe con anticipo in base ai dati di addestramento; tuttavia questa procedura può risultare meno efficiente. Se si forniscono i dati di test, l'algoritmo riferisce la perdita dei dati di test dal modello finale. 

I canali dei dati di addestramento, convalida e test per NTM supportano i formati di file `recordIO-wrapped-protobuf` (a densità alta e bassa) e `CSV`. Per il formato `CSV`, ogni riga deve essere rappresentata in modo denso con conteggi zero per le parole assenti nel documento corrispondente e deve avere la dimensione pari a: (numero di record) \$1 (dimensione del vocabolario). Puoi utilizzare la modalità file o la modalità pipe per addestrare i modelli sui dati formattati come `recordIO-wrapped-protobuf` o `CSV`. Il canale ausiliario viene utilizzato per fornire un file di testo che contiene il vocabolario. Fornendo il file di vocabolario, gli utenti possono vedere le parole principali di ciascuno degli argomenti stampate nel registro anziché il loro numero intero. IDs Il file di vocabolario consente inoltre a NTM di calcolare i punteggi WETC (Word Embedding Topic Coherence), un nuovo parametro visualizzato nel log che acquisisce in modo efficace la somiglianza tra le parole principali di ciascun argomento. `ContentType`Per il canale ausiliario`text/plain`, ogni riga contiene una sola parola, nell'ordine corrispondente al numero intero fornito nei dati. IDs Il file di vocabolario deve essere denominato `vocab.txt` e attualmente è supportata solo la codifica UTF-8. 

Per l'inferenza, sono supportati i tipi di contenuti `text/csv`, `application/json`, `application/jsonlines` e `application/x-recordio-protobuf`. I dati a densità bassa possono anche essere trasmessi per `application/json` e `application/x-recordio-protobuf`. L'inferenza del modello NTM restituisce le previsioni `application/json` o `application/x-recordio-protobuf` **, che includono il vettore `topic_weights` di ogni osservazione.

Consulta il [post del blog](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-neural-topic-model-now-supports-auxiliary-vocabulary-channel-new-topic-evaluation-metrics-and-training-subsampling/) per maggiori dettagli sull'uso del canale ausiliario e dei punteggi WETC. Per ulteriori informazioni su come calcolare il punteggio WETC, consulta l'argomento sulla [modellazione di argomenti neurali che supportano la coerenza](https://arxiv.org/pdf/1809.02687.pdf). Abbiamo usato il WETC a coppie descritto in questo paper per l'Amazon SageMaker AI Neural Topic Model.

Per ulteriori informazioni sui formati di file di input e output, consulta [Formati della risposta NTM](ntm-in-formats.md) per l'inferenza e i [Notebook di esempio NTM](#NTM-sample-notebooks).

## Raccomandazione istanza EC2 per l'algoritmo NTM
<a name="NTM-instances"></a>

L’addestramento NTM supporta entrambi i tipi di istanze GPU e CPU. Si consigliano le istanze GPU, ma per determinati carichi di lavoro, le istanze CPU possono comportare costi di addestramento inferiori. Le istanze CPU dovrebbero essere sufficienti per l'interferenza. L'addestramento NTM supporta famiglie di istanze GPU P2, P3, G4dn e G5 per l'addestramento e l'inferenza.

## Notebook di esempio NTM
<a name="NTM-sample-notebooks"></a>

Per un taccuino di esempio che utilizza l'algoritmo SageMaker AI NTM per scoprire argomenti nei documenti a partire da una fonte di dati sintetica in cui sono note le distribuzioni degli argomenti, consulta l'[Introduzione](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_amazon_algorithms/ntm_synthetic/ntm_synthetic.html) alle funzionalità di base di NTM. Per istruzioni su come creare e accedere alle istanze di notebook Jupyter da utilizzare per eseguire l'esempio in AI, consulta. SageMaker [Istanze SageMaker per notebook Amazon](nbi.md) Dopo aver creato un'istanza di notebook e averla aperta, seleziona la scheda **Esempi di SageMaker AI** per visualizzare un elenco di tutti gli esempi di IA. SageMaker I notebook di esempio di modellazione dell'argomento che utilizzano gli algoritmi NTM sono disponibili nella sezione con l'**introduzione agli algoritmi di Amazon**. Per aprire un notebook, fai clic sulla relativa scheda **Use (Utilizza)** e seleziona **Create copy (Crea copia)**.