Algoritmo de Modelo de tópicos neurais (NTM)

Modo de foco

Algoritmo de Modelo de tópicos neurais (NTM) - SageMaker IA da Amazon

Interface de entrada/saída para o algoritmo NTM EC2 Recomendação de instância para o algoritmo NTM Cadernos de exemplo

O Amazon SageMaker AI NTM é um algoritmo de aprendizado não supervisionado usado para organizar um corpus de documentos em tópicos que contêm agrupamentos de palavras com base em sua distribuição estatística. Por exemplo, os documentos que contêm ocorrências frequentes de palavras como "bicicleta", "carro", "trem", "quilometragem" e "velocidade" provavelmente compartilham um tópico "transporte". A modelagem de tópicos pode ser usada para classificar ou resumir documentos com base nos tópicos detectados ou para recuperar informações ou recomendar conteúdo com base em semelhanças de tópicos. Os tópicos de documentos que o NTM aprende são caracterizados como uma representação latente, pois são inferidos das distribuições de palavras observadas no corpus. A semântica dos tópicos é geralmente inferida por meio do exame das palavras melhor classificadas que eles contêm. Por se tratar de um método não supervisionado, somente o número de tópicos é predeterminado, não os tópicos em si. Além disso, não há garantias de que os tópicos estejam alinhados com o modo humano de naturalmente categorizar documentos.

Com a modelagem de tópicos, é possível visualizar o conteúdo de um grande corpus de documentos quanto aos tópicos aprendidos. Os documentos relevantes para cada tópico podem ser indexados ou pesquisados com base nos seus rótulos de tópicos flexíveis. As representações latentes dos documentos também podem ser usadas para encontrar documentos semelhantes no espaço do tópico. Além disso, é possível usar as representações latentes dos documentos aprendidos pelo modelo de tópico como dados de entrada em outro algoritmo supervisionado, como um classificador de documentos. Como essas representações devem capturar a semântica dos documentos subjacentes, o esperado é que o desempenho dos algoritmos parcialmente baseados nelas seja melhor do que o dos algoritmos baseados somente em atributos lexicais.

Embora você possa usar os algoritmos Amazon SageMaker AI NTM e LDA para modelagem de tópicos, eles são algoritmos distintos e pode-se esperar que produzam resultados diferentes nos mesmos dados de entrada.

Para obter mais informações sobre a matemática subjacente do NTM, consulte este artigo sobre inferência de variação neural para processamento de texto.

Tópicos

Interface de entrada/saída para o algoritmo NTM
EC2 Recomendação de instância para o algoritmo NTM
Cadernos de amostra do NTM
Hiperparâmetros do NTM
Ajustar um modelo NTM
Formatos de resposta do NTM

Interface de entrada/saída para o algoritmo NTM

O Amazon SageMaker AI Neural Topic Model oferece suporte a quatro canais de dados: treinamento, validação, teste e auxiliar. Os canais de dados de validação, teste e auxiliar são opcionais. Se você especificar qualquer um desses canais opcionais, defina o valor do parâmetro S3DataDistributionType para eles como FullyReplicated. Se você fornecer dados de validação, a perda sobre esses dados será registrada a cada epoch, e o modelo interromperá o treinamento assim que detectar que a perda de validação não está melhorando. Se você não fornecê-los, o algoritmo será interrompido antecipadamente com base nos dados de treinamento, mas isso pode ser menos eficiente. Se dados de teste forem fornecidos, o algoritmo relatará a perda de teste do modelo final.

Os canais de dados de treinamento, validação e teste para o NTM oferecem apoio aos formatos de arquivo recordIO-wrapped-protobuf (denso e esparso) e CSV. Para o formato CSV, cada linha deve ser representada densamente com contagens de zero para palavras não presentes no documento correspondente e ter uma dimensão igual a: (número de registros) * (tamanho do vocabulário). É possível usar o modo de Arquivo ou de Pipe para treinar modelos em dados formatados como recordIO-wrapped-protobuf ou CSV. O canal auxiliar é usado para fornecer um arquivo de texto que contém vocabulário. Ao fornecer o arquivo de vocabulário, os usuários podem ver as principais palavras de cada um dos tópicos impressos no registro em vez de seus números inteiros. IDs Ter o arquivo de vocabulário também permite que o NTM calcule as pontuações WETC (Coerência de tópicos de incorporação de palavras), uma nova métrica exibida no log que captura a semelhança entre as principais palavras em cada tópico de forma eficaz. O ContentType para o canal auxiliar étext/plain, com cada linha contendo uma única palavra, na ordem correspondente ao número inteiro IDs fornecido nos dados. O arquivo de vocabulário deve ser nomeado como vocab.txt e, atualmente, apenas a codificação UTF-8 é compatível.

Para inferência, há compatibilidade com os tipos de conteúdo text/csv, application/json, application/jsonlines e application/x-recordio-protobuf. Dados esparsos também podem ser passados para application/json e application/x-recordio-protobuf. A inferência do NTM retorna application/jsonprediçõesapplication/x-recordio-protobuf ou , que incluem o vetor topic_weights para cada observação.

Consulte a postagem de blog e o caderno que a acompanha para obter mais detalhes sobre o uso do canal auxiliar e das pontuações de WETC. Para obter mais informações sobre como calcular a pontuação de WETC, consulte Modelagem de tópicos neurais com reconhecimento de coerência. Usamos o WETC em pares descrito neste paper para o Amazon SageMaker AI Neural Topic Model.

Para obter mais informações sobre formatos de arquivo de entrada e saída, consulte Formatos de resposta do NTM para inferência e os Cadernos de amostra do NTM.

EC2 Recomendação de instância para o algoritmo NTM

O treinamento do NTM é compatível com os tipos de instância de GPU e CPU. Recomendamos as instâncias de GPU, mas os custos de treinamento podem ser menores em instâncias de CPU para determinadas workloads. Para inferência, as instâncias de CPU já são o bastante. O treinamento NTM oferece apoio às famílias de instâncias de GPU P2, P3, G4dn e G5 para treinamento e inferência.

Cadernos de amostra do NTM

Para obter um exemplo de caderno que usa o algoritmo SageMaker AI NTM para descobrir tópicos em documentos de uma fonte de dados sintética em que as distribuições de tópicos são conhecidas, consulte a Introdução à funcionalidade básica do NTM. Para obter instruções sobre como criar e acessar instâncias do notebook Jupyter que você pode usar para executar o exemplo em SageMaker IA, consulte. Instâncias do Amazon SageMaker Notebook Depois de criar uma instância do notebook e abri-la, selecione a guia Exemplos de SageMaker IA para ver uma lista de todas as amostras de SageMaker IA. Os cadernos de exemplo de modelagem de tópicos que usam os algoritmos NTM estão localizados na seção Introdução a algoritmos da Amazon. Para abrir um caderno, clique em sua guia Uso e selecione Criar cópia.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Ajuste de modelos

Hiperparâmetros

Próximo tópico:

Hiperparâmetros

Tópico anterior:

Ajuste de modelos

Precisa de ajuda?

Nesta página

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie