SageMaker Algoritmos integrados para dados de texto - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SageMaker Algoritmos integrados para dados de texto

SageMaker fornece algoritmos personalizados para a análise de documentos textuais usados no processamento de linguagem natural, classificação ou resumo de documentos, modelagem ou classificação de tópicos e transcrição ou tradução de idiomas.

  • BlazingText algoritmo: uma implantação altamente otimizada do Word2vec e dos algoritmos de classificação de texto que podem ser facilmente escalados para grandes conjuntos de dados. É útil para muitas tarefas posteriores de processamento de linguagem natural (PLN).

  • Algoritmo Latent Dirichlet Allocation (LDA)Esse algoritmo é adequado para determinar tópicos em um conjunto de documentos. É um algoritmo não supervisionado, o que significa que ele não usa dados de exemplo com respostas durante o treinamento.

  • Algoritmo Neural Topic Model (NTM): outra técnica não supervisionada para determinar tópicos em um conjunto de documentos, usando uma abordagem de rede neural.

  • Algoritmo Object2Vec: um algoritmo de incorporação neural de uso geral que pode ser usado para sistemas de recomendação, classificação de documentos e incorporação de frases.

  • Sequence-to-Sequence algoritmo: esse algoritmo supervisionado é comumente usado para tradução de máquina neural.

  • Classificação de texto - TensorFlow: um algoritmo supervisionado que oferece suporte ao aprendizado por transferência com modelos pré-treinados disponíveis para classificação de texto.

Nome do algoritmo Nome do canal Modo de entrada do treinamento Tipo de arquivo Classe de instância Paralelizável
BlazingText treinamento Arquivo ou Pipe Arquivo de texto (uma frase por linha com tokens separados por espaço) GPU (somente instância única) ou CPU Não
LDA treinamento e (opcionalmente) teste Arquivo ou Pipe recordIO-protobuf ou CSV CPU (somente instância única) Não
Modelo de tópico neural treinamento e (opcionalmente) validação, teste ou ambos Arquivo ou Pipe recordIO-protobuf ou CSV GPU ou CPU Sim
Object2Vec treinamento e (opcionalmente) validação, teste ou ambos Arquivo Linhas JSON GPU ou CPU (somente instância única) Não
Modelagem Seq2Seq treinamento, validação e vocabulário Arquivo recordIO-protobuf GPU (somente instância única) Não
Classificação de texto - TensorFlow treinamento e validação Arquivo CSV CPU ou GPU Sim (somente em várias GPUs em uma única instância)