As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker Algoritmos integrados para dados de texto
SageMaker fornece algoritmos personalizados para a análise de documentos textuais usados no processamento de linguagem natural, classificação ou resumo de documentos, modelagem ou classificação de tópicos e transcrição ou tradução de idiomas.
-
BlazingText algoritmo: uma implantação altamente otimizada do Word2vec e dos algoritmos de classificação de texto que podem ser facilmente escalados para grandes conjuntos de dados. É útil para muitas tarefas posteriores de processamento de linguagem natural (PLN).
-
Algoritmo Latent Dirichlet Allocation (LDA)Esse algoritmo é adequado para determinar tópicos em um conjunto de documentos. É um algoritmo não supervisionado, o que significa que ele não usa dados de exemplo com respostas durante o treinamento.
-
Algoritmo Neural Topic Model (NTM): outra técnica não supervisionada para determinar tópicos em um conjunto de documentos, usando uma abordagem de rede neural.
-
Algoritmo Object2Vec: um algoritmo de incorporação neural de uso geral que pode ser usado para sistemas de recomendação, classificação de documentos e incorporação de frases.
-
Sequence-to-Sequence algoritmo: esse algoritmo supervisionado é comumente usado para tradução de máquina neural.
-
Classificação de texto - TensorFlow: um algoritmo supervisionado que oferece suporte ao aprendizado por transferência com modelos pré-treinados disponíveis para classificação de texto.
Nome do algoritmo | Nome do canal | Modo de entrada do treinamento | Tipo de arquivo | Classe de instância | Paralelizável |
---|---|---|---|---|---|
BlazingText | treinamento | Arquivo ou Pipe | Arquivo de texto (uma frase por linha com tokens separados por espaço) | GPU (somente instância única) ou CPU | Não |
LDA | treinamento e (opcionalmente) teste | Arquivo ou Pipe | recordIO-protobuf ou CSV | CPU (somente instância única) | Não |
Modelo de tópico neural | treinamento e (opcionalmente) validação, teste ou ambos | Arquivo ou Pipe | recordIO-protobuf ou CSV | GPU ou CPU | Sim |
Object2Vec | treinamento e (opcionalmente) validação, teste ou ambos | Arquivo | Linhas JSON | GPU ou CPU (somente instância única) | Não |
Modelagem Seq2Seq | treinamento, validação e vocabulário | Arquivo | recordIO-protobuf | GPU (somente instância única) | Não |
Classificação de texto - TensorFlow | treinamento e validação | Arquivo | CSV | CPU ou GPU | Sim (somente em várias GPUs em uma única instância) |