Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
SageMaker Algoritmos integrados para datos de texto
SageMaker proporciona algoritmos que se adaptan al análisis de documentos textuales utilizados en el procesamiento del lenguaje natural, la clasificación o el resumen de documentos, el modelado o clasificación de temas y la transcripción o traducción en idiomas.
-
BlazingText algoritmo: una implementación muy optimizada del Word2vec y de los algoritmos de clasificación de textos que se adapta fácilmente a grandes conjuntos de datos. Resulta útil para muchas tareas de salida en el procesamiento de lenguaje natural (NLP).
-
Algoritmo Asignación latente de Dirichlet (LDA): este algoritmo es idóneo para determinar temas en un conjunto de documentos. Se trata de un algoritmo no supervisado, lo que significa que no utiliza datos de ejemplo con respuestas durante la capacitación.
-
Algoritmo del modelo de tema neuronal (NTM): otra técnica no supervisada para determinar temas en un conjunto de documentos, con una estrategia de redes neuronales.
-
Algoritmo Object2Vec: un algoritmo de incrustación neuronal genérico que se puede utilizar para sistemas de recomendación, así como para la clasificación de documentos y la incrustación de frases.
-
Sequence-to-Sequence Algoritmo: un algoritmo supervisado que se utiliza normalmente para la traducción automática neuronal.
-
Clasificación de textos - TensorFlow: un algoritmo supervisado para el aprendizaje por transferencia con modelos prentrenados disponibles para la clasificación de textos.
Nombre de algoritmo | Nombre de canal | Modo de entrada de capacitación | Tipo de archivo | Clase de instancia | Paralelizable |
---|---|---|---|---|---|
BlazingText | capacitación | Archivo o canalización | Archivo de texto (una frase por línea con tokens separados por espacios) | GPU (solo instancia única) o CPU | No |
LDA | capacitación y prueba (opcional) | Archivo o canalización | recordIO-protobuf o CSV | CPU (solo instancia única) | No |
Modelo de temas neuronal | capacitación y validación (opcional), prueba o ambos | Archivo o canalización | recordIO-protobuf o CSV | GPU o CPU | Sí |
Object2Vec | capacitación y validación (opcional), prueba o ambos | Archivos | Líneas de JSON | GPU o CPU (solo instancia única) | No |
Modelo Seq2Seq | capacitación, validación y vocabulario | Archivos | recordIO-protobuf | GPU (solo instancia única) | No |
Clasificación de textos - TensorFlow | entrenamiento y validación | Archivos | CSV | CPU o GPU | Sí (solo en múltiples GPU en una sola instancia) |