SageMaker Algoritmos integrados para datos de texto - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker Algoritmos integrados para datos de texto

SageMaker proporciona algoritmos que se adaptan al análisis de documentos textuales utilizados en el procesamiento del lenguaje natural, la clasificación o el resumen de documentos, el modelado o clasificación de temas y la transcripción o traducción en idiomas.

  • BlazingText algoritmo: una implementación muy optimizada del Word2vec y de los algoritmos de clasificación de textos que se adapta fácilmente a grandes conjuntos de datos. Resulta útil para muchas tareas de salida en el procesamiento de lenguaje natural (NLP).

  • Algoritmo Asignación latente de Dirichlet (LDA): este algoritmo es idóneo para determinar temas en un conjunto de documentos. Se trata de un algoritmo no supervisado, lo que significa que no utiliza datos de ejemplo con respuestas durante la capacitación.

  • Algoritmo del modelo de tema neuronal (NTM): otra técnica no supervisada para determinar temas en un conjunto de documentos, con una estrategia de redes neuronales.

  • Algoritmo Object2Vec: un algoritmo de incrustación neuronal genérico que se puede utilizar para sistemas de recomendación, así como para la clasificación de documentos y la incrustación de frases.

  • Sequence-to-Sequence Algoritmo: un algoritmo supervisado que se utiliza normalmente para la traducción automática neuronal.

  • Clasificación de textos - TensorFlow: un algoritmo supervisado para el aprendizaje por transferencia con modelos prentrenados disponibles para la clasificación de textos.

Nombre de algoritmo Nombre de canal Modo de entrada de capacitación Tipo de archivo Clase de instancia Paralelizable
BlazingText capacitación Archivo o canalización Archivo de texto (una frase por línea con tokens separados por espacios) GPU (solo instancia única) o CPU No
LDA capacitación y prueba (opcional) Archivo o canalización recordIO-protobuf o CSV CPU (solo instancia única) No
Modelo de temas neuronal capacitación y validación (opcional), prueba o ambos Archivo o canalización recordIO-protobuf o CSV GPU o CPU
Object2Vec capacitación y validación (opcional), prueba o ambos Archivos Líneas de JSON GPU o CPU (solo instancia única) No
Modelo Seq2Seq capacitación, validación y vocabulario Archivos recordIO-protobuf GPU (solo instancia única) No
Clasificación de textos - TensorFlow entrenamiento y validación Archivos CSV CPU o GPU Sí (solo en múltiples GPU en una sola instancia)