Built-in SageMaker Algoritmos de IA para datos de texto

SageMaker La IA proporciona algoritmos que se adaptan al análisis de documentos textuales utilizados en el procesamiento del lenguaje natural, la clasificación o el resumen de documentos, el modelado o clasificación de temas y la transcripción o traducción en idiomas.

BlazingText algoritmo: una implementación muy optimizada del Word2vec y de los algoritmos de clasificación de textos que se adapta fácilmente a grandes conjuntos de datos. Resulta útil para muchas tareas de salida en el procesamiento de lenguaje natural (NLP).
Algoritmo Asignación latente de Dirichlet (LDA): este algoritmo es idóneo para determinar temas en un conjunto de documentos. Se trata de un algoritmo no supervisado, lo que significa que no utiliza datos de ejemplo con respuestas durante la capacitación.
Algoritmo de Modelo de tema neuronal (NTM): otra técnica no supervisada para determinar temas en un conjunto de documentos, con una estrategia de redes neuronales.
Algoritmo Object2Vec: un algoritmo de incrustación neuronal genérico que se puede utilizar para sistemas de recomendación, así como para la clasificación de documentos y la incrustación de frases.
Sequence-to-Sequence Algoritmo: un algoritmo supervisado que se utiliza normalmente para la traducción automática neuronal.
Clasificación de textos - TensorFlow: un algoritmo supervisado para el aprendizaje por transferencia con modelos prentrenados disponibles para la clasificación de textos.

Nombre de algoritmo	Nombre de canal	Modo de entrada de capacitación	Tipo de archivo	Clase de instancia	Paralelizable
BlazingText	capacitación	Archivo o canalización	Archivo de texto (una frase por línea con tokens separados por espacios)	GPU (solo instancia única) o CPU	No
LDA	capacitación y prueba (opcional)	Archivo o canalización	registro IO-protobuf o CSV	CPU (solo instancia única)	No
Modelo de temas neuronal	capacitación y validación (opcional), prueba o ambos	Archivo o canalización	registro IO-protobuf o CSV	GPU o CPU	Sí
Object2Vec	capacitación y validación (opcional), prueba o ambos	Archivos	Líneas de JSON	GPU o CPU (solo instancia única)	No
Modelo Seq2Seq	capacitación, validación y vocabulario	Archivos	registro IO-protobuf	GPU (solo instancia única)	No
Clasificación de texto - TensorFlow	entrenamiento y validación	Archivos	CSV	CPU o GPU	Sí (solo en múltiples GPU en una sola instancia)

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

XGBoost versión 0.72

BlazingText