Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Interfaz de entrada y salida para el TensorFlow algoritmo de clasificación de textos
Cada uno de los modelos previamente entrenados que figuran en TensorFlow Hub Models se puede ajustar a cualquier conjunto de datos compuesto por oraciones de texto con cualquier número de clases. El modelo prentrenado asocia una capa de clasificación al modelo de incrustación de texto e inicia los parámetros de la capa en valores aleatorios. La dimensión de salida de la capa de clasificación se determina en función del número de clases detectadas en los datos de entrada.
Ten cuidado con el formato de los datos de entrenamiento para introducirlos en el modelo de clasificación de textos. TensorFlow
-
Formato de entrada de los datos de entrenamiento: un directorio con un archivo
data.csv
. Cada fila de la primera columna debe tener etiquetas de clase entera entre 0 y el número de clases. Cada fila de la segunda columna debe tener los datos de texto correspondientes.
Lo que sigue es un ejemplo de una entrada de archivo CSV: Tenga en cuenta que el archivo no debería tener ningún encabezado. El archivo debe alojarse en un bucket de Amazon S3 con una ruta similar a s3://
. Tenga en cuenta que es obligatorio incluir bucket_name
/input_directory
//
al final.
| | | |---|---| |0 |hide new secretions from the parental units| |0 |contains no wit , only labored gags| |1 |that loves its characters and communicates something rather beautiful about human nature| |...|...|
Entrenamiento incremental
Puedes iniciar el entrenamiento de un nuevo modelo con artefactos de un modelo que hayas entrenado previamente con SageMaker IA. El entrenamiento incremental supone un ahorro de tiempo cuando queremos entrenar un nuevo modelo con datos idénticos o similares.
nota
Solo puedes sembrar un modelo de clasificación de texto basado en SageMaker IA (un TensorFlow modelo con otro de clasificación de textos) TensorFlow entrenado en SageMaker IA.
Para el entrenamiento incremental, puede utilizar cualquier conjunto de datos, siempre y cuando el conjunto de clases siga siendo el mismo. El paso de entrenamiento incremental es similar al paso de ajuste; la diferencia es que, en lugar de comenzar con un modelo previamente entrenado, se comienza con un modelo ajustado existente.
Para obtener más información sobre el uso del entrenamiento incremental con el TensorFlow algoritmo de clasificación de textos mediante SageMaker IA, consulte el cuaderno de muestra Introducción a JumpStart la clasificación de textos
Inferencia con el algoritmo de clasificación de textos TensorFlow
Puede alojar el modelo ajustado que resulta de su formación en clasificación de TensorFlow textos para la inferencia. Para la inferencia, todos los formatos de texto sin procesar deben ser del tipo de contenido application/x-text
.
Al ejecutar la inferencia, se obtienen valores de probabilidad, etiquetas de clase para todas las clases y la etiqueta pronosticada correspondiente al índice de clase con la probabilidad más alta, codificada en formato JSON. El TensorFlow modelo de clasificación de texto procesa una sola cadena por solicitud y genera solo una línea. Lo siguiente es un ejemplo de una respuesta en formato JSON:
accept: application/json;verbose {"probabilities": [
prob_0
,prob_1
,prob_2
, ...], "labels": [label_0
,label_1
,label_2
, ...], "predicted_label":predicted_label
}
Si accept
se establece en application/json
, el modelo solo genera probabilidades.