Interface de entrada e saída para o TensorFlow algoritmo de classificação de texto - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Interface de entrada e saída para o TensorFlow algoritmo de classificação de texto

Cada um dos modelos pré-treinados listados nos TensorFlow Hub Models pode ser ajustado a qualquer conjunto de dados composto por frases de texto com qualquer número de classes. O modelo pré-treinado anexa uma camada de classificação ao modelo de incorporação de texto e inicializa os parâmetros da camada com valores aleatórios. A dimensão de saída da camada de classificação é determinada com base no número de classes detectadas nos dados de entrada.

Lembre-se de como formatar seus dados de treinamento para entrada no TensorFlow modelo de Classificação de Texto.

  • Formato de entrada de dados de treinamento: um diretório contendo um arquivo data.csv. Cada linha da primeira coluna deve ter rótulos de classe inteiros entre 0 e o número de classes. Cada linha da segunda coluna deve ter os dados de texto correspondentes.

Veja a seguir um exemplo de um CSV arquivo de entrada. Observe que o arquivo não deve ter nenhum cabeçalho. O arquivo deve ser hospedado em um bucket do Amazon S3 com um caminho semelhante ao seguinte: s3://bucket_name/input_directory/. Observe que o rastreamento / é obrigatório.

| | | |---|---| |0 |hide new secretions from the parental units| |0 |contains no wit , only labored gags| |1 |that loves its characters and communicates something rather beautiful about human nature| |...|...|

Treinamento incremental

Você pode semear o treinamento de um novo modelo com artefatos de um modelo com SageMaker o qual você treinou anteriormente. Um treinamento incremental economiza tempo de treinamento quando você deseja treinar um novo modelo com dados iguais ou semelhantes.

nota

Você só pode semear um modelo de Classificação de SageMaker Texto com outro TensorFlow modelo de Classificação de Texto treinado SageMaker. TensorFlow

Você pode usar qualquer conjunto de dados para treinamento incremental, desde que o conjunto de classes permaneça o mesmo. A etapa de treinamento incremental é semelhante à etapa de ajuste fino, mas em vez de começar com um modelo pré-treinado, você começa com um modelo já ajustado.

Para obter mais informações sobre como usar o treinamento incremental com o TensorFlow algoritmo de Classificação de SageMaker Texto, consulte o exemplo de caderno Introdução à JumpStart Classificação de Texto.

Inferência com a classificação de texto - algoritmo TensorFlow

Você pode hospedar o modelo ajustado que resulta do seu treinamento de Classificação de TensorFlow Texto para inferência. Qualquer formato de texto bruto para inferência deve ser do tipo de application/x-text conteúdo.

A execução da inferência resulta em valores de probabilidade, rótulos de classe para todas as classes e o rótulo previsto correspondente ao índice de classe com a maior probabilidade codificada no JSON formato. O TensorFlow modelo Text Classification - processa uma única string por solicitação e gera somente uma linha. Veja a seguir um exemplo de uma resposta de JSON formato:

accept: application/json;verbose {"probabilities": [prob_0, prob_1, prob_2, ...], "labels": [label_0, label_1, label_2, ...], "predicted_label": predicted_label}

Se accept estiver definido como application/json, o modelo só gera probabilidades.