文字分類 - TensorFlow 演算法的輸入和輸出介面 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

文字分類 - TensorFlow 演算法的輸入和輸出介面

TensorFlow 中心模型中列出的每個預先訓練模型都可以微調為由具有任何數量類別的文字句子組成的任何資料集。預先訓練的模型會將分類層連接到文字內嵌項目模型,並將層參數初始化為隨機值。分類層的輸出維度是基於在輸入資料中偵測到的類別數量來決定。

請注意如何格式化訓練資料,以輸入文字分類 - TensorFlow 模型。

  • 訓練資料輸入格式:包含 data.csv 檔案的目錄。首欄的每一列應具有介於 0 和類別數量之間的整數類別標籤。第二欄的每一列應具有對應的文字資料。

以下是輸入CSV檔案的範例。請注意,該檔案不應該有任何標題。檔案應該託管於 Amazon S3 儲存貯體中,其中包含與下方相似的路徑:s3://bucket_name/input_directory/。請注意,結尾 / 是必要項目。

| | | |---|---| |0 |hide new secretions from the parental units| |0 |contains no wit , only labored gags| |1 |that loves its characters and communicates something rather beautiful about human nature| |...|...|

增量訓練

您可以使用您先前使用 訓練的模型成品,來植入新模型的訓練 SageMaker。增量訓練可以在您希望使用相同或相似資料訓練新模型時,節省訓練的時間。

注意

您只能使用 TensorFlow 另一個 SageMaker 在 中訓練的文字分類模型來植入文字分類 TensorFlow 模型 SageMaker。

只要類別組保持不變,您就可以使用任何資料集進行增量訓練。增量訓練步驟類似微調的步驟,但不是從預先訓練的模型開始,而是從現有的經微調的模型開始。

如需使用增量訓練搭配 SageMaker 文字分類 TensorFlow 演算法的詳細資訊,請參閱 JumpStart 文字分類範例筆記本簡介

使用文字分類 - TensorFlow 演算法進行推論

您可以託管來自 TensorFlow 文字分類訓練的微調模型以進行推論。任何用於推論的原始文字格式都必須為內容類型 application/x-text

執行推論會產生機率值、所有類別的類別標籤,以及對應至以JSON格式編碼機率最高的類別索引的預測標籤。文字分類 - TensorFlow 模式會依請求處理單一字串,並僅輸出一行。以下是JSON格式回應的範例:

accept: application/json;verbose {"probabilities": [prob_0, prob_1, prob_2, ...], "labels": [label_0, label_1, label_2, ...], "predicted_label": predicted_label}

如果將 accept 設定為 application/json,則模型僅輸出機率。