

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 主題建模
<a name="topic-modeling"></a>

**注意**  
自 2026 年 4 月 30 日起，新客戶將不再使用 Amazon Comprehend 主題建模、事件偵測和提示安全分類功能。如果您想要將這些功能與新帳戶搭配使用，請在此日期之前執行此操作。在過去 12 個月內使用這些功能的帳戶不需要採取任何動作。如需詳細資訊，請參閱[Amazon Comprehend 功能可用性變更](comprehend-availability-change.md)。

您可以使用 Amazon Comprehend 來檢查文件集合的內容，以判斷常見的主題。例如，您可以為 Amazon Comprehend 提供新聞文章的集合，它會決定主題，例如運動、政治或娛樂。文件中的文字不需要加上註釋。

Amazon Comprehend 使用 [Latent dirichlet 配置](http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf)型學習模型來判斷一組文件中的主題。它會檢查每個文件，以判斷單字的內容和意義。整個文件集中經常屬於相同內容的一組字詞構成一個主題。

字詞與文件中的主題相關聯，取決於該主題在文件中的普遍程度，以及主題對該字詞的親和程度。根據特定文件中的主題分佈，相同字詞可以與不同文件中的不同主題相關聯。

例如，文章中主要討論運動的「glucose」一詞可以指派給主題「sports」，而文章中關於「medicine」的相同字詞則會指派給主題「medicine」。

與主題相關聯的每個字詞都會獲得一個權重，指出該字詞有助於定義主題的程度。權重表示在整個文件集中，與主題中的其他字詞相比，該字詞在主題中出現的次數。

為了獲得最準確的結果，您應該為 Amazon Comprehend 提供最大的可能 corpus 來使用。為了獲得最佳結果：
+ 您應該在每個主題建模任務中使用至少 1，000 個文件。
+ 每份文件的長度至少應為 3 個句子。
+ 如果文件主要由數值資料組成，您應該將其從 corpus 中移除。

主題建模是一種非同步程序。您可以使用 [StartTopicsDetectionJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartTopicsDetectionJob.html) 操作，從 Amazon S3 儲存貯體將文件清單提交給 Amazon Amazon Comprehend。回應會傳送至 Amazon S3 儲存貯體。您可以同時設定輸入和輸出儲存貯體。取得您使用 [ListTopicsDetectionJobs](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ListTopicsDetectionJobs.html) 操作提交的主題建模任務清單，並使用 [DescribeTopicsDetectionJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeTopicsDetectionJob.html) 操作檢視任務的相關資訊。傳遞至 Amazon S3 儲存貯體的內容可能包含客戶內容。如需移除敏感資料的詳細資訊，請參閱[如何清空 S3 儲存貯體？](https://docs.aws.amazon.com/AmazonS3/latest/userguide/empty-bucket.html)或[如何刪除 S3 儲存貯體？](https://docs.aws.amazon.com/AmazonS3/latest/userguide/delete-bucket.html)。

文件必須使用 UTF-8 格式的文字檔案。您可以透過兩種方式提交文件。下表顯示選項。


| 格式 | Description | 
| --- | --- | 
| 每個檔案一份文件 | 每個檔案都包含一個輸入文件。這最適合大型文件的集合。 | 
| 每行一個文件 | 輸入是單一檔案。檔案中的每一行都被視為文件。這最適合短文件，例如社交媒體貼文。 每行必須以換行 (LF、\$1n)、歸位 (CR、\$1r) 或兩者 (CRLF、\$1r\$1n) 結尾。Unicode 行分隔符號 (u\$12028) 無法用來結束行。 | 

如需詳細資訊，請參閱 [InputDataConfig](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_InputDataConfig.html) 資料類型。

Amazon Comprehend 處理您的文件集合後，會傳回包含兩個檔案 `topic-terms.csv`和 的壓縮封存`doc-topics.csv`。如需輸出檔案的詳細資訊，請參閱 [OutputDataConfig](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_OutputDataConfig.html)。

第一個輸出檔案 `topic-terms.csv`是集合中的主題清單。根據預設，每個主題的清單包含根據權重，並依主題排列的熱門詞彙。例如，如果您為 Amazon Comprehend 提供一組報紙文章，可能會傳回以下內容來描述集合中的前兩個主題：


| 主題 | 術語 | Weight (粗細) | 
| --- | --- | --- | 
| 000 | 團隊 | 0.118533 | 
| 000 | game | 0.106072 | 
| 000 | player | 0.031625 | 
| 000 | 季節 | 0.023633 | 
| 000 | 播放 | 0.021118 | 
| 000 | 碼 | 0.024454 | 
| 000 | 指導 | 0.016012 | 
| 000 | 遊戲 | 0.016191 | 
| 000 | 足球 | 0.015049 | 
| 000 | 四分衛 | 0.014239 | 
| 001 | 杯子 | 0.205236 | 
| 001 | 食品 | 0.040686 | 
| 001 | 分鐘 | 0.036062 | 
| 001 | add | 0.029697 | 
| 001 | 大匙 | 0.028789 | 
| 001 | 油 | 0.021254 | 
| 001 | 甜甜圈 | 0.022205 | 
| 001 | 小匙 | 0.020040 | 
| 001 | 酒 | 0.016588 | 
| 001 | 糖 | 0.015101 | 

權重代表特定主題中單字的機率分佈。由於 Amazon Comprehend 只會傳回每個主題的前 10 個字，因此權重不會加總為 1.0。在主題中少於 10 個單字的罕見情況下，權重會加總為 1.0。

透過查看字詞在所有主題中出現的情況，這些字詞會依其歧視性能力進行排序。這通常與其權重相同，但在某些情況下，例如資料表中的「播放」和「場」，這會導致與權重不同的順序。

您可以指定要傳回的主題數量。例如，如果您要求 Amazon Comprehend 傳回 25 個主題，則會傳回集合中最突出的 25 個主題。Amazon Comprehend 最多可以偵測集合中的 100 個主題。根據您對網域的了解，選擇主題的數量。可能需要一些實驗才能達到正確的數字。

第二個檔案 `doc-topics.csv` 列出與主題相關聯的文件，以及與該主題相關的文件比例。如果您指定`ONE_DOC_PER_FILE`，文件會以檔案名稱識別。如果您指定`ONE_DOC_PER_LINE`了文件，則會以檔案名稱和檔案中的 0 索引行編號來識別。例如，Amazon Comprehend 可能會針對每個檔案一個文件提交的文件集合，傳回下列項目：


| 文件 | 主題 | 比例 | 
| --- | --- | --- | 
| sample-doc1 | 000 | 0.999330137 | 
| sample-doc2 | 000 | 0.998532187 | 
| sample-doc3 | 000 | 0.998384574 | 
| ... |   |   | 
| sample-docN | 000 | 3.57E-04 | 

Amazon Comprehend 利用來自 *Lemmatization Lists Dataset by MBM* 的資訊，該資料集可在 [Open 資料庫授權 (ODbL) v1.0](https://opendatacommons.org/licenses/odbl/1-0/) 下[在此處](https://github.com/michmech/lemmatization-lists)取得。