主題建模 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

主題建模

您可以使用 Amazon Comprehend 來檢查文件集合的內容,以判斷常見的主題。例如,您可以為 Amazon Comprehend 提供新聞文章的集合,它將確定主題,例如體育,政治或娛樂。文檔中的文本不需要註釋。

Amazon Comprehend 使用潛在的狄利克雷分配為基礎的學習模型來判斷一組文件中的主題。它檢查每個文檔以確定單詞的上下文和含義。在整個文件設定中,經常屬於相同前後關聯的字組成了一個主題。

根據該主題在文件中的普遍程度,以及主題與單字的親和程度,單字與文件中的主題相關聯。根據特定文檔中的主題分佈,同一個單詞可以與不同文檔中的不同主題相關聯。

例如,主要談論運動的文章中的「葡萄糖」一詞可以指定給「運動」主題,而有關「醫學」的文章中的相同單詞將被指定給「醫學」主題。

與主題相關聯的每個字都會有一個權重,指出該字詞有多少幫助定義主題。寬度是指出單字在整個文件集中出現在主題中與主題中其他字詞相比的次數。

為了獲得最準確的結果,您應該向 Amazon Comprehend 提供可以使用的最大可能語料庫。為了獲得最佳結果:

  • 您應該在每個主題建模工作中使用至少 1,000 個文件。

  • 每個文件應至少有 3 個句子長。

  • 如果一個文檔主要由數字數據組成,你應該從語料庫中刪除它。

主題建模是一個非同步處理程序。您可以使用操作將文件清單從 Amazon S3 儲存貯體提交給 Amazon Comprehend。StartTopicsDetectionJob回應會傳送至 Amazon S3 儲存貯體。您可以配置輸入和輸出存儲桶。取得您使用作業提交的主題模型工作清單,並檢視使用該ListTopicsDetectionJobs作業之工DescribeTopicsDetectionJob作的相關資訊。傳遞至 Amazon S3 儲存貯體的內容可能包含客戶內容。如需移除敏感資料的詳細資訊,請參閱如何清空 S3 儲存貯體?如何刪除 S3 儲存貯體?

文件必須是 UTF-8 格式的文字檔案。您可以通過兩種方式提交文件。下表顯示選項。

格式 描述
每個檔案一個文件 每個檔案都包含一個輸入文件。這是最適合大型文檔的集合。
每行一個文件

輸入為單一檔案。檔案中的每一行都被視為一個文件。這最適合短文件,例如社交媒體張貼。

每行必須以換行符(LF,\ n),回車符(CR,\ r)或兩者結束(CRLF,\ r\ n)。無法使用 Unicode 行分隔符號 (u+2028) 來結束一行。

如需詳細資訊,請參閱資InputDataConfig料類型。

Amazon Comprehend 處理您的文件收集之後,會傳回一個包含兩個檔案的壓縮存檔,topic-terms.csv以及。doc-topics.csv若要取得有關輸出檔案的更多資訊,請參閱OutputDataConfig

第一個輸出檔案是集合中主題的清單。topic-terms.csv根據預設,每個主題清單會根據主題的重量包含最上層的術語。例如,如果您為 Amazon Comprehend 提供一系列報紙文章,它可能會傳回下列內容來描述集合中的前兩個主題:

主題 術語 Weight
000 球隊 0.118533
000 game 0.106072
000 player 0.031625
000 季節 0.023633
000 播放 0.021118
000 0.024454
000 教練 0.016012
000 遊戲 0.016191
000 足球 0.015049
000 組織指揮人 0.014239
001 0.205236
001 食品 0.040686
001 分鐘 0.036062
001 add 0.029697
001 湯匙 0.028789
001 石油 0.021254
001 胡椒 0.022205
001 茶匙 0.020040
001 0.016588
001 0.015101

權重表示給定主題中單詞的概率分佈。由於 Amazon Comprehend 只返回每個主題的前 10 個單詞的權重不會總和為 1.0。在少數情況下,主題中少於 10 個單詞,權重將總和為 1.0。

這些單詞通過查看所有主題中的出現情況按其歧視力進行排序。通常,這與它們的重量相同,但在某些情況下,例如表中的單詞「玩」和「碼」,這會導致與重量不相同的順序。

您可以指定要傳回的主題數目。例如,如果您要求 Amazon Comprehend 返回 25 個主題,它會返回集合中 25 個最突出的主題。Amazon Comprehend 多可以檢測到一個集合中 100 個主題。根據您對域的了解選擇主題的數量。可能需要一些實驗才能到達正確的號碼。

第二個檔案會列出與主題相關聯的文件doc-topics.csv,以及與主題有關的文件比例。如果您指ONE_DOC_PER_FILE定了文檔由文件名標識。如果您指ONE_DOC_PER_LINE定了文檔,則由文件名和文件中的 0 索引行號標識。例如,針對以每個檔案一份文件提交的文件集合,Amazon Comprehend 可能會傳回以下內容:

文件 主題 比例
示例文檔 1 000 0.999330137
示例文檔 2 000 0.998532187
示例文檔 3 000 0.998384574
...    
示例文檔 000 3.57E-04

馬 Amazon Comprehend 利用由 MBM,這是根據開放數據庫許可證(ODBL)V1.0 在這裡提供的列表數據的信息。