尋找增量改進相符項目 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

尋找增量改進相符項目

尋找相符項目功能可讓您識別資料集中重複或相符的記錄,即使記錄沒有通用的唯一識別符,也沒有欄位完全相符。尋找相符項目的最初版本轉換單一資料集中識別的相符記錄。將新資料新增至資料集時,您必須將其與現有的乾淨資料集合併,然後針對完整的合併資料集重新執行比對。

增量改進比對功能可讓您更輕鬆地比對現有相符的資料集與增量記錄。假設您想要將潛在客戶資料與現有客戶資料集進行比對。增量改進比對功能可讓您靈活地透過將結果合併至單一資料庫或資料表,將數十萬個新潛在客戶與現有的潛在客戶和客戶資料庫進行比對。藉由僅在新的和現有的資料集之間進行比對,尋找增量改進相符項目最佳化功能可縮短運算時間,同時降低成本。

增量改進比對的用法與尋找相符項目類似,如 教學課程:使用 AWS Glue 建立機器學習轉換 中所述。本主題僅識別與增量改進比對的差異。

如需詳細資訊,請參閱部落格貼文增量改進資料比對

執行增量改進比對任務

對於下列程序,假設以下情況:

  • 您已將現有的資料集網路爬取至資料表 first_recordsfirst_records 資料集必須是相符的資料集,或相符任務的輸出。

  • 您已使用 AWS Glue 2.0 版建立並訓練「尋找相符項目」轉換。這是唯一支援增量改進相符項目的 AWS Glue 版本。

  • 使用的 ETL 語言是 Scala。請注意,Python 也受到支援。

  • 已經產生的模型稱為 demo-xform

  1. 將增量改進資料集抓取至 second_records 資料表中。

  2. 在 AWS Glue 主控台上,選擇導覽窗格中的 Jobs (任務)

  3. 選擇 Add job (新增任務),並遵循精靈中的步驟,使用所產生的指令碼來建立 ETL Spark 任務。為您的轉換選擇下列屬性值:

    1. 對於 Name (名稱),請選擇 demo-etl

    2. 對於 IAM role (IAM 角色),請選擇具備 Amazon S3 來源資料、標記檔案及 AWS Glue API 操作許可的 IAM 角色。

    3. 針對 ETL language (ETL 語言),選擇 Scala

    4. 對於 Script file name (指令碼檔案名稱),請選擇 demo-etl。這是 Scala 指令碼的檔案名稱。

    5. 對於 Data source (資料來源),請選擇 first_records。您選擇的資料來源必須符合機器學習轉換資料來源結構描述。

    6. 針對 Transform type (轉換類型),請選擇 Find matching records (尋找相符記錄) 來使用機器學習轉換建立任務。

    7. 選取增量改進比對選項,並針對 Data Source (資料來源) 選取名為 second_records 的資料表。

    8. 對於 Transform (轉換),請選擇任務使用的機器學習轉換 demo-xform

    9. 選擇 Create tables in your data target (在您的資料目標中建立資料表) 或 Use tables in the data catalog and update your data target (使用 Data Catalog 中的資料表並更新您的資料目標)。

  4. 選擇 Save job and edit script (儲存任務並編輯指令碼) 來顯示指令碼編輯器頁面。

  5. 選擇 Run job (執行任務) 來啟動任務執行。