本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
準備資料集
在此步驟中,您會使用 SHAP(SHapley 累加 exPlanations) 程式庫將成人人口普查資料集
若要執行下列範例,請將範例程式碼貼到筆記本執行個體的儲存格中。
使用 載入成人人口普查資料集 SHAP
使用 SHAP 程式庫匯入成人人口普查資料集,如下所示:
import shap X, y = shap.datasets.adult() X_display, y_display = shap.datasets.adult(display=True) feature_names = list(X.columns) feature_names
注意
如果目前的 Jupyter 核心沒有SHAP程式庫,請執行下列conda
命令來安裝:
%conda install -c conda-forge shap
如果您使用的是 JupyterLab,您必須在安裝和更新完成後手動重新整理核心。執行下列IPython指令碼以關閉核心 (核心會自動重新啟動):
import IPython IPython.Application.instance().kernel.do_shutdown(True)
feature_names
列出物件應傳回以下功能清單:
['Age', 'Workclass', 'Education-Num', 'Marital Status', 'Occupation', 'Relationship', 'Race', 'Sex', 'Capital Gain', 'Capital Loss', 'Hours per week', 'Country']
提示
如果您是從未標記的資料開始,您可以使用 Amazon SageMaker Ground Truth 在幾分鐘內建立資料標記工作流程。要瞭解更多資料,請參閱標籤資料。
資料集概觀
執行下列指令碼,以顯示數值圖徵之資料集和長條圖的統計概觀。
display(X.describe()) hist = X.hist(bins=30, sharey=True, figsize=(20, 10))
提示
如果您想要使用需要清除和轉換的資料集,您可以使用 Amazon SageMaker Data Wrangler 簡化和簡化資料預先處理和特徵工程。若要進一步了解,請參閱使用 Amazon Data Wrangler 準備 ML SageMaker 資料。
將資料分割為訓練、測試和驗證資料集。
使用 Sklearn 將資料集拆分為訓練集和測試集。訓練集用於訓練模型,而測試集則用於評估最終訓練模型的效能。資料集會以固定隨機種子隨機排序:訓練集的 80% 資料集,而測試集則為 20%。
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1) X_train_display = X_display.loc[X_train.index]
拆分訓練集以分離出驗證集。驗證集用於評估訓練模型的效能,同時調整模型的超參數。75% 的訓練集成為最後的訓練集,其餘的則是驗證集。
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=1) X_train_display = X_display.loc[X_train.index] X_val_display = X_display.loc[X_val.index]
使用 pandas 套件,透過將數字特徵與真實標籤串連,明確對齊每個資料集。
import pandas as pd train = pd.concat([pd.Series(y_train, index=X_train.index, name='Income>50K', dtype=int), X_train], axis=1) validation = pd.concat([pd.Series(y_val, index=X_val.index, name='Income>50K', dtype=int), X_val], axis=1) test = pd.concat([pd.Series(y_test, index=X_test.index, name='Income>50K', dtype=int), X_test], axis=1)
檢查資料集是否按預期拆分和結構:
train
validation
test
將訓練和驗證資料集轉換為CSV檔案
將 train
和validation
資料架構物件轉換為CSV檔案,以符合XGBoost演算法的輸入檔案格式。
# Use 'csv' format to store the data # The first column is expected to be the output column train.to_csv('train.csv', index=False, header=False) validation.to_csv('validation.csv', index=False, header=False)
將資料集上傳到 Amazon S3
使用 SageMaker 和 Boto3,將訓練和驗證資料集上傳至預設 Amazon S3 儲存貯體。S3 儲存貯體中的資料集將由 Amazon 上的運算最佳化 SageMaker執行個體用於EC2訓練。
下列程式碼URI會設定目前 SageMaker 工作階段的預設 S3 儲存貯體、建立新demo-sagemaker-xgboost-adult-income-prediction
資料夾,並將訓練和驗證資料集上傳至data
子資料夾。
import sagemaker, boto3, os bucket = sagemaker.Session().default_bucket() prefix = "demo-sagemaker-xgboost-adult-income-prediction" boto3.Session().resource('s3').Bucket(bucket).Object( os.path.join(prefix, 'data/train.csv')).upload_file('train.csv') boto3.Session().resource('s3').Bucket(bucket).Object( os.path.join(prefix, 'data/validation.csv')).upload_file('validation.csv')
執行下列動作 AWS CLI ,檢查CSV檔案是否已成功上傳至 S3 儲存貯體。
! aws s3 ls {bucket}/{prefix}/data --recursive
輸出應該會傳回以下內容: