本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
表格式資料是指可以載入到二維資料影格中的資料。在影格中,每一行代表一條記錄,每條記錄都有一個或多個資料欄。每個資料框儲存格內的值可以是數值、分類或文字資料類型。
表格式資料集先決條件
在進行分析之前,您的資料集應該已經套用了任何必要的預先處理步驟。這包含資料清理或功能工程。
您可以提供一或多個資料集。如果您提供多個資料集,請使用下列方式將資料集識別為 SageMaker Clarify 處理任務。
-
使用ProcessingInput具名或
dataset
分析組態dataset_uri
來指定主資料集。如需 的詳細資訊dataset_uri
,請參閱 中的參數清單分析組態檔案。 -
使用分析組態檔案中提供的
baseline
參數。SHAP 分析需要基準資料集。如需分析組態檔案的詳細資訊,包括範例,請參閱 分析組態檔案。
下表列出支援的資料格式、其副檔名和MIME類型。
資料格式 | 副檔名 | MIME 類型 |
---|---|---|
CSV |
csv |
|
JSON 行 |
JSOL |
|
JSON |
json |
|
Parquet |
parquet |
“application/x-parquet” |
下列各節以 CSV、 JSON Lines 和 Apache Parquet 格式顯示範例表格式資料集。
SageMaker Clarify 處理任務旨在載入 csv.excel \n
和 \r
。
為了相容性,提供給 SageMaker Clarify 處理任務的所有CSV資料檔案都必須編碼為 UTF-8。
如果您的資料集不包含標題列,請執行下列作業:
-
將分析組態標籤設定為索引
0
。這代表首欄是 Ground Truth 標籤。 -
如果參數
headers
已設定,請將label
設定為標示欄標題,以指示標籤欄的位置。所有其他資料欄都被設定為功能。以下是不包含標題列的資料集範例。
1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...
如果您的資料包含標題列,請將參數 label
設定為 index 0
。若要指示標籤欄的位置,請使用 Ground Truth 標籤標題Label
。所有其他資料欄都被設定為功能。
以下為包含標題列的資料集範例。
Label,Rating,A12,A13,Comments
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...
JSON 是彈性格式,可代表包含任何複雜程度的結構化資料。的 SageMaker Clarify 支援JSON不限於任何特定格式,因此相較於 CSV或 JSON行格式的資料集,允許更靈活的資料格式。本指南示範如何設定JSON格式的表格式資料的分析組態。
注意
為了確保相容性,提供給 SageMaker Clarify 處理任務的所有JSON資料檔案都必須編碼為 UTF-8。
以下是包含最上層鍵、功能清單和標籤之記錄的範例輸入資料。
[
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1},
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0},
...
]
上一個輸入範例資料集的範例組態分析應該設定下列參數:
-
label
參數應使用 JMESPath運算式 [*].label
來擷取資料集中每個記錄的地面實況標籤。JMESPath 表達式應產生標籤清單,其中 ith 標籤對應 ith 記錄。 -
features
參數應使用 JMESPath運算式[*].features
來擷取資料集中每個記錄的一系列功能。JMESPath 表達式應該會產生 2D 陣列或矩陣,其中第 ith 列包含與第 ith 記錄對應的特徵值。以下是包含最上層索引鍵和巢狀索引鍵的記錄的範例輸入資料,其中包含每個記錄的功能和標籤清單。
{
"data": [
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}},
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
]
}
上一個輸入範例資料集的範例組態分析應該設定下列參數:
-
label
參數使用 JMESPath表達式 data[*].label
來擷取資料集中每個記錄的地面實況標籤。JMESPath 表達式應該會產生標籤清單,其中 ith 標籤是用於 ith 記錄。 -
features
參數會使用 JMESPath運算式data[*].features
來擷取 資料集中每個記錄的功能陣列。JMESPath 表達式應該會產生 2D 陣列或矩陣,其中第 ith 列包含第 ith 記錄的特徵值。
JSON 行是代表結構化資料的文字格式,其中每行都是有效的JSON物件。目前 SageMaker Clarify 處理任務僅支援 SageMaker 密集格式JSON行。為了符合所需的格式,記錄的所有功能都應以單一JSON陣列列出。如需JSON行的詳細資訊,請參閱 JSONLINES 請求格式。
注意
提供給 SageMaker Clarify 處理任務的所有JSON行資料檔案都必須在 UTF-8 中編碼,以確保相容性。
以下是如何為包含頂層鍵和元素清單的記錄設定分析組態的範例。
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}
...
先前的資料集範例組態分析應該如下設定參數:
-
若要指示地面實況標籤的位置, 參數
label
應設定為JMESPath表達式label
。 -
若要指示功能陣列的位置, 參數
features
應設定為JMESPath表達式features
。
以下是如何為包含頂層鍵和包含元素清單的巢狀鍵的記錄設定分析組態的範例。
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}
{"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
...
先前的資料集範例組態分析應該如下設定參數:
-
參數
label
應設定為JMESPath表達式,data.label
以指示地面實況標籤的位置。 -
參數
features
應設定為JMESPath表達式data.features
,以指示特徵陣列的位置。
Parquet1
。
由於 SageMaker Clarify 處理任務不支援 Parquet 格式的端點請求或端點回應,因此您必須將分析組態參數設定為支援的格式,content_type
以指定端點請求的資料格式。如需詳細資訊,請參閱 分析組態檔案 中的 content_type
。
Parquet 資料必須具有格式化為字串的資料欄名稱。使用分析組態 label
參數設定標籤資料欄名稱名稱,以指示 Ground Truth 標籤的位置。所有其他資料欄都被設定為功能。