選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

表格式資料

焦點模式

在本頁面

表格式資料 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

表格式資料是指可以載入到二維資料影格中的資料。在影格中,每一行代表一條記錄,每條記錄都有一個或多個資料欄。每個資料框儲存格內的值可以是數值、分類或文字資料類型。

表格式資料集先決條件

在進行分析之前,您的資料集應該已經套用了任何必要的預先處理步驟。這包含資料清理或功能工程。

您可以提供一或多個資料集。如果您提供多個資料集,請使用下列方式將資料集識別為 SageMaker Clarify 處理任務。

  • 使用ProcessingInput具名或dataset分析組態dataset_uri來指定主資料集。如需 的詳細資訊dataset_uri,請參閱 中的參數清單分析組態檔案

  • 使用分析組態檔案中提供的 baseline 參數。SHAP 分析需要基準資料集。如需分析組態檔案的詳細資訊,包括範例,請參閱 分析組態檔案

下表列出支援的資料格式、其副檔名和MIME類型。

資料格式 副檔名 MIME 類型

CSV

csv

text/csv

JSON 行

JSOL

application/jsonlines

JSON

json

application/json

Parquet

parquet

“application/x-parquet”

下列各節以 CSV、 JSON Lines 和 Apache Parquet 格式顯示範例表格式資料集。

SageMaker Clarify 處理任務旨在載入 csv.excel 方言中的CSV資料檔案。但是,它具有足夠的靈活性,可以支援其他行終止程式,包含 \n\r

為了相容性,提供給 SageMaker Clarify 處理任務的所有CSV資料檔案都必須編碼為 UTF-8。

如果您的資料集不包含標題列,請執行下列作業:

  • 將分析組態標籤設定為索引 0。這代表首欄是 Ground Truth 標籤。

  • 如果參數 headers 已設定,請將 label 設定為標示欄標題,以指示標籤欄的位置。所有其他資料欄都被設定為功能。

    以下是不包含標題列的資料集範例。

    1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

如果您的資料包含標題列,請將參數 label 設定為 index 0。若要指示標籤欄的位置,請使用 Ground Truth 標籤標題Label。所有其他資料欄都被設定為功能。

以下為包含標題列的資料集範例。

Label,Rating,A12,A13,Comments 1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

SageMaker Clarify 處理任務旨在載入 csv.excel 方言中的CSV資料檔案。但是,它具有足夠的靈活性,可以支援其他行終止程式,包含 \n\r

為了相容性,提供給 SageMaker Clarify 處理任務的所有CSV資料檔案都必須編碼為 UTF-8。

如果您的資料集不包含標題列,請執行下列作業:

  • 將分析組態標籤設定為索引 0。這代表首欄是 Ground Truth 標籤。

  • 如果參數 headers 已設定,請將 label 設定為標示欄標題,以指示標籤欄的位置。所有其他資料欄都被設定為功能。

    以下是不包含標題列的資料集範例。

    1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

如果您的資料包含標題列,請將參數 label 設定為 index 0。若要指示標籤欄的位置,請使用 Ground Truth 標籤標題Label。所有其他資料欄都被設定為功能。

以下為包含標題列的資料集範例。

Label,Rating,A12,A13,Comments 1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

JSON 是彈性格式,可代表包含任何複雜程度的結構化資料。的 SageMaker Clarify 支援JSON不限於任何特定格式,因此相較於 CSV或 JSON行格式的資料集,允許更靈活的資料格式。本指南示範如何設定JSON格式的表格式資料的分析組態。

注意

為了確保相容性,提供給 SageMaker Clarify 處理任務的所有JSON資料檔案都必須編碼為 UTF-8。

以下是包含最上層鍵、功能清單和標籤之記錄的範例輸入資料。

[ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}, ... ]

上一個輸入範例資料集的範例組態分析應該設定下列參數:

  • label 參數應使用 JMESPath運算式[*].label來擷取資料集中每個記錄的地面實況標籤。JMESPath 表達式應產生標籤清單,其中 ith 標籤對應 ith 記錄。

  • features 參數應使用 JMESPath運算式[*].features來擷取資料集中每個記錄的一系列功能。JMESPath 表達式應該會產生 2D 陣列或矩陣,其中第 ith 列包含與第 ith 記錄對應的特徵值。

    以下是包含最上層索引鍵和巢狀索引鍵的記錄的範例輸入資料,其中包含每個記錄的功能和標籤清單。

{ "data": [ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ] }

上一個輸入範例資料集的範例組態分析應該設定下列參數:

  • label 參數使用 JMESPath表達式data[*].label來擷取資料集中每個記錄的地面實況標籤。JMESPath 表達式應該會產生標籤清單,其中 ith 標籤是用於 ith 記錄。

  • features 參數會使用 JMESPath運算式data[*].features來擷取 資料集中每個記錄的功能陣列。JMESPath 表達式應該會產生 2D 陣列或矩陣,其中第 ith 列包含第 ith 記錄的特徵值。

JSON 是彈性格式,可代表包含任何複雜程度的結構化資料。的 SageMaker Clarify 支援JSON不限於任何特定格式,因此相較於 CSV或 JSON行格式的資料集,允許更靈活的資料格式。本指南示範如何設定JSON格式的表格式資料的分析組態。

注意

為了確保相容性,提供給 SageMaker Clarify 處理任務的所有JSON資料檔案都必須編碼為 UTF-8。

以下是包含最上層鍵、功能清單和標籤之記錄的範例輸入資料。

[ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}, ... ]

上一個輸入範例資料集的範例組態分析應該設定下列參數:

  • label 參數應使用 JMESPath運算式[*].label來擷取資料集中每個記錄的地面實況標籤。JMESPath 表達式應產生標籤清單,其中 ith 標籤對應 ith 記錄。

  • features 參數應使用 JMESPath運算式[*].features來擷取資料集中每個記錄的一系列功能。JMESPath 表達式應該會產生 2D 陣列或矩陣,其中第 ith 列包含與第 ith 記錄對應的特徵值。

    以下是包含最上層索引鍵和巢狀索引鍵的記錄的範例輸入資料,其中包含每個記錄的功能和標籤清單。

{ "data": [ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ] }

上一個輸入範例資料集的範例組態分析應該設定下列參數:

  • label 參數使用 JMESPath表達式data[*].label來擷取資料集中每個記錄的地面實況標籤。JMESPath 表達式應該會產生標籤清單,其中 ith 標籤是用於 ith 記錄。

  • features 參數會使用 JMESPath運算式data[*].features來擷取 資料集中每個記錄的功能陣列。JMESPath 表達式應該會產生 2D 陣列或矩陣,其中第 ith 列包含第 ith 記錄的特徵值。

JSON 行是代表結構化資料的文字格式,其中每行都是有效的JSON物件。目前 SageMaker Clarify 處理任務僅支援 SageMaker 密集格式JSON行。為了符合所需的格式,記錄的所有功能都應以單一JSON陣列列出。如需JSON行的詳細資訊,請參閱 JSONLINES 請求格式

注意

提供給 SageMaker Clarify 處理任務的所有JSON行資料檔案都必須在 UTF-8 中編碼,以確保相容性。

以下是如何為包含頂層鍵和元素清單的記錄設定分析組態的範例。

{"features":[1,5,2.8,2.538,"This is a good product"],"label":1} {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0} ...

先前的資料集範例組態分析應該如下設定參數:

  • 若要指示地面實況標籤的位置, 參數label應設定為JMESPath表達式 label

  • 若要指示功能陣列的位置, 參數features應設定為JMESPath表達式 features

以下是如何為包含頂層鍵和包含元素清單巢狀鍵的記錄設定分析組態的範例。

{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}} {"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ...

先前的資料集範例組態分析應該如下設定參數:

  • 參數label應設定為JMESPath表達式,data.label以指示地面實況標籤的位置。

  • 參數features應設定為JMESPath表達式data.features,以指示特徵陣列的位置。

JSON 行是代表結構化資料的文字格式,其中每行都是有效的JSON物件。目前 SageMaker Clarify 處理任務僅支援 SageMaker 密集格式JSON行。為了符合所需的格式,記錄的所有功能都應以單一JSON陣列列出。如需JSON行的詳細資訊,請參閱 JSONLINES 請求格式

注意

提供給 SageMaker Clarify 處理任務的所有JSON行資料檔案都必須在 UTF-8 中編碼,以確保相容性。

以下是如何為包含頂層鍵和元素清單的記錄設定分析組態的範例。

{"features":[1,5,2.8,2.538,"This is a good product"],"label":1} {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0} ...

先前的資料集範例組態分析應該如下設定參數:

  • 若要指示地面實況標籤的位置, 參數label應設定為JMESPath表達式 label

  • 若要指示功能陣列的位置, 參數features應設定為JMESPath表達式 features

以下是如何為包含頂層鍵和包含元素清單巢狀鍵的記錄設定分析組態的範例。

{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}} {"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ...

先前的資料集範例組態分析應該如下設定參數:

  • 參數label應設定為JMESPath表達式,data.label以指示地面實況標籤的位置。

  • 參數features應設定為JMESPath表達式data.features,以指示特徵陣列的位置。

Parquet是一種面向資料欄的二進位資料格式。目前,只有在處理執行個體計數為 時, SageMaker Clarify 處理任務才支援載入 Parquet 資料檔案1

由於 SageMaker Clarify 處理任務不支援 Parquet 格式的端點請求或端點回應,因此您必須將分析組態參數設定為支援的格式,content_type以指定端點請求的資料格式。如需詳細資訊,請參閱 分析組態檔案 中的 content_type

Parquet 資料必須具有格式化為字串的資料欄名稱。使用分析組態 label 參數設定標籤資料欄名稱名稱,以指示 Ground Truth 標籤的位置。所有其他資料欄都被設定為功能。

Parquet是一種面向資料欄的二進位資料格式。目前,只有在處理執行個體計數為 時, SageMaker Clarify 處理任務才支援載入 Parquet 資料檔案1

由於 SageMaker Clarify 處理任務不支援 Parquet 格式的端點請求或端點回應,因此您必須將分析組態參數設定為支援的格式,content_type以指定端點請求的資料格式。如需詳細資訊,請參閱 分析組態檔案 中的 content_type

Parquet 資料必須具有格式化為字串的資料欄名稱。使用分析組態 label 參數設定標籤資料欄名稱名稱,以指示 Ground Truth 標籤的位置。所有其他資料欄都被設定為功能。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。