

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 查詢 HealthOmics 分析資料
<a name="analytics-query-data"></a>

**重要**  
AWS HealthOmics 變體存放區和註釋存放區不再開放給新客戶。現有客戶可以繼續正常使用該服務。如需詳細資訊，請參閱[AWS HealthOmics 變體存放區和註釋存放區可用性變更](variant-store-availability-change.md)。

您可以使用 AWS Lake Formation 和 Amazon Athena 或 Amazon EMR 在變體存放區上執行查詢。執行任何查詢之前，請先完成 Lake Formation 和 Amazon Athena 的設定程序 （如以下章節所述）。

如需 Amazon EMR 的相關資訊，請參閱[教學課程：Amazon EMR 入門](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html)

對於 2024 年 9 月 26 日之後建立的變體存放區，HealthOmics 會依範例 ID 分割存放區。此分割表示 HealthOmics 使用範例 ID 來最佳化變體資訊的儲存。使用範例資訊做為篩選條件的查詢會更快傳回結果，因為查詢掃描的資料較少。

HealthOmics 使用範例 IDs做為分割區檔案名稱。擷取資料之前，請檢查範例 ID 是否包含任何 PHI 資料。如果是這樣，請在擷取資料之前變更範例 ID。如需在範例 IDs中包含和不包含哪些內容的詳細資訊，請參閱 AWS [HIPAA 合規](https://aws.amazon.com/compliance/hipaa-compliance)網頁上的指導。

**Topics**
+ [設定 Lake Formation 以使用 HealthOmics](setting-up-lf.md)
+ [為查詢設定 Athena](analytics-setting-up-athena.md)
+ [在 HealthOmics 變體存放區上執行查詢](analytics-run-queries.md)

# 設定 Lake Formation 以使用 HealthOmics
<a name="setting-up-lf"></a>

**重要**  
AWS HealthOmics 變體存放區和註釋存放區不再開放給新客戶。現有客戶可以繼續正常使用該服務。如需詳細資訊，請參閱[AWS HealthOmics 變體存放區和註釋存放區可用性變更](variant-store-availability-change.md)。

在您使用 Lake Formation 管理 HealthOmics 資料存放區之前，請執行下列 Lake Formation 組態程序。

**Topics**
+ [建立或驗證 Lake Formation 管理員](#create-lf-admins)
+ [使用 Lake Formation 主控台建立資源連結](#create-resource-links)
+ [設定 AWS RAM 資源共享的許可](#configure-lf-permissions)

## 建立或驗證 Lake Formation 管理員
<a name="create-lf-admins"></a>

您必須先定義一或多個管理員，才能在 Lake Formation 中建立資料湖。

管理員是具有建立資源連結許可的使用者和角色。您為每個區域的每個帳戶設定資料湖管理員。

**在 Lake Formation 主控台中建立管理員使用者**

1. 開啟 AWS Lake Formation 主控台：[Lake Formation 主控台](https://console.aws.amazon.com//lakeformation)

1. 如果主控台顯示**歡迎使用 Lake Formation** 面板，請選擇**開始使用**。

   Lake Formation 會將**您新增至資料湖管理員**資料表。

1. 否則，從左側功能表中，選擇**管理角色和任務**。

1. 視需要新增任何其他管理員。

## 使用 Lake Formation 主控台建立資源連結
<a name="create-resource-links"></a>

若要建立使用者可以查詢的共用資源，必須停用預設存取控制。若要進一步了解停用預設存取控制，請參閱 Lake Formation 文件中的[變更資料湖的預設安全設定](https://docs.aws.amazon.com/lake-formation/latest/dg/change-settings.html)。您可以個別或群組建立資源連結，以便存取 Amazon Athena 或其他 AWS 服務 （例如 Amazon EMR) 中的資料。

**在 AWS Lake Formation 主控台中建立資源連結，並與 HealthOmics Analytics 使用者共用**

1. 開啟 AWS Lake Formation 主控台：[Lake Formation 主控台](https://console.aws.amazon.com//lakeformation)

1. 在主要導覽列中，選擇**資料庫**。

1. 在**資料庫**表格中，選取所需的資料庫。

1. 從**建立**功能表中，選擇**資源連結**。

1. 輸入**資源連結名稱**。如果您計劃從 Athena 存取資料庫，請使用小寫字母 （最多 256 個字元） 輸入名稱。

1. 選擇**建立**。

1. 新的資源連結現在會列在**資料庫**下。

### 使用 Lake Formation 主控台授予共用資源的存取權
<a name="create-resource-links"></a>

Lake Formation 資料庫管理員可以使用下列程序授予共用資源的存取權。

1. 開啟 AWS Lake Formation 主控台：https：//[https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com//lakeformation)

1. 在主要導覽列中，選擇**資料庫**。

1. 在**資料庫**頁面上，選取您先前建立的資源連結。

1. 從**動作**功能表中，選擇**對目標授予**。

1. 在**主體**下的**授予資料許可**頁面上，選擇 **IAM 使用者或角色**。

1. 從 **IAM 使用者或角色**下拉式功能表中，尋找您要授予存取權的使用者。

1. 接著，在 **LF 標籤或目錄資源**卡下，選取**具名資料目錄資源**選項。

1. 從**資料表選用**下拉式功能表中，選取**所有資料表**或您先前建立的資料表。

1. 在**資料表許可**卡的**資料表許可**下，選擇**描述**和**選取**。

1. 接著，選擇**授予**。

若要檢視 Lake Formation 許可，請從主要導覽窗格中選擇 **Data lake 許可**。資料表顯示可用的資料庫和資源連結。

## 設定 AWS RAM 資源共享的許可
<a name="configure-lf-permissions"></a>

在 AWS Lake Formation 主控台中，選擇**主導覽列中的資料湖許可來檢視許可**。在**資料許可**頁面上，您可以檢視顯示**資源類型**、**資料庫**，以及與 **RAM Resource Share** 下共用資源**ARN**相關的資料表。如果您需要接受 AWS Resource Access Manager (AWS RAM) 資源共享， 會在 主控台中 AWS Lake Formation 通知您。

HealthOmics 可以在建立儲存期間隱含接受 AWS RAM 資源共用。若要接受 AWS RAM 資源共用，呼叫 或 `CreateAnnotationStore` API 操作的 IAM 使用者`CreateVariantStore`或角色必須允許下列動作：
+ `ram:GetResourceShareInvitations` - 此動作可讓 HealthOmics 尋找邀請。
+ `ram:AcceptResourceShareInvitation` - 此動作允許 HealthOmics 使用 FAS 字符接受邀請。

如果沒有這些許可，您會在建立存放區期間看到授權錯誤。

以下是包含這些動作的範例政策。將此政策新增至接受 AWS RAM 資源共用的 IAM 使用者或角色。

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "omics:*",
        "ram:AcceptResourceShareInvitation",
        "ram:GetResourceShareInvitations"
      ],
      "Resource": "*"
    }
  ]
}
```

------

# 為查詢設定 Athena
<a name="analytics-setting-up-athena"></a>

**重要**  
AWS HealthOmics 變體存放區和註釋存放區不再開放給新客戶。現有客戶可以繼續正常使用該服務。如需詳細資訊，請參閱[AWS HealthOmics 變體存放區和註釋存放區可用性變更](variant-store-availability-change.md)。

您可以使用 Athena 來查詢變體和註釋。執行任何查詢之前，請執行下列設定任務：

**Topics**
+ [使用 Athena 主控台設定查詢結果位置](#configure-athena-query)
+ [使用 Athena 引擎 v3 設定工作群組](#configure-athena-workgroup)

## 使用 Athena 主控台設定查詢結果位置
<a name="configure-athena-query"></a>

若要設定查詢結果位置，請遵循下列步驟。

1. 開啟 Athena 主控台：[Athena 主控台](https://console.aws.amazon.com//athena)

1. 在主要導覽列中，選擇**查詢編輯器**。

1. 在查詢編輯器中，選擇**設定**索引標籤，然後選擇**管理**。

1. 輸入位置的 S3 字首以儲存查詢結果。

## 使用 Athena 引擎 v3 設定工作群組
<a name="configure-athena-workgroup"></a>

若要設定工作群組，請依照下列步驟進行。

1. 開啟 Athena 主控台：[Athena 主控台](https://console.aws.amazon.com//athena)

1. 在主要導覽列中，選擇**工作群組**，然後選擇**建立工作群組**。

1. 輸入工作群組的名稱。

1. 選取 **Athena SQL** 做為引擎類型。

1. 在**升級查詢引擎**下，選取**手動**。

1. 在**查詢版本引擎**下，選取 **Athena 第 3 版**。

1. 選擇**建立工作群組**。

# 在 HealthOmics 變體存放區上執行查詢
<a name="analytics-run-queries"></a>

**重要**  
AWS HealthOmics 變體存放區和註釋存放區不再開放給新客戶。現有客戶可以繼續正常使用該服務。如需詳細資訊，請參閱[AWS HealthOmics 變體存放區和註釋存放區可用性變更](variant-store-availability-change.md)。

您可以使用 Amazon Athena 在變體存放區上執行查詢。請注意，變體和註釋存放區中的基因體座標表示為以零為基礎、半封閉的半開間隔。

## 使用 Athena 主控台執行簡單的查詢
<a name="run-queries-athena-simple"></a>

下列範例示範如何執行簡單的查詢。

1. 開啟 Athena 查詢編輯器：[Athena 查詢編輯器](https://console.aws.amazon.com//athena)

1. 在**工作群組**下，選取您在設定期間建立的工作群組。

1. 確認**資料來源**是 **AwsDataCatalog**。

1. 針對**資料庫**，選取您在 Lake Formation 設定期間建立的資料庫資源連結。

1. 將下列查詢複製到查詢 ******1 索引標籤下的查詢編輯器**：

   ```
   SELECT * from omicsvariants limit 10
   ```

1. 選擇**執行**以執行查詢。主控台會將資料表的前 10 列填入結果**omicsvariants**資料表。

## 使用 Athena 主控台執行複雜的查詢
<a name="run-queries-athena-complex"></a>

下列範例示範如何執行複雜的查詢。若要執行此查詢，`ClinVar`請將 匯入註釋存放區。

**執行複雜的查詢**

1. 開啟 Athena 查詢編輯器：[Athena 查詢編輯器](https://console.aws.amazon.com//athena)

1. 在**工作群組**下，選取您在設定期間建立的工作群組。

1. 確認**資料來源**是 **AwsDataCatalog**。

1. 針對**資料庫**，選取您在 Lake Formation 設定期間建立的資料庫資源連結。

1. 選擇右上角**\$1**的 ，以建立新的查詢索引標籤，名為**查詢 2**。

1. 將下列查詢複製到查詢 ******2 索引標籤下的查詢編輯器**：

   ```
   SELECT variants.sampleid,
     variants.contigname,
     variants.start,
     variants."end",
     variants.referenceallele,
     variants.alternatealleles,
     variants.attributes AS variant_attributes,
     clinvar.attributes AS clinvar_attributes  
   FROM omicsvariants as variants 
   INNER JOIN omicsannotations as clinvar ON 
     variants.contigname=CONCAT('chr',clinvar.contigname) 
     AND variants.start=clinvar.start 
     AND variants."end"=clinvar."end" 
     AND variants.referenceallele=clinvar.referenceallele 
     AND variants.alternatealleles=clinvar.alternatealleles 
   WHERE clinvar.attributes['CLNSIG']='Likely_pathogenic'
   ```

1. 選擇**執行**以開始執行查詢。