

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 查询 HealthOmics 分析数据
<a name="analytics-query-data"></a>

**重要**  
AWS HealthOmics 变体存储和注释存储不再向新客户开放。现有客户可以继续正常使用该服务。有关更多信息，请参阅 [AWS HealthOmics 变体存储和注释存储库可用性变更](variant-store-availability-change.md)。

您可以使用亚马逊 Athena 或 Amazon AWS Lake Formation EMR 对您的多属性商店进行查询。在运行任何查询之前，请完成 Lake Formation 和 Amazon Athena 的设置过程（如以下各节所述）。

有关 Amazon EMR 的信息，请参阅[教程：亚马逊 EMR 入门](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html)

对于 2024 年 9 月 26 日之后创建的多属性商店，按样本 ID 对商店进行 HealthOmics 分区。这种分区意味着 HealthOmics 使用样本 ID 来优化变体信息的存储。使用示例信息作为筛选器的查询将更快地返回结果，因为查询扫描的数据较少。

HealthOmics 使用示例 IDs 作为分区文件名。在采集数据之前，请检查样本 ID 是否包含任何 PHI 数据。如果是，请在采集数据之前更改样本 ID。有关样本中应包含和不包含哪些内容的更多信息 IDs，请参阅 AWS [HIPAA 合规性](https://aws.amazon.com/compliance/hipaa-compliance)网页上的指南。

**Topics**
+ [配置 Lake Formation 以供使用 HealthOmics](setting-up-lf.md)
+ [配置 Athena 以进行查询](analytics-setting-up-athena.md)
+ [在 HealthOmics 变体商店上运行查询](analytics-run-queries.md)

# 配置 Lake Formation 以供使用 HealthOmics
<a name="setting-up-lf"></a>

**重要**  
AWS HealthOmics 变体存储和注释存储不再向新客户开放。现有客户可以继续正常使用该服务。有关更多信息，请参阅 [AWS HealthOmics 变体存储和注释存储库可用性变更](variant-store-availability-change.md)。

在使用 Lake Formation 管理 HealthOmics 数据存储之前，请执行以下 Lake Formation 配置过程。

**Topics**
+ [创建或验证 Lake Formation 管理员](#create-lf-admins)
+ [使用 Lake Formation 控制台创建资源链接](#create-resource-links)
+ [为 AWS RAM 资源共享配置权限](#configure-lf-permissions)

## 创建或验证 Lake Formation 管理员
<a name="create-lf-admins"></a>

在 Lake Formation 中创建数据湖之前，需要先定义一个或多个管理员。

管理员是有权创建资源链接的用户和角色。您可以为每个区域的每个账户设置数据湖管理员。

**在 Lake Formation 控制台中创建管理员用户**

1. 打开 AWS Lake Formation 控制台：[Lake Formation 控制台](https://console.aws.amazon.com//lakeformation)

1. 如果控制台显示 “**欢迎来到 Lake Formation**” 面板，请选择 “**开始**”。

   Lake Formation 会将您添加到**数据湖管理员**表中。

1. 否则，请从左侧菜单中选择 “**管理角色和任务**”。

1. 根据需要添加任何其他管理员。

## 使用 Lake Formation 控制台创建资源链接
<a name="create-resource-links"></a>

要创建用户可以查询的共享资源，必须禁用默认访问控制。要了解有关禁用默认访问控制的更多信息，请参阅 Lake Formation 文档中的[更改数据湖的默认安全设置](https://docs.aws.amazon.com/lake-formation/latest/dg/change-settings.html)。您可以单独创建资源链接，也可以成组创建资源链接，这样您就可以访问 Amazon Athena AWS 或其他服务（例如 Amazon EMR）中的数据。

**在 AWS Lake Formation 控制台中创建资源链接并与 HealthOmics Analytics 用户共享**

1. 打开 AWS Lake Formation 控制台：[Lake Formation 控制台](https://console.aws.amazon.com//lakeformation)

1. 在主导航栏中，选择**数据库**。

1. 在 “**数据库**” 表中，选择所需的数据库。

1. 从 “**创建**” 菜单中选择 “**资源链接**”。

1. 输入**资源链接名称**。如果您计划从 Athena 访问数据库，请仅使用小写字母（最多 256 个字符）输入名称。

1. 选择**创建**。

1. 新的资源链接现在列在 “**数据库**” 下。

### 使用 Lake Formation 控制台授予对共享资源的访问权限
<a name="create-resource-links"></a>

Lake Formation 数据库管理员可以使用以下步骤授予对共享资源的访问权限。

1. 打开 AWS Lake Formation 控制台：[https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com//lakeformation)

1. 在主导航栏中，选择**数据库**。

1. 在 “**数据库**” 页面上，选择您之前创建的资源链接。

1. 从 “**操作**” 菜单中选择 “**授予目标**”。

1. 在**委托人下的**授予数据权限**页面上，**选择 **IAM 用户或角色**。

1. 从 **IAM 用户或角色**下拉菜单中，找到您要向其授予访问权限的用户。

1. 接下来，在 **LF-Tags 或目录资源**卡下，选择**命名数据目录资源选项**。

1. 从 “**表格可选**” 下拉菜单中，选择 “**所有表**” 或之前创建的表。

1. 在 “**表权限”** 卡片中，在 “**表权限**” 下选择 “**描述**并**选择”**。

1. 接下来，选择**授权**。

要查看 Lake Formation **权限，请从主导航窗格中选择数据湖权限**。该表显示了可用的数据库和资源链接。

## 为 AWS RAM 资源共享配置权限
<a name="configure-lf-permissions"></a>

在 AWS Lake Formation 控制台中，通过在主导航栏中选择**数据湖权限**来查看权限。在**数据权限**页面上，您可以查看一个表，其中显示了**资源类型**、**数据库**以及**ARN**与 **RAM 资源共享下的共享资源**相关的资源。如果您需要接受 AWS Resource Access Manager (AWS RAM) 资源共享，则会在控制台中 AWS Lake Formation 通知您。

HealthOmics 可以在商店创建期间隐式接受 AWS RAM 资源共享。要接受 AWS RAM 资源共享，调用或 `CreateAnnotationStore` API 操作的 IAM 用户`CreateVariantStore`或角色必须允许以下操作：
+ `ram:GetResourceShareInvitations`-此操作 HealthOmics 允许查找邀请。
+ `ram:AcceptResourceShareInvitation`-此操作 HealthOmics 允许使用 FAS 令牌接受邀请。

如果没有这些权限，您将在商店创建过程中看到授权错误。

以下是包含这些操作的策略示例。将此策略添加到接受 AWS RAM 资源共享的 IAM 用户或角色。

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "omics:*",
        "ram:AcceptResourceShareInvitation",
        "ram:GetResourceShareInvitations"
      ],
      "Resource": "*"
    }
  ]
}
```

------

# 配置 Athena 以进行查询
<a name="analytics-setting-up-athena"></a>

**重要**  
AWS HealthOmics 变体存储和注释存储不再向新客户开放。现有客户可以继续正常使用该服务。有关更多信息，请参阅 [AWS HealthOmics 变体存储和注释存储库可用性变更](variant-store-availability-change.md)。

您可以使用 Athena 来查询变体和注释。在运行任何查询之前，请执行以下设置任务：

**Topics**
+ [使用 Athena 控制台配置查询结果位置](#configure-athena-query)
+ [使用 Athena 引擎 v3 配置工作组](#configure-athena-workgroup)

## 使用 Athena 控制台配置查询结果位置
<a name="configure-athena-query"></a>

要配置查询结果位置，请按照以下步骤操作。

1. [打开 Athena 主机：Athena 主机](https://console.aws.amazon.com//athena)

1. 在主导航栏中，选择**查询编辑器**。

1. 在查询编辑器中，选择 “**设置**” 选项卡，然后选择 “**管理**”。

1. 输入位置的 S3 前缀以保存查询结果。

## 使用 Athena 引擎 v3 配置工作组
<a name="configure-athena-workgroup"></a>

要配置工作组，请执行以下步骤。

1. [打开 Athena 主机：Athena 主机](https://console.aws.amazon.com//athena)

1. 在主导航栏中，选择**工作组**，然后选择**创建工作**组。

1. 输入工作组的名称。

1. 选择 **Athena** SQL 作为引擎类型。

1. 在 “**升级查询引擎**” 下，选择 “**手动**”。

1. 在 “**查询版本引擎**” 下，选择 **Athena** 版本 3。

1. 选择 **Create workgroup (创建工作组)**。

# 在 HealthOmics 变体商店上运行查询
<a name="analytics-run-queries"></a>

**重要**  
AWS HealthOmics 变体存储和注释存储不再向新客户开放。现有客户可以继续正常使用该服务。有关更多信息，请参阅 [AWS HealthOmics 变体存储和注释存储库可用性变更](variant-store-availability-change.md)。

您可以使用 Amazon Athena 对您的多属性商店进行查询。请注意，变体和注释存储中的基因组坐标表示为从零开始、半封闭的半开间隔。

## 使用 Athena 控制台运行简单查询
<a name="run-queries-athena-simple"></a>

以下示例说明如何运行简单查询。

1. [打开 Athena 查询编辑器：Athena 查询编辑器](https://console.aws.amazon.com//athena)

1. 在 “**工作组**” 下，选择您在安装过程中创建的工作组。

1. 验证**数据源**是否为**AwsDataCatalog**。

1. 对于**数据库**，选择您在 Lake Formation 设置期间创建的数据库资源链接。

1. 将以下查询复制到**查询编辑器**的 Qu **ery 1** 选项卡下：

   ```
   SELECT * from omicsvariants limit 10
   ```

1. 选择**运行**以运行查询。控制台使用表格的前 10 行填充结果**omicsvariants**表。

## 使用 Athena 控制台运行复杂查询
<a name="run-queries-athena-complex"></a>

以下示例说明如何运行复杂查询。要运行此查询，请导`ClinVar`入注释存储库。

**运行复杂查询**

1. [打开 Athena 查询编辑器：Athena 查询编辑器](https://console.aws.amazon.com//athena)

1. 在 “**工作组**” 下，选择您在安装过程中创建的工作组。

1. 验证**数据源**是否为**AwsDataCatalog**。

1. 对于**数据库**，选择您在 Lake Formation 设置期间创建的数据库资源链接。

1. 选择右**\$1**上角的，创建一个名为 Query **2 的新查询**选项卡。

1. 将以下查询复制到 Query **2 选项卡下的查询****编辑器**中：

   ```
   SELECT variants.sampleid,
     variants.contigname,
     variants.start,
     variants."end",
     variants.referenceallele,
     variants.alternatealleles,
     variants.attributes AS variant_attributes,
     clinvar.attributes AS clinvar_attributes  
   FROM omicsvariants as variants 
   INNER JOIN omicsannotations as clinvar ON 
     variants.contigname=CONCAT('chr',clinvar.contigname) 
     AND variants.start=clinvar.start 
     AND variants."end"=clinvar."end" 
     AND variants.referenceallele=clinvar.referenceallele 
     AND variants.alternatealleles=clinvar.alternatealleles 
   WHERE clinvar.attributes['CLNSIG']='Likely_pathogenic'
   ```

1. 选择 **Run** 开始运行查询。