

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建 HealthOmics 序列存储
<a name="create-sequence-store"></a>



HealthOmics 序列存储支持以`FASTQ`（仅限 gzip）和的未对齐格式存储基因组文件。`uBAM`它还支持`BAM`和的对齐格式`CRAM`。

导入的文件存储为读取集。您可以为读取集添加标签，并使用 IAM 策略来控制对读取集的访问权限。对齐的读取集需要参考基因组来对齐基因组序列，但对于未对齐的读取集，它是可选的。

要存储读取集，请先创建序列存储。创建序列存储时，您可以指定一个可选的 Amazon S3 存储桶作为备用位置以及存储 S3 访问日志的位置。备用位置用于存储在直接上传期间未能创建读取集的任何文件。备用位置可用于 2023 年 5 月 15 日之后创建的序列存储。您可以在创建序列存储时指定后备位置。

您最多可以指定五个读取集标签密钥。当您使用与其中一个密钥匹配的标签密钥创建或更新读取集时，读取集标签会传播到相应的 Amazon S3 对象。默认情况下，由创建的系统标签会 HealthOmics 被传播。

**Topics**
+ [使用控制台创建序列存储](#console-create-sequence-store)
+ [使用 CLI 创建序列存储](#api-create-sequence-store)
+ [更新序列存储](#update-sequence-store)
+ [更新序列存储的读取集标签](#sequence-store-manage-tags)
+ [导入基因组文件](#import-genomic-files)

## 使用控制台创建序列存储
<a name="console-create-sequence-store"></a>

**创建序列存储**

1. 打开 [HealthOmics 管理控制台](https://console.aws.amazon.com/omics/)。

1.  如果需要，请打开左侧导航窗格 (►)。选择**序列存储**。

1. 在 “**创建序列存储**” 页面上，提供以下信息
   + **序列存储名称**-此存储的唯一名称。
   + **描述**（可选）-此序列存储的描述。

1. 对于 **S3 中的备用位置**，请指定 Amazon S3 位置。 HealthOmics 使用备用位置来存储在直接上传期间未能创建读取集的所有文件。您需要向该 HealthOmics 服务授予对 Amazon S3 备用位置的写入权限。有关策略示例，请参阅 [配置备用位置](synchronous-uploads.md#synchronous-uploads-fallback)。

   备用位置不适用于 2023 年 5 月 16 日之前创建的序列存储库。

1. （可选）对于用于 **S3 传播的读取集标签键**，您最多可以输入五个读取集密钥，从读取集传播到底层 S3 对象。通过将标签从读取集传播到 S3 对象，您可以根据标签授予 S3 访问权限，允许 and/or 最终用户通过 Amazon S3 getObjectTagging API 操作查看传播的标签。

   1. 在文本框中输入一个键值。控制台会创建一个新的文本框来添加下一个密钥。

   1. （可选）选择 “**移除**” 以删除所有密钥。

1. 在 “**数据加密**” 下，选择是否要让数据加密由客户管理的 CMK 拥有和管理， AWS 还是要使用客户托管的 CMK。

1. （可选）在 “**S3 数据访问**” 下，选择是否创建新的角色和策略以通过 Amazon S3 访问序列存储。

1. （可选）对于 **S3 访问日志**，请选择`Enabled`是否希望 Amazon S3 收集访问日志记录。

   对于 **S3 中的访问日志位置**，请指定用于存储日志的 Amazon S3 位置。只有启用了 S3 访问日志记录后，此字段才可见。

1. **标签**（可选）-为此序列存储提供最多 50 个标签。这些标签与读取集 import/tag 更新期间设置的读取集标签是分开的

创建商店后，就可以开始了[导入基因组文件](#import-genomic-files)。

## 使用 CLI 创建序列存储
<a name="api-create-sequence-store"></a>

在以下示例中，`sequence store name`使用您为序列存储选择的名称替换。

```
aws omics create-sequence-store --name sequence store name --fallback-location "s3://amzn-s3-demo-bucket"  
```

您将收到以下 JSON 格式的响应，其中包括您新创建的序列存储的 ID 号。

```
{
    "id": "3936421177",
    "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/3936421177",
    "name": "sequence_store_example_name",
    "creationTime": "2022-07-13T20:09:26.038Z"
    "fallbackLocation" : "s3://amzn-s3-demo-bucket"
}
```

您还可以使用**list-sequence-stores**命令查看与您的账户关联的所有序列存储，如下所示。

```
aws omics list-sequence-stores
```

您会收到以下回复。

```
{
    "sequenceStores": [
        {
            "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/3936421177",
            "id": "3936421177",
            "name": "MySequenceStore",
            "creationTime": "2022-07-13T20:09:26.038Z",
            "updatedTime": "2024-09-13T04:11:31.242Z",
            "fallbackLocation" : "s3://amzn-s3-demo-bucket",
            "status": "Active"
        }
    ]
}
```

您可以使用序列存储的 ID **get-sequence-store**来了解有关序列存储的更多信息，如以下示例所示：

```
aws omics get-sequence-store --id sequence store ID                             
```

您会收到以下回复：

```
{
  "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/sequencestoreID",
  "creationTime": "2024-01-12T04:45:29.857Z",
  "updatedTime": "2024-09-13T04:11:31.242Z",
  "description": null,
  "fallbackLocation": null,
  "id": "2015356892",
  "name": "MySequenceStore",
  "s3Access": {
      "s3AccessPointArn": "arn:aws:s3:us-west-2:123456789012:accesspoint/592761533288-2015356892",
      "s3Uri": "s3://592761533288-2015356892-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/",
      "accessLogLocation": "s3://IAD-seq-store-log/2015356892/"
  },
  "sseConfig": {
      "keyArn": "arn:aws:kms:us-west-2:123456789012:key/eb2b30f5-635d-4b6d-b0f9-d3889fe0e648",
      "type": "KMS"
  },
  "status": "Active",
  "statusMessage": null,
  "setTagsToSync": ["withdrawn","protocol"],
}
```

创建后，还可以更新多个商店参数。这可以通过控制台或 API `updateSequenceStore` 操作来完成。

## 更新序列存储
<a name="update-sequence-store"></a>

要更新序列存储，请执行以下步骤：

1. 打开 [HealthOmics 管理控制台](https://console.aws.amazon.com/omics/)。

1.  如果需要，请打开左侧导航窗格 (►)。选择**序列存储**。

1. 选择要更新的序列存储。

1. 在**详细信息**面板中，选择**编辑**。

1. 在**编辑详细信息**页面上，您可以更新以下字段：
   + **序列存储名称**-此存储的唯一名称。
   + **描述**-此序列存储的描述。
   + **在 S3 中的备用位置**，请指定 Amazon S3 的位置。 HealthOmics 使用备用位置来存储在直接上传期间未能创建读取集的所有文件。
   + **读取 S3 传播的设置标签密钥**您最多可以输入五个读取集密钥以传播到 Amazon S3。
   + （可选）对于 **S3 访问日志**，请选择`Enabled`是否希望 Amazon S3 收集访问日志记录。

     对于 **S3 中的访问日志位置**，请指定用于存储日志的 Amazon S3 位置。只有启用了 S3 访问日志记录后，此字段才可见。
   + **标签**（可选）-为此序列存储提供最多 50 个标签。

## 更新序列存储的读取集标签
<a name="sequence-store-manage-tags"></a>

要更新序列存储的读取集标签或其他字段，请执行以下步骤：

1. 打开 [HealthOmics 管理控制台](https://console.aws.amazon.com/omics/)。

1.  如果需要，请打开左侧导航窗格 (►)。选择**序列存储**。

1. 选择要更新的序列存储。

1. 选择**详细信息**选项卡。

1. 选择**编辑**。

1. 根据需要添加新的读取集标签或删除现有标签。

1. 根据需要更新名称、描述、备用位置或 S3 数据访问权限。

1. 选择**保存更改**。

## 导入基因组文件
<a name="import-genomic-files"></a>

要将基因组文件导入序列存储，请执行以下步骤：

**导入基因组学文件**

1. 打开 [HealthOmics 管理控制台](https://console.aws.amazon.com/omics/)。

1.  如果需要，请打开左侧导航窗格 (►)。选择选择**序列存储**。

1. 在**序列存储**页面上，选择要将文件导入到的序列存储。

1. 在单个序列存储页面上，选择**导入基因组文件**。

1. 在 “**指定导入详情**” 页面上，提供以下信息
   + **IAM 角色**-可以访问 Amazon S3 上的基因组文件的 IAM 角色。
   + **参考基因组**-该基因组学数据的参考基因组。

1. **在 “指定导入清单**” 页面上，指定以下信息**清单文件**。清单文件是一个 JSON 或 YAML 文件，用于描述基因组学数据的基本信息。有关清单文件的信息，请参阅[将读取集导入 HealthOmics 序列存储](import-sequence-store.md)。

1. 单击 “**创建导入任务**”。