

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# HealthOmics almacenamiento
<a name="sequence-stores"></a>

Utilice el HealthOmics almacenamiento para almacenar, recuperar, organizar y compartir datos genómicos de manera eficiente y a bajo costo. HealthOmics El almacenamiento comprende las relaciones entre los diferentes objetos de datos, de modo que puede definir qué conjuntos de lectura se originaron a partir de la misma fuente de datos. Esto le proporciona la procedencia de los datos. 

Los datos que están almacenados en ese `ACTIVE` estado se pueden recuperar de forma inmediata. Los datos a los que no se ha accedido durante 30 días o más se almacenan en el `ARCHIVE` estado. Para acceder a los datos archivados, puedes reactivarlos mediante las operaciones de la API o la consola. 

HealthOmics Los almacenes de secuencias están diseñados para preservar la integridad del contenido de los archivos. Sin embargo, la equivalencia bit a bit de los archivos de datos importados y los archivos exportados no se conserva debido a la compresión durante la estratificación activa y del archivo.

Durante la ingesta, HealthOmics genera una etiqueta de entidad o *HealthOmics ETag*, para permitir validar la integridad del contenido de los archivos de datos. Las partes de secuenciación se identifican y capturan ETag en el nivel de origen de un conjunto de lectura. El ETag cálculo no altera el archivo real ni los datos genómicos. Una vez creado un conjunto de lecturas, no ETag debería cambiar a lo largo del ciclo de vida de la fuente del conjunto de lecturas. Esto significa que si se vuelve a importar el mismo archivo, se calcula el mismo ETag valor. 

**Topics**
+ [HealthOmics ETags y procedencia de los datos](etags-and-provenance.md)
+ [Crear una tienda HealthOmics de referencia](create-reference-store.md)
+ [Crear un almacén HealthOmics de secuencias](create-sequence-store.md)
+ [Eliminar almacenes HealthOmics de referencias y secuencias](deleting-reference-and-sequence-stores.md)
+ [Importación de conjuntos de lectura a un almacén HealthOmics de secuencias](import-sequence-store.md)
+ [Carga directa a un almacén HealthOmics de secuencias](synchronous-uploads.md)
+ [Exportación de conjuntos de HealthOmics lectura a un bucket de Amazon S3](read-set-exports.md)
+ [Acceso a conjuntos de HealthOmics lectura con Amazon S3 URIs](s3-access.md)
+ [Activar conjuntos de lectura en HealthOmics](activating-read-sets.md)

# HealthOmics ETags y procedencia de los datos
<a name="etags-and-provenance"></a>

Una HealthOmics ETag (etiqueta de entidad) es un hash del contenido ingerido en un almacén de secuencias. Esto simplifica la recuperación y el procesamiento de los datos y, al mismo tiempo, mantiene la integridad del contenido de los archivos de datos ingeridos. ETag Refleja los cambios en el contenido semántico del objeto, no en sus metadatos. El tipo de conjunto de lectura y el algoritmo especificados determinan cómo ETag se calcula. El ETag cálculo no altera el archivo ni los datos genómicos reales. Cuando el esquema de tipos de archivo del conjunto de lectura lo permite, el almacén de secuencias actualiza los campos que están vinculados a la procedencia de los datos. 

Los archivos tienen una identidad bit a bit y una identidad semántica. La identidad bit a bit significa que los bits de un archivo son idénticos, y una identidad semántica significa que el contenido de un archivo es idéntico. La identidad semántica es resistente a los cambios en los metadatos y a los cambios de compresión, ya que captura la integridad del contenido del archivo. 

Los conjuntos de lectura de los almacenes de HealthOmics secuencias se someten a compression/decompression ciclos y se realiza un seguimiento de la procedencia de los datos a lo largo del ciclo de vida de un objeto. Durante este procesamiento, la identidad bit a bit de un archivo ingerido puede cambiar y se espera que cambie cada vez que se activa un archivo; sin embargo, se mantiene la identidad semántica del archivo. La identidad semántica se captura como una etiqueta de HealthOmics entidad o ETag se calcula durante la ingesta del almacén de secuencias y está disponible como metadatos de conjuntos de lectura.

Cuando el esquema de tipos de archivos del conjunto de lectura lo permite, los campos de actualizaciones del almacén de secuencias se vinculan a la procedencia de los datos. En el caso de los archivos uBAM, BAM y CRAM, se añade una nueva etiqueta `@CO` or `Comment` al encabezado. El comentario contiene el ID del almacén de secuencias y la marca de tiempo de ingesta. 

## Amazon S3 ETags
<a name="s3-etags"></a>

Al acceder a un archivo mediante el URI de Amazon S3, las operaciones de la API de Amazon S3 también pueden devolver valores de Amazon S3 ETag y checksum. Los valores de Amazon S3 ETag y checksum difieren de los de HealthOmics ETags porque representan la identidad bit a bit del archivo. Para obtener más información sobre los objetos y los metadatos descriptivos, consulte la [documentación de la API de objetos](https://docs.aws.amazon.com/AmazonS3/latest/API/API_Object.html) de Amazon S3. ETag Los valores de Amazon S3 pueden cambiar con cada ciclo de activación de un conjunto de lecturas y puede usarlos para validar la lectura de un archivo. Sin embargo, no almacene en caché ETag los valores de Amazon S3 para utilizarlos en la validación de la identidad del archivo durante el ciclo de vida del archivo, ya que no son coherentes. Por el contrario, se HealthOmics ETag mantiene constante durante todo el ciclo de vida del conjunto de lectura. 

## ¿Cómo se HealthOmics calcula ETags
<a name="how-etags-calculated"></a>

 ETag Se genera a partir de un hash del contenido del archivo ingerido. La familia de ETag algoritmos está configurada como de forma MD5up predeterminada, pero se puede configurar de forma diferente durante la creación del almacén de secuencias. Cuando ETag se calcula, el algoritmo y los hashes calculados se añaden al conjunto de lecturas. Los MD5 algoritmos admitidos para los tipos de archivos son los siguientes.
+ *FASTQ\$1 MD5up*: calcula el MD5 hash de una fuente de conjunto de lectura FASTQ completa y sin comprimir.
+ *BAM\$1 MD5up* — Calcula el MD5 hash de la sección de alineación de una fuente de conjunto de lectura BAM o uBAM sin comprimir tal como se representa en el SAM, en función de la referencia vinculada, si hay alguna disponible.
+ *CRAM\$1 MD5up*: calcula el MD5 hash de la sección de alineación de la fuente del conjunto de lectura CRAM sin comprimir tal como se representa en el SAM, en función de la referencia vinculada.

**nota**  
MD5 Se sabe que el hash es vulnerable a las colisiones. Por este motivo, dos archivos diferentes podrían tener lo mismo ETag si se hubieran fabricado para aprovechar la colisión conocida.

La SHA256 familia admite los siguientes algoritmos. Los algoritmos se calculan de la siguiente manera:
+ *FASTQ\$1 SHA256up*: calcula el hash SHA-256 de una fuente de conjunto de lectura FASTQ completa y sin comprimir. 
+ *BAM\$1 SHA256up*: calcula el hash SHA-256 de la sección de alineación de una fuente de conjunto de lectura BAM o uBAM sin comprimir tal como se representa en el SAM, en función de la referencia vinculada, si hay alguna disponible. 
+ *CRAM\$1 SHA256up*: calcula el hash SHA-256 de la sección de alineación de una fuente de conjunto de lectura CRAM sin comprimir tal como se representa en el SAM, en función de la referencia vinculada. 

La familia admite los siguientes algoritmos. SHA512 Los algoritmos se calculan de la siguiente manera:
+ *FASTQ\$1 SHA512up*: calcula el hash SHA-512 de una fuente de conjunto de lectura FASTQ completa y sin comprimir. 
+ *BAM\$1 SHA512up*: calcula el hash SHA-512 de la sección de alineación de una fuente de conjunto de lectura BAM o uBAM sin comprimir tal como se representa en el SAM, basándose en la referencia vinculada, si hay alguna disponible. 

   
+ *CRAM\$1 SHA512up *: calcula el hash SHA-512 de la sección de alineación de una fuente de conjunto de lectura CRAM sin comprimir tal como se representa en el SAM, en función de la referencia vinculada. 

# Crear una tienda HealthOmics de referencia
<a name="create-reference-store"></a>

Un almacén de referencia HealthOmics es un almacén de datos para el almacenamiento de genomas de referencia. Puede tener un único almacén de referencias en cada Cuenta de AWS región. Puede crear un almacén de referencias mediante la consola o la CLI.

**Topics**
+ [Crear un almacén de referencias mediante la consola](#console-create-reference-store)
+ [Creación de un almacén de referencias mediante la CLI](#api-create-reference-store)

## Crear un almacén de referencias mediante la consola
<a name="console-create-reference-store"></a>

**Para crear un almacén de referencia**

1. Abra la [consola de HealthOmics ](https://console.aws.amazon.com/omics/).

1.  Si es necesario, abra el panel de navegación izquierdo (≡). Seleccione **Tienda de referencias**.

1. Elija **genomas de referencia** en las opciones de almacenamiento de datos genómicos.

1. Puede elegir un genoma de referencia previamente importado o importar uno nuevo. Si no has importado un genoma de referencia, selecciona **Importar genoma de referencia** en la parte superior derecha.

1. En la página **Crear un trabajo de importación de genomas de referencia**, elija la opción de **creación rápida** o de **creación manual** para crear un almacén de referencias y, a continuación, proporcione la siguiente información.
   + **Nombre del genoma de referencia**: un nombre exclusivo para este almacén. 
   + **Descripción** (opcional): descripción de este almacén de referencia.
   + **Función de IAM**: seleccione una función con acceso a su genoma de referencia. 
   + **Referencia de Amazon S3**: seleccione el archivo de secuencia de referencia en un bucket de Amazon S3.
   + **Etiquetas** (opcional): proporciona hasta 50 etiquetas para esta tienda de referencia.

## Creación de un almacén de referencias mediante la CLI
<a name="api-create-reference-store"></a>

El siguiente ejemplo muestra cómo crear un almacén de referencias mediante AWS CLI. Puede tener una tienda de referencia por AWS región. 

Los almacenes de referencia admiten el almacenamiento de archivos FASTA con las extensiones `.fasta``.fa`,`.fas`,`.fsa`,`.faa`,`.fna`,`.ffn`,,`.frn`, `.mpfa``.seq`,`.txt`. También se admite la `bgzip` versión de estas extensiones. 

En el siguiente ejemplo, `reference store name` sustitúyalo por el nombre que haya elegido para su tienda de referencia.

```
aws omics create-reference-store --name "reference store name"  
```

Recibirá una respuesta JSON con el ID y el nombre del almacén de referencia, el ARN y la marca de tiempo de cuando se creó el almacén de referencia.

```
{
    "id": "3242349265",
    "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265",
    "name": "MyReferenceStore",
    "creationTime": "2022-07-01T20:58:42.878Z"
}
```

Puedes usar el ID del almacén de referencia en comandos adicionales. AWS CLI Puede recuperar la lista de almacenes de referencia IDs vinculada a su cuenta mediante el **list-reference-stores**comando, como se muestra en el siguiente ejemplo.

```
aws omics list-reference-stores 
```

Como respuesta, recibirá el nombre del almacén de referencia que acaba de crear.

```
{
    "referenceStores": [
        {
              "id": "3242349265",
              "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265",
              "name": "MyReferenceStore",
             "creationTime": "2022-07-01T20:58:42.878Z"
         }
     ]
}
```

Tras crear un almacén de referencias, puede crear trabajos de importación para cargar en él archivos de referencia genómica. Para ello, debe usar o crear un rol de IAM para acceder a los datos. A continuación, se muestra una política de ejemplo. 

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "s3:GetObject",
                "s3:GetBucketLocation"
                
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket1",
                "arn:aws:s3:::amzn-s3-demo-bucket1/*"
            ]
        }
    ]
}
```

------

También debe tener una política de confianza similar a la del siguiente ejemplo.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": [
                   "omics.amazonaws.com"
                ]
            },
            "Action": "sts:AssumeRole"
        }
    ]
}
```

------

Ahora puede importar un genoma de referencia. En este ejemplo, se utiliza el Genome Reference Consortium Human Build 38 (hg38), que es de acceso abierto y está disponible [en AWS el Registro de Datos Abiertos](https://registry.opendata.aws/). El depósito que aloja estos datos se encuentra en el este de EE. UU. (Ohio). Para usar depósitos en otras AWS regiones, puede copiar los datos a un depósito de Amazon S3 alojado en su región. Utilice el siguiente AWS CLI comando para copiar el genoma a su bucket de Amazon S3. 

```
aws s3 cp s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta s3://amzn-s3-demo-bucket 
```

A continuación, puede comenzar su trabajo de importación. Reemplace `reference store ID``role ARN`, y `source file path` con su propia entrada.

```
aws omics start-reference-import-job --reference-store-id reference store ID --role-arn role ARN --sources source file path
```

Una vez importados los datos, recibirá la siguiente respuesta en JSON.

```
{
        "id": "7252016478",
        "referenceStoreId": "3242349265",
        "roleArn": "arn:aws:iam::111122223333:role/OmicsReferenceImport",
        "status": "CREATED",
        "creationTime": "2022-07-01T21:15:13.727Z"
}
```

Puede supervisar el estado de un trabajo mediante el siguiente comando. En el siguiente ejemplo, sustituya `reference store ID` y `job ID` por su ID de almacén de referencia y el ID del trabajo sobre los que desee obtener más información.

```
aws omics get-reference-import-job --reference-store-id reference store ID --id job ID  
```

Como respuesta, recibirá una respuesta con los detalles de ese almacén de referencia y su estado.

```
{
    "id": "7252016478",
    "referenceStoreId": "3242349265",
    "roleArn": "arn:aws:iam::555555555555:role/OmicsReferenceImport",
    "status": "RUNNING",
    "creationTime": "2022-07-01T21:15:13.727Z",
    "sources": [
        {
            "sourceFile": "s3://amzn-s3-demo-bucket/Homo_sapiens_assembly38.fasta",
            "status": "IN_PROGRESS",
            "name": "MyReference"
        }
    ]
}
```

También puede encontrar la referencia que se importó enumerando sus referencias y filtrándolas según el nombre de la referencia. `reference store ID`Sustitúyala por el ID de tu tienda de referencia y añade un filtro opcional para reducir la lista.

```
aws omics list-references --reference-store-id reference store ID --filter name=MyReference  
```

En respuesta, recibirá la siguiente información.

```
{
    "references": [
        {
            "id": "1234567890",
            "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/1234567890/reference/1234567890",
            "referenceStoreId": "12345678",
            "md5": "7ff134953dcca8c8997453bbb80b6b5e",
            "status": "ACTIVE",
            "name": "MyReference",
            "creationTime": "2022-07-02T00:15:19.787Z",
            "updateTime": "2022-07-02T00:15:19.787Z"
        }
    ]
}
```

Para obtener más información sobre los metadatos de referencia, usa la operación de la **get-reference-metadata**API. En el siguiente ejemplo, `reference store ID` sustitúyalo por el ID de tu tienda de referencia y `reference ID` por el ID de referencia sobre el que deseas obtener más información.

```
aws omics get-reference-metadata --reference-store-id reference store ID --id reference ID   
```

En respuesta, recibirás la siguiente información.

```
{
    "id": "1234567890",
    "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/referencestoreID/reference/referenceID",
    "referenceStoreId": "1234567890",
    "md5": "7ff134953dcca8c8997453bbb80b6b5e",
    "status": "ACTIVE",
    "name": "MyReference",
    "creationTime": "2022-07-02T00:15:19.787Z",
    "updateTime": "2022-07-02T00:15:19.787Z",
    "files": {
        "source": {
            "totalParts": 31,
            "partSize": 104857600,
            "contentLength": 3249912778
        },
        "index": {
            "totalParts": 1,
            "partSize": 104857600,
            "contentLength": 160928
        }
    }
}
```

También puede descargar partes del archivo de referencia mediante **get-reference**. En el siguiente ejemplo, `reference store ID` sustitúyalo por el identificador de tu tienda de referencia y `reference ID` por el identificador de referencia desde el que deseas realizar la descarga.

```
aws omics get-reference --reference-store-id reference store ID --id reference ID --part-number 1 outfile.fa   
```

# Crear un almacén HealthOmics de secuencias
<a name="create-sequence-store"></a>



HealthOmics Los almacenes de secuencias admiten el almacenamiento de archivos genómicos en los formatos no alineados de `FASTQ` (solo gzip) y. `uBAM` También es compatible con los formatos alineados de y. `BAM` `CRAM` 

Los archivos importados se almacenan como conjuntos de lectura. Puede añadir etiquetas a los conjuntos de lectura y utilizar las políticas de IAM para controlar el acceso a los conjuntos de lectura. Los conjuntos de lectura alineados requieren un genoma de referencia para alinear las secuencias genómicas, pero es opcional para los conjuntos de lectura no alineados.

Para almacenar conjuntos de lecturas, primero debe crear un almacén de secuencias. Al crear un almacén de secuencias, puede especificar un bucket de Amazon S3 opcional como ubicación alternativa y la ubicación en la que se almacenan los registros de acceso a S3. La ubicación alternativa se utiliza para almacenar cualquier archivo que no pueda crear un conjunto de lecturas durante una carga directa. Las ubicaciones alternativas están disponibles para los almacenes de secuencias creados después del 15 de mayo de 2023. La ubicación de reserva se especifica al crear el almacén de secuencias. 

Puede especificar hasta cinco claves de etiquetas de conjunto de lectura. Al crear o actualizar un conjunto de lecturas con una clave de etiqueta que coincide con una de estas claves, las etiquetas del conjunto de lecturas se propagan al objeto de Amazon S3 correspondiente. Las etiquetas del sistema creadas por HealthOmics se propagan de forma predeterminada. 

**Topics**
+ [Crear un almacén de secuencias mediante la consola](#console-create-sequence-store)
+ [Creación de un almacén de secuencias mediante la CLI](#api-create-sequence-store)
+ [Actualización de un almacén de secuencias](#update-sequence-store)
+ [Actualización de las etiquetas de los conjuntos de lectura de un almacén de secuencias](#sequence-store-manage-tags)
+ [Importación de archivos genómicos](#import-genomic-files)

## Crear un almacén de secuencias mediante la consola
<a name="console-create-sequence-store"></a>

**Para crear un almacén de secuencias**

1. Abra la [consola de HealthOmics ](https://console.aws.amazon.com/omics/).

1.  Si es necesario, abra el panel de navegación izquierdo (≡). Elija **Sequence stores**.

1. En la página **Crear almacén de secuencias**, proporcione la siguiente información
   + **Nombre del almacén de secuencias**: nombre exclusivo para este almacén. 
   + **Descripción** (opcional): descripción de este almacén de secuencias.

1. Para la **ubicación de respaldo en S3**, especifique una ubicación de Amazon S3. HealthOmics utiliza la ubicación alternativa para almacenar los archivos que no puedan crear un conjunto de lecturas durante una carga directa. Debe conceder al HealthOmics servicio acceso de escritura a la ubicación alternativa de Amazon S3. Para ver una política de ejemplo, consulte [Configure una ubicación alternativa](synchronous-uploads.md#synchronous-uploads-fallback).

   Las ubicaciones alternativas no están disponibles para los almacenes secuenciales creados antes del 16 de mayo de 2023. 

1. (Opcional) En el caso de **las claves de etiquetas de conjuntos de lectura para la propagación de S3**, puede introducir hasta cinco claves de conjuntos de lectura para propagarlas desde un conjunto de lecturas a los objetos S3 subyacentes. Al propagar etiquetas de un conjunto de lecturas al objeto S3, puede conceder permisos de acceso a S3 en función de las etiquetas a los usuarios and/or finales para ver las etiquetas propagadas a través de la operación de la getObjectTagging API de Amazon S3. 

   1. Introduzca un valor clave en el cuadro de texto. La consola crea un nuevo cuadro de texto para añadir la siguiente clave.

   1. (Opcional) Seleccione **Eliminar** para eliminar todas las claves.

1. En **Cifrado de datos**, seleccione si desea que el cifrado de datos sea propiedad y esté gestionado por una CMK gestionada por el cliente AWS o si desea que se utilice una CMK gestionada por el cliente. 

1. (Opcional) En **Acceso a datos de S3**, seleccione si desea crear una nueva función y política para acceder al almacén de secuencias a través de Amazon S3.

1. (Opcional) Para el **registro de acceso de S3**, seleccione `Enabled` si desea que Amazon S3 recopile los registros de acceso.

   **En Ubicación de registro de acceso en S3**, especifique una ubicación de Amazon S3 para almacenar los registros. Este campo solo está visible si ha activado el registro de acceso a S3.

1. **Etiquetas** (opcional): proporciona hasta 50 etiquetas para este almacén de secuencias. Estas etiquetas son independientes de las etiquetas del conjunto de lectura que se configuran durante la import/tag actualización del conjunto de lectura

Después de crear la tienda, estará lista para[Importación de archivos genómicos](#import-genomic-files).

## Creación de un almacén de secuencias mediante la CLI
<a name="api-create-sequence-store"></a>

En el siguiente ejemplo, `sequence store name` sustitúyalo por el nombre que eligió para el almacén de secuencias.

```
aws omics create-sequence-store --name sequence store name --fallback-location "s3://amzn-s3-demo-bucket"  
```

Recibirás la siguiente respuesta en JSON, que incluye el número de ID del almacén de secuencias recién creado.

```
{
    "id": "3936421177",
    "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/3936421177",
    "name": "sequence_store_example_name",
    "creationTime": "2022-07-13T20:09:26.038Z"
    "fallbackLocation" : "s3://amzn-s3-demo-bucket"
}
```

También puedes ver todos los almacenes de secuencias asociados a tu cuenta mediante el **list-sequence-stores**comando, como se muestra a continuación.

```
aws omics list-sequence-stores
```

Recibirás la siguiente respuesta.

```
{
    "sequenceStores": [
        {
            "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/3936421177",
            "id": "3936421177",
            "name": "MySequenceStore",
            "creationTime": "2022-07-13T20:09:26.038Z",
            "updatedTime": "2024-09-13T04:11:31.242Z",
            "fallbackLocation" : "s3://amzn-s3-demo-bucket",
            "status": "Active"
        }
    ]
}
```

Puede utilizarla **get-sequence-store**para obtener más información sobre un almacén de secuencias utilizando su ID, como se muestra en el siguiente ejemplo:

```
aws omics get-sequence-store --id sequence store ID                             
```

Recibirás la siguiente respuesta:

```
{
  "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/sequencestoreID",
  "creationTime": "2024-01-12T04:45:29.857Z",
  "updatedTime": "2024-09-13T04:11:31.242Z",
  "description": null,
  "fallbackLocation": null,
  "id": "2015356892",
  "name": "MySequenceStore",
  "s3Access": {
      "s3AccessPointArn": "arn:aws:s3:us-west-2:123456789012:accesspoint/592761533288-2015356892",
      "s3Uri": "s3://592761533288-2015356892-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/",
      "accessLogLocation": "s3://IAD-seq-store-log/2015356892/"
  },
  "sseConfig": {
      "keyArn": "arn:aws:kms:us-west-2:123456789012:key/eb2b30f5-635d-4b6d-b0f9-d3889fe0e648",
      "type": "KMS"
  },
  "status": "Active",
  "statusMessage": null,
  "setTagsToSync": ["withdrawn","protocol"],
}
```

Tras la creación, también se pueden actualizar varios parámetros de la tienda. Esto se puede hacer a través de la consola o la `updateSequenceStore` operación de la API.

## Actualización de un almacén de secuencias
<a name="update-sequence-store"></a>

Para actualizar un almacén de secuencias, sigue estos pasos:

1. Abra la [consola de HealthOmics ](https://console.aws.amazon.com/omics/).

1.  Si es necesario, abre el panel de navegación izquierdo (≡). Elija **Sequence stores**.

1. Elija el almacén de secuencias que desee actualizar.

1. En el panel de **detalles**, elija **Editar**.

1. En la página **Editar detalles**, puede actualizar los siguientes campos:
   + **Nombre de almacén secuencial**: nombre exclusivo para este almacén. 
   + **Descripción**: descripción de este almacén de secuencias.
   + **Ubicación alternativa en S3**, especifique una ubicación de Amazon S3. HealthOmics utiliza la ubicación alternativa para almacenar los archivos que no puedan crear un conjunto de lectura durante una carga directa. 
   + **Lea las claves de conjunto de etiquetas para la propagación de S3**; puede introducir hasta cinco claves de conjunto de lectura para propagarlas a Amazon S3.
   + (Opcional) Para el **registro de acceso de S3**, seleccione `Enabled` si desea que Amazon S3 recopile los registros de acceso.

     **En Ubicación de registro de acceso en S3**, especifique una ubicación de Amazon S3 para almacenar los registros. Este campo solo está visible si ha activado el registro de acceso a S3.
   + **Etiquetas** (opcional): proporciona hasta 50 etiquetas para este almacén de secuencias.

## Actualización de las etiquetas de los conjuntos de lectura de un almacén de secuencias
<a name="sequence-store-manage-tags"></a>

Para actualizar las etiquetas del conjunto de lecturas u otros campos de un almacén de secuencias, sigue estos pasos:

1. Abra la [consola de HealthOmics ](https://console.aws.amazon.com/omics/).

1.  Si es necesario, abre el panel de navegación izquierdo (≡). Elija **Sequence stores**.

1. Elija el almacén de secuencias que desee actualizar.

1. Elija la pestaña **Detalles**.

1. Seleccione **Editar**.

1. Añada nuevas etiquetas de conjunto de lectura o elimine las etiquetas existentes, según sea necesario.

1. Actualice el nombre, la descripción, la ubicación alternativa o el acceso a los datos de S3, según sea necesario.

1. Seleccione **Save changes (Guardar cambios)**.

## Importación de archivos genómicos
<a name="import-genomic-files"></a>

Para importar archivos genómicos a un almacén de secuencias, siga estos pasos:

**Para importar un archivo de genómica**

1. Abra la [consola de HealthOmics ](https://console.aws.amazon.com/omics/).

1.  Si es necesario, abra el panel de navegación izquierdo (≡). Elija elegir **tiendas de secuencias**.

1. En la página de **almacenes** de secuencias, elija el almacén de secuencias al que desee importar los archivos.

1. En la página del almacén de secuencias individual, seleccione **Importar archivos genómicos**.

1. En la página **Especificar los detalles de la importación**, proporcione la siguiente información
   + Función de **IAM: la función** de IAM que puede acceder a los archivos genómicos de Amazon S3.
   + Genoma de **referencia: el genoma** de referencia para estos datos genómicos.

1. En la página **Especificar el manifiesto de importación**, especifique la siguiente información: **archivo de manifiesto**. El archivo de manifiesto es un archivo JSON o YAML que describe la información esencial de sus datos genómicos. Para obtener información sobre el archivo de manifiesto, consulte. [Importación de conjuntos de lectura a un almacén HealthOmics de secuencias](import-sequence-store.md)

1. Haga clic en **Crear trabajo de importación**.

# Eliminar almacenes HealthOmics de referencias y secuencias
<a name="deleting-reference-and-sequence-stores"></a>

Se pueden eliminar tanto los almacenes de referencia como los de secuencias. Los almacenes de secuencias solo se pueden eliminar si no contienen conjuntos de lectura, y los almacenes de referencia solo se pueden eliminar si no contienen referencias. Al eliminar un almacén de secuencias o referencias, también se eliminan todas las etiquetas asociadas a ese almacén.

En el siguiente ejemplo, se muestra cómo eliminar un almacén de referencias mediante. AWS CLI Si la acción se realiza correctamente, no recibirá ninguna respuesta. En el siguiente ejemplo, `reference store ID` sustitúyalo por el identificador de tu tienda de referencia.

```
aws omics delete-reference-store --id reference store ID              
```

En el siguiente ejemplo, se muestra cómo eliminar un almacén de secuencias. No recibirá ninguna respuesta si la acción se realiza correctamente. En el siguiente ejemplo, sustitúyalo `sequence store ID` por tu ID de almacén de secuencias.

```
aws omics delete-sequence-store --id sequence store ID            
```

También puedes eliminar una referencia de un almacén de referencias, como se muestra en el siguiente ejemplo. Las referencias solo se pueden eliminar si no se utilizan en un conjunto de lectura, un almacén de variantes o un almacén de anotaciones. En el siguiente ejemplo, `reference store ID` sustitúyelo por el ID de su almacén de referencias y `reference ID` sustitúyalo por el ID de la referencia que desee eliminar.

```
aws omics delete-reference  --id reference ID --reference-store-id reference store ID          
```

# Importación de conjuntos de lectura a un almacén HealthOmics de secuencias
<a name="import-sequence-store"></a>

Después de crear el almacén de secuencias, cree trabajos de importación para cargar los conjuntos de lecturas en el almacén de datos. Puede cargar sus archivos desde un bucket de Amazon S3 o puede cargarlos directamente mediante las operaciones sincrónicas de la API. Su bucket de Amazon S3 debe estar en la misma región que su almacén de secuencias.

Puede cargar cualquier combinación de conjuntos de lecturas alineados y no alineados en su almacén de secuencias; sin embargo, si alguno de los conjuntos de lectura de la importación está alineado, debe incluir un genoma de referencia.

Puede reutilizar la política de acceso de IAM que utilizó para crear el almacén de referencias. 

En los temas siguientes se describen los pasos principales que debe seguir para importar un conjunto de lectura al almacén de secuencias y, a continuación, obtener información sobre los datos importados. 

**Topics**
+ [Cargar archivos a Amazon S3](#upload-files-to-s3)
+ [Creación de un archivo de manifiesto](#create-manifest-file)
+ [Iniciar el trabajo de importación](#start-import-job)
+ [Supervise el trabajo de importación](#monitor-import-job)
+ [Busque los archivos de secuencias importados](#list-read-sets)
+ [Obtén detalles sobre un conjunto de lecturas](#get-read-set-metadata)
+ [Descargue los archivos de datos del conjunto de lectura](#get-read-set-data)

## Cargar archivos a Amazon S3
<a name="upload-files-to-s3"></a>

El siguiente ejemplo muestra cómo mover archivos a su bucket de Amazon S3. 

```
aws s3 cp s3://1000genomes/phase1/data/HG00100/alignment/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam s3://your-bucket
aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_1.filt.fastq.gz s3://your-bucket
aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_2.filt.fastq.gz s3://your-bucket
aws s3 cp s3://1000genomes/data/HG00096/alignment/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram s3://your-bucket 
aws s3 cp s3://gatk-test-data/wgs_ubam/NA12878_20k/NA12878_A.bam s3://your-bucket
```

La muestra `BAM` y la `CRAM` utilizada en este ejemplo requieren diferentes referencias genómicas, `Hg19` y`Hg38`. Para obtener más información o acceder a estas referencias, consulte [The Broad Genome References](https://registry.opendata.aws/broad-references/) in the Registry of Open Data en AWS.

## Creación de un archivo de manifiesto
<a name="create-manifest-file"></a>

También debe crear un archivo de manifiesto en JSON para modelar el trabajo de importación `import.json` (consulte el siguiente ejemplo). Si creas un almacén de secuencias en la consola, no tienes que especificar la `sequenceStoreId` o`roleARN`, por lo que el archivo de manifiesto comienza con la `sources` entrada.

------
#### [ API manifest ]

En el siguiente ejemplo, se importan tres conjuntos de lecturas mediante la API: uno `FASTQ``BAM`, uno y otro`CRAM`.

```
{
  "sequenceStoreId": "3936421177",
  "roleArn": "arn:aws:iam::555555555555:role/OmicsImport",
  "sources":
  [
      {
          "sourceFiles":
          {
              "source1": "s3://amzn-s3-demo-bucket/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam"
          },
          "sourceFileType": "BAM",
          "subjectId": "mySubject",
          "sampleId": "mySample",
          "referenceArn": "arn:aws:omics:us-west-2:555555555555:referenceStore/0123456789/reference/0000000001",
          "name": "HG00100",
          "description": "BAM for HG00100",
          "generatedFrom": "1000 Genomes"
      },
      {
          "sourceFiles":
          {
              "source1": "s3://amzn-s3-demo-bucket/SRR233106_1.filt.fastq.gz",
              "source2": "s3://amzn-s3-demo-bucket/SRR233106_2.filt.fastq.gz"
          },
          "sourceFileType": "FASTQ",
          "subjectId": "mySubject",
          "sampleId": "mySample",
          // NOTE: there is no reference arn required here
          "name": "HG00146",
          "description": "FASTQ for HG00146",
          "generatedFrom": "1000 Genomes"
      },
      {
          "sourceFiles":
          {
              "source1": "s3://amzn-s3-demo-bucket/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram"
          },
          "sourceFileType": "CRAM",
          "subjectId": "mySubject",
          "sampleId": "mySample",
          "referenceArn": "arn:aws:omics:us-west-2:555555555555:referenceStore/0123456789/reference/0000000001",
          "name": "HG00096",
          "description": "CRAM for HG00096",
          "generatedFrom": "1000 Genomes"
      },
      {
          "sourceFiles":
          {
              "source1": "s3://amzn-s3-demo-bucket/NA12878_A.bam"
          },
          "sourceFileType": "UBAM",
          "subjectId": "mySubject",
          "sampleId": "mySample",
          // NOTE: there is no reference arn required here
          "name": "NA12878_A",
          "description": "uBAM for NA12878",
          "generatedFrom": "GATK Test Data"
      }
  ]
}
```

------
#### [ Console manifest ]

Este código de ejemplo se utiliza para importar un único conjunto de lecturas mediante la consola.

```
[    
  {
      "sourceFiles":
      {
          "source1": "s3://amzn-s3-demo-bucket/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam"
      },
      "sourceFileType": "BAM",
      "subjectId": "mySubject",
      "sampleId": "mySample",
      "name": "HG00100",
      "description": "BAM for HG00100",
      "generatedFrom": "1000 Genomes"
  },
  {
      "sourceFiles":
      {
          "source1": "s3://amzn-s3-demo-bucket/SRR233106_1.filt.fastq.gz",
          "source2": "s3://amzn-s3-demo-bucket/SRR233106_2.filt.fastq.gz"
      },
      "sourceFileType": "FASTQ",
      "subjectId": "mySubject",
      "sampleId": "mySample",
      "name": "HG00146",
      "description": "FASTQ for HG00146",
      "generatedFrom": "1000 Genomes"
  },
  {
      "sourceFiles":
      {
          "source1": "s3://your-bucket/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram"
      },
      "sourceFileType": "CRAM",
      "subjectId": "mySubject",
      "sampleId": "mySample",
      "name": "HG00096",
      "description": "CRAM for HG00096",
      "generatedFrom": "1000 Genomes"
  },
  {
      "sourceFiles":
      {
          "source1": "s3://amzn-s3-demo-bucket/NA12878_A.bam"
      },
      "sourceFileType": "UBAM",
      "subjectId": "mySubject",
      "sampleId": "mySample",
      "name": "NA12878_A",
      "description": "uBAM for NA12878",
      "generatedFrom": "GATK Test Data"
  }
]
```

------

Como alternativa, puedes cargar el archivo de manifiesto en formato YAML.

## Iniciar el trabajo de importación
<a name="start-import-job"></a>

Para iniciar el trabajo de importación, utilice el siguiente AWS CLI comando.

```
aws omics start-read-set-import-job --cli-input-json file://import.json      
```

Recibirá la siguiente respuesta, que indica que la creación del trabajo se ha realizado correctamente.

```
{
  "id": "3660451514",
  "sequenceStoreId": "3936421177",
  "roleArn": "arn:aws:iam::111122223333:role/OmicsImport",
  "status": "CREATED",
  "creationTime": "2022-07-13T22:14:59.309Z"
}
```

## Supervise el trabajo de importación
<a name="monitor-import-job"></a>

Una vez iniciado el trabajo de importación, puede supervisar su progreso con el siguiente comando. En el siguiente ejemplo, `sequence store id` sustitúyalo por el identificador del almacén de secuencias y `job import ID` sustitúyelo por el identificador de importación.

```
aws omics get-read-set-import-job --sequence-store-id sequence store id --id job import ID 
```

A continuación se muestran los estados de todos los trabajos de importación asociados al ID de almacén de secuencias especificado.

```
{
  "id": "1234567890",
  "sequenceStoreId": "1234567890",
  "roleArn": "arn:aws:iam::111122223333:role/OmicsImport",
  "status": "RUNNING",
  "statusMessage": "The job is currently in progress.",
  "creationTime": "2022-07-13T22:14:59.309Z",
  "sources": [    
      {
          "sourceFiles":
          {
              "source1": "s3://amzn-s3-demo-bucket/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam"
          },
          "sourceFileType": "BAM",
          "status": "IN_PROGRESS",
          "statusMessage": "The job is currently in progress."
          "subjectId": "mySubject",
          "sampleId": "mySample",
          "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/8625408453",
          "name": "HG00100",
          "description": "BAM for HG00100",
          "generatedFrom": "1000 Genomes",
          "readSetID": "1234567890"
      },
      {
          "sourceFiles":
          {
              "source1": "s3://amzn-s3-demo-bucket/SRR233106_1.filt.fastq.gz",
              "source2": "s3://amzn-s3-demo-bucket/SRR233106_2.filt.fastq.gz"
          },
          "sourceFileType": "FASTQ",
          "status": "IN_PROGRESS",
          "statusMessage": "The job is currently in progress."
          "subjectId": "mySubject",
          "sampleId": "mySample",
          "name": "HG00146",
          "description": "FASTQ for HG00146",
          "generatedFrom": "1000 Genomes",
          "readSetID": "1234567890"
      },
      {
          "sourceFiles":
          {
              "source1": "s3://amzn-s3-demo-bucket/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram"
          },
          "sourceFileType": "CRAM",
          "status": "IN_PROGRESS",
          "statusMessage": "The job is currently in progress."
          "subjectId": "mySubject",
          "sampleId": "mySample",
          "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/1234568870",
          "name": "HG00096",
          "description": "CRAM for HG00096",
          "generatedFrom": "1000 Genomes",
          "readSetID": "1234567890"
      },
      {
          "sourceFiles":
          {
              "source1": "s3://amzn-s3-demo-bucket/NA12878_A.bam"
          },
          "sourceFileType": "UBAM",
          "status": "IN_PROGRESS",
          "statusMessage": "The job is currently in progress."
          "subjectId": "mySubject",
          "sampleId": "mySample",
          "name": "NA12878_A",
          "description": "uBAM for NA12878",
          "generatedFrom": "GATK Test Data",
          "readSetID": "1234567890"
      }
  ]
}
```

## Busque los archivos de secuencias importados
<a name="list-read-sets"></a>

Una vez finalizado el trabajo, puede utilizar la operación de la **list-read-sets**API para buscar los archivos de secuencia importados. En el siguiente ejemplo, `sequence store id` sustitúyalos por el ID del almacén de secuencias.

```
aws omics list-read-sets --sequence-store-id sequence store id
```

Recibirás la siguiente respuesta.

```
{
  "readSets": [
      {
          "id": "0000000001",
          "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/01234567890/readSet/0000000001",
          "sequenceStoreId": "1234567890",
          "subjectId": "mySubject",
          "sampleId": "mySample",
          "status": "ACTIVE",
          "name": "HG00100",
          "description": "BAM for HG00100",
          "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/01234567890/reference/0000000001",
          "fileType": "BAM",
          "sequenceInformation": {
              "totalReadCount": 9194,
              "totalBaseCount": 928594,
              "generatedFrom": "1000 Genomes",
              "alignment": "ALIGNED"
          },
          "creationTime": "2022-07-13T23:25:20Z"
          "creationType": "IMPORT", 
          "etag": {
              "algorithm": "BAM_MD5up",
              "source1": "d1d65429212d61d115bb19f510d4bd02"
          }
      },
      {
          "id": "0000000002",
          "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000002",
          "sequenceStoreId": "0123456789",
          "subjectId": "mySubject",
          "sampleId": "mySample",
          "status": "ACTIVE",
          "name": "HG00146",
          "description": "FASTQ for HG00146",
          "fileType": "FASTQ",
          "sequenceInformation": {
              "totalReadCount": 8000000,
              "totalBaseCount": 1184000000,
              "generatedFrom": "1000 Genomes",
              "alignment": "UNALIGNED"
          },
          "creationTime": "2022-07-13T23:26:43Z"
          "creationType": "IMPORT",
          "etag": {
              "algorithm": "FASTQ_MD5up",
              "source1": "ca78f685c26e7cc2bf3e28e3ec4d49cd"
          }
      },
      {
          "id": "0000000003",
          "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000003",
          "sequenceStoreId": "0123456789",
          "subjectId": "mySubject",
          "sampleId": "mySample",
          "status": "ACTIVE",
          "name": "HG00096",
          "description": "CRAM for HG00096",
          "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/0123456789/reference/0000000001",
          "fileType": "CRAM",
          "sequenceInformation": {
              "totalReadCount": 85466534,
              "totalBaseCount": 24000004881,
              "generatedFrom": "1000 Genomes",
              "alignment": "ALIGNED"
          },
          "creationTime": "2022-07-13T23:30:41Z"
          "creationType": "IMPORT",
          "etag": {
              "algorithm": "CRAM_MD5up",
              "source1": "66817940f3025a760e6da4652f3e927e"
          }
      },
      {
          "id": "0000000004",
          "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000004",
          "sequenceStoreId": "0123456789",
          "subjectId": "mySubject",
          "sampleId": "mySample",
          "status": "ACTIVE",
          "name": "NA12878_A",
          "description": "uBAM for NA12878",
          "fileType": "UBAM",
          "sequenceInformation": {
              "totalReadCount": 20000,
              "totalBaseCount": 5000000,
              "generatedFrom": "GATK Test Data",
              "alignment": "ALIGNED"
          },
          "creationTime": "2022-07-13T23:30:41Z"
          "creationType": "IMPORT",
          "etag": {
              "algorithm": "BAM_MD5up",
              "source1": "640eb686263e9f63bcda12c35b84f5c7"
          }
      }
  ]
}
```

## Obtén detalles sobre un conjunto de lecturas
<a name="get-read-set-metadata"></a>

Para ver más detalles sobre un conjunto de lecturas, usa la operación de la **GetReadSetMetadata**API. En el siguiente ejemplo, `sequence store id` sustitúyalo por el ID del almacén de secuencias y `read set id` sustitúyelo por el ID del conjunto de lecturas.

```
aws omics get-read-set-metadata --sequence-store-id sequence store id --id read set id     
```

Recibirás la siguiente respuesta.

```
{
"arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/2015356892/readSet/9515444019",
"creationTime": "2024-01-12T04:50:33.548Z",
"creationType": "IMPORT",
"creationJobId": "33222111",
"description": null,
"etag": {
  "algorithm": "FASTQ_MD5up",
  "source1": "00d0885ba3eeb211c8c84520d3fa26ec",
  "source2": "00d0885ba3eeb211c8c84520d3fa26ec"
},
"fileType": "FASTQ",
"files": {
  "index": null,
  "source1": {
    "contentLength": 10818,
    "partSize": 104857600,
    "s3Access": {
      "s3Uri": "s3://accountID-sequence store ID-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz"
},
    "totalParts": 1
  },
  "source2": {
    "contentLength": 10818,
    "partSize": 104857600,
    "s3Access": {        
      "s3Uri": "s3://accountID-sequence store ID-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz"
    },
    "totalParts": 1
  }
},
"id": "9515444019",
"name": "paired-fastq-import",
"sampleId": "sampleId-paired-fastq-import",
"sequenceInformation": {
  "alignment": "UNALIGNED",
  "generatedFrom": null,
  "totalBaseCount": 30000,
  "totalReadCount": 200
},
"sequenceStoreId": "2015356892",
"status": "ACTIVE",
"statusMessage": null,
"subjectId": "subjectId-paired-fastq-import"
}
```

## Descargue los archivos de datos del conjunto de lectura
<a name="get-read-set-data"></a>

Puede acceder a los objetos de un conjunto de lecturas activo mediante la operación de la **GetObject** API Amazon S3. El URI del objeto se devuelve en la respuesta de la **GetReadSetMetadata**API. Para obtener más información, consulte [Acceso a conjuntos de HealthOmics lectura con Amazon S3 URIs](s3-access.md).

Como alternativa, utilice la operación HealthOmics **GetReadSet** API. Se puede utilizar **GetReadSet** para descargar en paralelo descargando partes individuales. Estas piezas son similares a las piezas de Amazon S3. El siguiente es un ejemplo de cómo descargar la parte 1 de un conjunto de lecturas. En el siguiente ejemplo, `sequence store id` sustitúyalo por el ID del almacén de secuencias y `read set id` sustitúyelo por el ID del conjunto de lectura.

```
aws omics get-read-set --sequence-store-id sequence store id --id read set id  --part-number 1 outfile.bam  
```

También puedes usar el Gestor de HealthOmics transferencias para descargar archivos para un conjunto de HealthOmics referencia o lectura. Puedes descargar el Gestor de HealthOmics transferencias [aquí](https://pypi.org/project/amazon-omics-tools/). Para obtener más información sobre el uso y la configuración del Transfer Manager, consulte este [GitHubrepositorio](https://github.com/awslabs/amazon-omics-tools/).

# Carga directa a un almacén HealthOmics de secuencias
<a name="synchronous-uploads"></a>

Te recomendamos que utilices el Gestor de HealthOmics transferencias para añadir archivos a tu almacén de secuencias. Para obtener más información sobre el uso de Transfer Manager, consulte este [GitHubrepositorio](https://github.com/awslabs/amazon-omics-tools/). También puede cargar sus conjuntos de lectura directamente a un almacén de secuencias mediante las operaciones de la API de carga directa. 

Los conjuntos de lectura con carga directa aparecen primero en `PROCESSING_UPLOAD` el estado. Esto significa que las partes del archivo se están cargando actualmente y que puede acceder a los metadatos del conjunto de lectura. Una vez cargadas las partes y validadas las sumas de control, el conjunto de lecturas pasa a ser `ACTIVE` y se comporta igual que un conjunto de lecturas importado. 

Si la carga directa falla, el estado del conjunto de lectura se muestra como. `UPLOAD_FAILED` Puede configurar un bucket de Amazon S3 como ubicación alternativa para los archivos que no se carguen. Las ubicaciones alternativas están disponibles para los almacenes secuenciales creados después del 15 de mayo de 2023.

**Topics**
+ [Carga directamente a un almacén de secuencias mediante el AWS CLI](#synchronous-uploads-api)
+ [Configure una ubicación alternativa](#synchronous-uploads-fallback)

## Carga directamente a un almacén de secuencias mediante el AWS CLI
<a name="synchronous-uploads-api"></a>

Para empezar, inicie una carga de varias partes. Para ello, utilice el AWS CLI, como se muestra en el siguiente ejemplo.

**Para cargar directamente mediante AWS CLI comandos**

1. Cree las partes separando los datos, como se muestra en el siguiente ejemplo.

   ```
    split -b 100MiB SRR233106_1.filt.fastq.gz source1_part_ 
   ```

1. Una vez que los archivos fuente estén divididos en partes, cree una carga de conjuntos de lectura con varias partes, como se muestra en el siguiente ejemplo. Sustituya `sequence store ID` y los demás parámetros por el ID del almacén de secuencias y otros valores.

   ```
   aws omics create-multipart-read-set-upload \
   --sequence-store-id sequence store ID \
   --name upload name \
   --source-file-type FASTQ \
   --subject-id subject ID \
   --sample-id sample ID \
   --description "FASTQ for HG00146" "description of upload" \
   --generated-from "1000 Genomes""source of imported files"
   ```

   Obtendrá los metadatos `uploadID` y otros en la respuesta. Úsalo `uploadID` para el siguiente paso del proceso de carga.

   ```
   {
   "sequenceStoreId": "1504776472",
   "uploadId": "7640892890",
   "sourceFileType": "FASTQ",
   "subjectId": "mySubject",
   "sampleId": "mySample",
   "generatedFrom": "1000 Genomes",
   "name": "HG00146",
   "description": "FASTQ for HG00146",
   "creationTime": "2023-11-20T23:40:47.437522+00:00"
   }
   ```

1. Añada sus conjuntos de lectura a la carga. Si tu archivo es lo suficientemente pequeño, solo tienes que realizar este paso una vez. Para archivos más grandes, realice este paso para cada parte del archivo. Si carga una pieza nueva utilizando un número de pieza utilizado anteriormente, se sobrescribirá la pieza cargada anteriormente.

   En el siguiente ejemplo, sustituya `sequence store ID``upload ID`, y los demás parámetros por sus valores.

   ```
   aws omics upload-read-set-part \
   --sequence-store-id sequence store ID \
   --upload-id upload ID \
   --part-source SOURCE1 \
   --part-number part number \
   --payload  source1/source1_part_aa.fastq.gz
   ```

   La respuesta es un identificador que puede utilizar para comprobar que el archivo cargado coincide con el archivo deseado.

   ```
   {
   "checksum": "984979b9928ae8d8622286c4a9cd8e99d964a22d59ed0f5722e1733eb280e635"
   }
   ```

1. Continúe cargando las partes del archivo, si es necesario. Para comprobar que los conjuntos de lectura se han cargado, utilice la operación de la API **list-read-set-upload-parts**, tal y como se muestra a continuación. En el siguiente ejemplo, sustituya `sequence store ID ``upload ID`, y por `part source` su propia entrada.

   ```
   aws omics list-read-set-upload-parts \
    --sequence-store-id sequence store ID \
    --upload-id upload ID \
    --part-source SOURCE1
   ```

   La respuesta devuelve el número de conjuntos de lectura, el tamaño y la marca de tiempo de su última actualización.

   ```
   {
   "parts": [
       {
           "partNumber": 1,
           "partSize": 104857600,
           "partSource": "SOURCE1",
           "checksum": "MVMQk+vB9C3Ge8ADHkbKq752n3BCUzyl41qEkqlOD5M=",
           "creationTime": "2023-11-20T23:58:03.500823+00:00",
           "lastUpdatedTime": "2023-11-20T23:58:03.500831+00:00"
       },
       {
           "partNumber": 2,
           "partSize": 104857600,
           "partSource": "SOURCE1",
           "checksum": "keZzVzJNChAqgOdZMvOmjBwrOPM0enPj1UAfs0nvRto=",
           "creationTime": "2023-11-21T00:02:03.813013+00:00",
           "lastUpdatedTime": "2023-11-21T00:02:03.813025+00:00"
       },
       {
           "partNumber": 3,
           "partSize": 100339539,
           "partSource": "SOURCE1",
           "checksum": "TBkNfMsaeDpXzEf3ldlbi0ipFDPaohKHyZ+LF1J4CHk=",
           "creationTime": "2023-11-21T00:09:11.705198+00:00",
           "lastUpdatedTime": "2023-11-21T00:09:11.705208+00:00"
       }
   ]
   }
   ```

1. Para ver todas las cargas de conjuntos de lectura multiparte activos, usa **list-multipart-read-set-uploads,** tal y como se muestra a continuación. `sequence store ID`Sustitúyalo por el ID de tu propio almacén de secuencias.

   ```
   aws omics list-multipart-read-set-uploads --sequence-store-id 
                sequence store ID
   ```

   Esta API solo devuelve las cargas de conjuntos de lectura de varias partes que estén en curso. **Una vez que se hayan introducido los conjuntos de `ACTIVE` lecturas, o si la carga ha fallado, la carga no se devolverá en respuesta a la list-multipart-read-set API -uploads.** Para ver los conjuntos de lecturas activos, usa la API. **list-read-sets** A continuación, se muestra un ejemplo de respuesta para **list-multipart-read-set-uploads**. 

   ```
   {
   "uploads": [
       {
           "sequenceStoreId": "1234567890",
           "uploadId": "8749584421",
           "sourceFileType": "FASTQ",
           "subjectId": "mySubject",
           "sampleId": "mySample",
           "generatedFrom": "1000 Genomes",
           "name": "HG00146",
           "description": "FASTQ for HG00146",
           "creationTime": "2023-11-29T19:22:51.349298+00:00"
       },
       {
           "sequenceStoreId": "1234567890",
           "uploadId": "5290538638",
           "sourceFileType": "BAM",
           "subjectId": "mySubject",
           "sampleId": "mySample",
           "generatedFrom": "1000 Genomes",
           "referenceArn": "arn:aws:omics:us-west-2:123456789012:referenceStore/8168613728/reference/2190697383",
           "name": "HG00146",
           "description": "BAM for HG00146",
           "creationTime": "2023-11-29T19:23:33.116516+00:00"
       },
       {
           "sequenceStoreId": "1234567890",
           "uploadId": "4174220862",
           "sourceFileType": "BAM",
           "subjectId": "mySubject",
           "sampleId": "mySample",
           "generatedFrom": "1000 Genomes",
           "referenceArn": "arn:aws:omics:us-west-2:123456789012:referenceStore/8168613728/reference/2190697383",
           "name": "HG00147",
           "description": "BAM for HG00147",
           "creationTime": "2023-11-29T19:23:47.007866+00:00"
       }
   ]
   }
   ```

1. Después de cargar todas las partes del archivo, usa **complete-multipart-read-set-upload** para finalizar el proceso de carga, como se muestra en el siguiente ejemplo. Sustituya `sequence store ID` y el parámetro de las piezas por sus propios valores. `upload ID`

   ```
   aws omics complete-multipart-read-set-upload \
   --sequence-store-id sequence store ID \
   --upload-id upload ID \
   --parts '[{"checksum":"gaCBQMe+rpCFZxLpoP6gydBoXaKKDA/Vobh5zBDb4W4=","partNumber":1,"partSource":"SOURCE1"}]'
   ```

   La respuesta para **complete-multipart-read-set-upload** es el conjunto de lecturas de IDs los conjuntos de lecturas importados. 

   ```
   {
   "readSetId": "0000000001"
   }
   ```

1. Para detener la carga, usa **abort-multipart-read-set-upload** con el ID de carga para finalizar el proceso de carga. Sustituya `sequence store ID` y `upload ID` por sus propios valores de parámetros.

   ```
   aws omics abort-multipart-read-set-upload \
   --sequence-store-id sequence store ID \
   --upload-id upload ID
   ```

1. Una vez finalizada la carga, recupere los datos del conjunto de lectura mediante **get-read-set**el siguiente procedimiento. Si la carga aún se está procesando, **get-read-set**devuelve metadatos limitados y los archivos de índice generados no están disponibles. Sustituya `sequence store ID` los demás parámetros por sus propios datos.

   ```
   aws omics get-read-set 
    --sequence-store-id sequence store ID \
    --id read set ID \
    --file SOURCE1 \
    --part-number 1 myfile.fastq.gz
   ```

1. Para comprobar los metadatos, incluido el estado de la carga, utiliza la operación de la **get-read-set-metadata**API.

   ```
   aws omics get-read-set-metadata --sequence-store-id sequence store ID --id read set ID    
   ```

   La respuesta incluye detalles de metadatos como el tipo de archivo, el ARN de referencia, el número de archivos y la longitud de las secuencias. También incluye el estado. Los estados posibles son `PROCESSING_UPLOAD``ACTIVE`, y`UPLOAD_FAILED`.

   ```
   {
   "id": "0000000001",
   "arn": "arn:aws:omics:us-west-2:555555555555:sequenceStore/0123456789/readSet/0000000001",
   "sequenceStoreId": "0123456789",
   "subjectId": "mySubject",
   "sampleId": "mySample",
   "status": "PROCESSING_UPLOAD",
   "name": "HG00146",
   "description": "FASTQ for HG00146",
   "fileType": "FASTQ",
   "creationTime": "2022-07-13T23:25:20Z",
   "files": {
       "source1": {
           "totalParts": 5,
           "partSize": 123456789012,
           "contentLength": 6836725,
   
       },
       "source2": {
           "totalParts": 5,
           "partSize": 123456789056,
           "contentLength": 6836726
       }
   },
   'creationType": "UPLOAD"
   }
   ```

## Configure una ubicación alternativa
<a name="synchronous-uploads-fallback"></a>

Al crear o actualizar un almacén de secuencias, puede configurar un bucket de Amazon S3 como ubicación de respaldo para los archivos que no se cargan. Las partes del archivo de esos conjuntos de lectura se transfieren a la ubicación alternativa. Las ubicaciones de respaldo están disponibles para los almacenes de secuencias creados después del 15 de mayo de 2023. 

Cree una política de bucket de Amazon S3 para conceder acceso de HealthOmics escritura a la ubicación alternativa de Amazon S3, como se muestra en el siguiente ejemplo:

```
{
    "Effect": "Allow",
    "Principal": {
        "Service": "omics.amazonaws.com"
    },
    "Action": "s3:PutObject",
    "Resource": "arn:aws:s3:::amzn-s3-demo-bucket/*"
}
```

Si el depósito de Amazon S3 para los registros alternativos o de acceso utiliza una clave administrada por el cliente, añada los siguientes permisos a la política de claves:

```
 {
    "Sid": "Allow use of key",
    "Effect": "Allow",
    "Principal": {
        "Service": "omics.amazonaws.com"
    },
    "Action": [
        "kms:Decrypt",
        "kms:GenerateDataKey*"
    ],
    "Resource": "*"
}
```

# Exportación de conjuntos de HealthOmics lectura a un bucket de Amazon S3
<a name="read-set-exports"></a>

Puede exportar conjuntos de lectura como un trabajo de exportación por lotes a un bucket de Amazon S3. Para ello, cree primero una política de IAM que tenga acceso de escritura al bucket, similar al siguiente ejemplo de política de IAM. 

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "s3:PutObject",
        "s3:GetBucketLocation"
      ],
      "Resource": [
        "arn:aws:s3:::amzn-s3-demo-bucket1",
        "arn:aws:s3:::amzn-s3-demo-bucket1/*"
      ]
    }
  ]
}
```

------

------
#### [ JSON ]

****  

```
{
"Version":"2012-10-17",		 	 	 
"Statement": [
  {
      "Effect": "Allow",
      "Principal": {
          "Service": [
              "omics.amazonaws.com"
          ]
      },
      "Action": "sts:AssumeRole"
  }
]
}
```

------

Una vez establecida la política de IAM, comience el trabajo de exportación del conjunto de lectura. En el siguiente ejemplo, se muestra cómo hacerlo mediante la operación de API **start-read-set-export-job**. En el siguiente ejemplo, sustituya todos los parámetros,`sequence store ID`, `destination``role ARN`, y`sources`, por su entrada.

```
aws omics start-read-set-export-job 
--sequence-store-id sequence store id \
--destination valid s3 uri \
--role-arn role ARN \
--sources readSetId=read set id_1 readSetId=read set id_2
```

Recibirá la siguiente respuesta con información sobre el almacén de secuencias de origen y el bucket de Amazon S3 de destino. 

```
{
"id": <job-id>,
"sequenceStoreId": <sequence-store-id>,
"destination": <destination-s3-uri>,
"status": "SUBMITTED",
"creationTime": "2022-10-22T01:33:38.079000+00:00"
}
```

Una vez iniciado el trabajo, puede determinar su estado mediante la operación de API **get-read-set-export-job**, como se muestra a continuación. Sustituya `sequence store ID` y `job ID` por su ID de almacén de secuencias y su ID de trabajo, respectivamente. 

```
aws omics get-read-set-export-job --id job-id --sequence-store-id sequence store ID
```

Puede ver todos los trabajos de exportación inicializados para un almacén de secuencias mediante la operación de la API ** list-read-set-export-jobs**, como se muestra a continuación. Sustitúyalo por el `sequence store ID` ID del almacén de secuencias.

```
aws omics list-read-set-export-jobs --sequence-store-id sequence store ID.
```

```
{
"exportJobs": [
  {
      "id": <job-id>,
      "sequenceStoreId": <sequence-store-id>,
      "destination": <destination-s3-uri>,
      "status": "COMPLETED",
      "creationTime": "2022-10-22T01:33:38.079000+00:00",
      "completionTime": "2022-10-22T01:34:28.941000+00:00"
  }
]
}
```

Además de exportar sus conjuntos de lectura, también puede compartirlos mediante el acceso a Amazon S3 URIs. Para obtener más información, consulte [Acceso a conjuntos de HealthOmics lectura con Amazon S3 URIs](s3-access.md). 

# Acceso a conjuntos de HealthOmics lectura con Amazon S3 URIs
<a name="s3-access"></a>

Puede utilizar las rutas URI de Amazon S3 para acceder a los conjuntos de lecturas de su almacén de secuencias activo. 

Con la ruta URI de Amazon S3, puede utilizar las operaciones de Amazon S3 para enumerar, compartir y descargar sus conjuntos de lectura. El acceso a través del S3 APIs acelera la colaboración y la integración de herramientas, dado que muchas herramientas del sector ya están diseñadas para leer desde S3. Además, puede compartir el acceso al S3 APIs con otras cuentas y proporcionar acceso de lectura a los datos entre regiones. 

HealthOmics no admite el acceso mediante URI de Amazon S3 a conjuntos de lectura archivados. Al activar un conjunto de lecturas, se restaura en la misma ruta de URI cada vez. 

Con los datos cargados en HealthOmics las tiendas, dado que el URI de Amazon S3 se basa en los puntos de acceso de Amazon S3, puede integrarse directamente con las herramientas estándar del sector que leen Amazon S3 URIs, como las siguientes:
+ Aplicaciones de análisis visual como Integrative Genomics Viewer (IGV) o UCSC Genome Browser.
+ Flujos de trabajo habituales con extensiones de Amazon S3, como CWL, WDL y Nextflow.
+ Cualquier herramienta que pueda autenticar y leer desde el punto de acceso Amazon S3 URIs o leer Amazon S3 prefirmado. URIs
+ Utilidades de Amazon S3 como Mountpoint o. CloudFront

Amazon S3 Mountpoint le permite utilizar un bucket de Amazon S3 como sistema de archivos local. Para obtener más información sobre Mountpoint e instalarlo para su uso, consulte [Mountpoint for Amazon S3](https://github.com/awslabs/mountpoint-s3).

Amazon CloudFront es un servicio de red de entrega de contenido (CDN) creado para ofrecer un alto rendimiento, seguridad y comodidad para los desarrolladores. Para obtener más información sobre el uso de Amazon CloudFront, consulta [la CloudFront documentación de Amazon](https://docs.aws.amazon.com/cloudfront/). Para configurar CloudFront una tienda secuencial, ponte en contacto con el AWS HealthOmics equipo. 

La cuenta raíz del propietario de los datos está habilitada para las acciones S3:GetObject, S3: GetObjectTagging y S3:List Bucket en el prefijo del almacén de secuencias. Para que un usuario de la cuenta acceda a los datos, debe crear una política de IAM y asociarla al usuario o rol. Para ver una política de ejemplo, consulte [Permisos de acceso a los datos mediante Amazon S3 URIs](s3-sharing.md).

Puede utilizar las siguientes operaciones de la API de Amazon S3 en los conjuntos de lectura activos para enumerar y recuperar sus datos. Puede acceder a los conjuntos de lectura archivados a través de Amazon S3 URIs después de haberlos activado.
+ [GetObject](https://docs.aws.amazon.com/AmazonS3/latest/API/API_GetObject.html)— Recupera un objeto de Amazon S3.
+ [HeadObject](https://docs.aws.amazon.com/AmazonS3/latest/API/API_HeadObject.html.html)— La operación HEAD recupera los metadatos de un objeto sin devolver el objeto en sí. Esta operación es útil si solo desea los metadatos de un objeto.
+ [ListObjects y ListObject v2](https://docs.aws.amazon.com/AmazonS3/latest/API/API_ListObjects.html): devuelve algunos o todos (hasta 1000) los objetos de un depósito.
+ [CopyObject](https://docs.aws.amazon.com/AmazonS3/latest/API/API_CopyObject.html)— Crea una copia de un objeto que ya está almacenado en Amazon S3. HealthOmicsadmite copiar en un punto de acceso Amazon S3, pero no escribir en un punto de acceso.

HealthOmics Los almacenes de secuencias mantienen la identidad semántica de los archivos a través ETags de ellos. A lo largo del ciclo de vida de un archivo, Amazon S3 ETag, que se basa en la identidad bit a bit, puede cambiar, pero HealthOmics ETag sigue siendo el mismo. Para obtener más información, consulte [HealthOmics ETags y procedencia de los datos](etags-and-provenance.md).

**Topics**
+ [Estructura de URI de Amazon S3 en el HealthOmics almacenamiento](#s3-uri-structure)
+ [Uso de IGV alojado o local para acceder a los conjuntos de lectura](#s3-access-igv)
+ [Usando Samtools o en HTSlib HealthOmics](#s3-access-Samtools)
+ [Uso de Mountpoint HealthOmics](#s3-access-Mountpoint)
+ [Utilizándolo CloudFront con HealthOmics](#s3-access-CloudFront)

## Estructura de URI de Amazon S3 en el HealthOmics almacenamiento
<a name="s3-uri-structure"></a>

Todos los archivos de Amazon S3 URIs tienen `omics:subjectId` etiquetas `omics:sampleId` de recursos. Puede utilizar estas etiquetas para compartir el acceso mediante las políticas de IAM siguiendo un patrón como`"s3:ExistingObjectTag/omics:subjectId": "pattern desired"`.

 La estructura de archivos es la siguiente: 

`.../account_id/sequenceStore/seq_store_id/readSet/read_set_id/files.`

En el caso de los archivos importados a almacenes de secuencias desde Amazon S3, el almacén de secuencias intenta mantener el nombre de la fuente original. Cuando los nombres entran en conflicto, el sistema agrega la información del conjunto de lecturas para garantizar que los nombres de los archivos sean únicos. Por ejemplo, en el caso de los conjuntos de lectura fastq, si ambos nombres de archivo son iguales, para que sean únicos, `sourceX` se inserta antes de .fastq.gz o .fq.gz. Para una carga directa, los nombres de los archivos siguen los siguientes patrones:
+ Para FASTQ: *read\$1set\$1name* \$1 .fastq.gz *sourcex* 
+ uBAM/BAM/CRAMPara *read\$1set\$1name* —. *file extension*con extensiones de `.bam` o`.cram`. Un ejemplo es `NA193948.bam`.

En el caso de los conjuntos de lectura que son BAM o CRAM, los archivos de índice se generan automáticamente durante el proceso de ingesta. Para los archivos de índice generados, se aplica la extensión de índice adecuada al final del nombre del archivo. Tiene el patrón *<name of the Source the index is on>.<file index extension>.* Las extensiones de índice son `.bai` o`.crai`.

## Uso de IGV alojado o local para acceder a los conjuntos de lectura
<a name="s3-access-igv"></a>

IGV es un navegador de genomas que se utiliza para analizar archivos BAM y CRAM. Requiere tanto el archivo como el índice porque solo muestra una parte del genoma a la vez. El IGV se puede descargar y usar localmente, y hay guías para crear un IGV alojado en AWS. La versión web pública no es compatible porque requiere CORS. 

El IGV local se basa en la AWS configuración local para acceder a los archivos. Asegúrese de que el rol utilizado en esa configuración tenga una política adjunta que habilite los GetObject permisos kms: Decrypt y s3: para el URI s3 de los conjuntos de lectura a los que se accede. Después, en IGV, puedes usar «Archivo > cargar desde URL» y pegar el URI de la fuente y el índice. Como alternativa, los prefirmados se URLs pueden generar y usar de la misma manera, lo que omitirá la configuración de AWS. Tenga en cuenta que CORS no es compatible con el acceso mediante URI de Amazon S3, por lo que no se admiten solicitudes que dependan de CORS.

El ejemplo de IGV AWS alojado se basa en AWS Cognito para crear las configuraciones y los permisos correctos dentro del entorno. Asegúrese de crear una política que habilite los permisos KMS:Decrypt y s3: para GetObject el URI de Amazon S3 de los conjuntos de lectura a los que se accede y añada esta política al rol asignado al grupo de usuarios de Cognito. Después, en IGV, puede usar «Archivo > cargar desde URL» e introducir el URI de la fuente y el índice. Como alternativa, los prefirmados se URLs pueden generar y usar de la misma manera, lo que evita la configuración de AWS. 

Tenga en cuenta que el almacén de secuencias no aparecerá en la pestaña «Amazon», ya que solo muestra los depósitos de su propiedad en la región en la que está configurado el AWS perfil. 

## Usando Samtools o en HTSlib HealthOmics
<a name="s3-access-Samtools"></a>

HTSlib es la biblioteca principal que comparten varias herramientas, como Samtools, RSAMtools y otras. PySam Utilice HTSlib la versión 1.20 o posterior para obtener una compatibilidad perfecta con los puntos de acceso Amazon S3. Para las versiones anteriores de la HTSlib biblioteca, puede utilizar las siguientes soluciones alternativas:
+ Establezca la variable de entorno para el host HTS Amazon S3 con:`export HTS_S3_HOST="s3.region.amazonaws.com"`.
+ Genere una URL prefirmada para los archivos que desee usar. Si se utiliza un BAM o un CRAM, asegúrese de generar una URL prefirmada tanto para el archivo como para el índice. Después de eso, ambos archivos se pueden usar con las bibliotecas. 
+ Utilice Mountpoint para montar el almacén de secuencias o leer el prefijo establecido en el mismo entorno en el que utiliza las bibliotecas. HTSlib Desde aquí, se puede acceder a los archivos mediante las rutas de archivo locales. 

## Uso de Mountpoint HealthOmics
<a name="s3-access-Mountpoint"></a>

Mountpoint for Amazon S3 es un cliente de archivos sencillo y de alto rendimiento para montar un [bucket de Amazon S3 como un](https://aws.amazon.com/blogs/storage/the-inside-story-on-mountpoint-for-amazon-s3-a-high-performance-open-source-file-client/) sistema de archivos local. Con Mountpoint para Amazon S3, sus aplicaciones pueden acceder a los objetos almacenados en Amazon S3 mediante operaciones de archivos como abrir y leer. Mountpoint for Amazon S3 traduce automáticamente estas operaciones en llamadas a la API de objetos de Amazon S3, lo que proporciona a sus aplicaciones acceso al almacenamiento elástico y al rendimiento de Amazon S3 a través de una interfaz de archivos.

 [Mountpoint se puede instalar siguiendo las instrucciones de instalación de Mountpoint.](https://github.com/awslabs/mountpoint-s3/blob/main/doc/INSTALL.md) Mountpoint usa el perfil de AWS local de la instalación y funciona a nivel de prefijo de Amazon S3. Asegúrese de que el perfil que se está utilizando tenga una política que permita los permisos s3:GetObject, s3: ListBucket y kms: Decrypt para el prefijo URI de Amazon S3 de los conjuntos de lectura o el almacén de secuencias al que se accede. Después, el depósito se puede montar mediante la siguiente ruta: 

```
mount-s3 access point arn local path to mount --prefix prefix to sequence store or read set --region region                                  
```

## Utilizándolo CloudFront con HealthOmics
<a name="s3-access-CloudFront"></a>

Amazon CloudFront es un servicio de red de entrega de contenido (CDN) creado para ofrecer un alto rendimiento, seguridad y comodidad para los desarrolladores. Los clientes que lo deseen CloudFront deben trabajar con el equipo de servicio para activar la CloudFront distribución. Trabaje con su equipo de cuentas para contratar al equipo HealthOmics de servicio. 

# Activar conjuntos de lectura en HealthOmics
<a name="activating-read-sets"></a>

Puede activar los conjuntos de lecturas que se archivan con la operación de la API **start-read-set-activation-job** o mediante la AWS CLI, como se muestra en el siguiente ejemplo. Sustituya `sequence store ID` y `read set id` por el ID del almacén de secuencias y el conjunto de lecturas. IDs 

```
aws omics start-read-set-activation-job 
     --sequence-store-id sequence store ID \
     --sources readSetId=read set ID readSetId=read set id_1 read set id_2
```

Recibirá una respuesta que contiene la información del trabajo de activación, como se muestra a continuación.

```
{
    "id": "12345678",
    "sequenceStoreId": "1234567890",
    "status": "SUBMITTED",
    "creationTime": "2022-10-22T00:50:54.670000+00:00"
}
```

Una vez que se inicie el trabajo de activación, puede supervisar su progreso con la operación de la API **get-read-set-activation-job**. A continuación se muestra un ejemplo de cómo utilizar el AWS CLI para comprobar el estado del trabajo de activación. Sustituya `job ID` y `sequence store ID` por el ID y el trabajo del almacén de secuencias IDs, respectivamente. 

```
aws omics get-read-set-activation-job --id job ID --sequence-store-id sequence store ID                    
```

La respuesta resume el trabajo de activación, como se muestra a continuación.

```
{
    "id": 123567890,
    "sequenceStoreId": 123467890,
    "status": "SUBMITTED",
    "statusUpdateReason": "The job is submitted and will start soon.",
    "creationTime": "2022-10-22T00:50:54.670000+00:00",
    "sources": [
        {
            "readSetId": <reads set id_1>,
            "status": "NOT_STARTED",
            "statusUpdateReason": "The source is queued for the job."
        },
        {
            "readSetId": <read set id_2>,
            "status": "NOT_STARTED",
            "statusUpdateReason": "The source is queued for the job."
        }
    ]
}
```

Puede comprobar el estado de un trabajo de activación con la operación de la **get-read-set-metadata**API. Los estados posibles son `ACTIVE``ACTIVATING`, y`ARCHIVED`. En el siguiente ejemplo, `sequence store ID` sustitúyalo por el ID del almacén de secuencias y `read set ID` sustitúyelo por el ID del conjunto de lectura.

```
aws omics get-read-set-metadata --sequence-store-id sequence store ID --id read set ID
```

La siguiente respuesta muestra que el conjunto de lecturas está activo.

```
{
    "id": "12345678",
    "arn": "arn:aws:omics:us-west-2:555555555555:sequenceStore/1234567890/readSet/12345678",
    "sequenceStoreId": "0123456789",
    "subjectId": "mySubject",
    "sampleId": "mySample",
    "status": "ACTIVE",
    "name": "HG00100",
    "description": "HG00100 aligned to HG38 BAM",
    "fileType": "BAM",
    "creationTime": "2022-07-13T23:25:20Z",
    "sequenceInformation": {
        "totalReadCount": 1513467,
        "totalBaseCount": 163454436,
        "generatedFrom": "Pulled from SRA",
        "alignment": "ALIGNED"
    },
    "referenceArn": "arn:aws:omics:us-west-2:555555555555:referenceStore/0123456789/reference/0000000001",
    "files": {
        "source1": {
            "totalParts": 2,
            "partSize":  10485760,
            "contentLength": 17112283,
            "s3Access": {
        "s3Uri": "s3://accountID-sequence store ID-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz"
},
         },
        "index": {
            "totalParts": 1,
            "partSize": 53216,
            "contentLength": 10485760
            "s3Access": {
        "s3Uri": "s3://accountID-sequence store ID-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz"
},
        }
    },
    "creationType": "IMPORT",
    "etag": {
        "algorithm": "BAM_MD5up",
        "source1": "d1d65429212d61d115bb19f510d4bd02"
    }
}
```

Puede ver todos los trabajos de activación del conjunto de lectura mediante **list-read-set-activation-jobs**, como se muestra en el siguiente ejemplo. En el siguiente ejemplo, sustitúyalo `sequence store ID` por tu ID de almacén de secuencias.

```
aws omics list-read-set-activation-jobs --sequence-store-id sequence store ID                
```

Recibirás la siguiente respuesta.

```
{
    "activationJobs": [
        {
            "id": 1234657890,
            "sequenceStoreId": "1234567890",
            "status": "COMPLETED",
            "creationTime": "2022-10-22T01:33:38.079000+00:00",
            "completionTime": "2022-10-22T01:34:28.941000+00:00"
        }
    ]
}
```