Generated April 22, 2021

Análisis de la secuencia de un aislamiento de coronavirus Covid-19

Dado el impacto que ha tenido la pandemia de Covid-19 causada por el virus SARS-CoV-2, nos pareció una buena idea basar nuestro primer trabajo práctico de Bioinformática 2 a partir de datos de secuenciación masiva de este virus.

Please see https://narrative.kbase.us/narrative/58932 for this Narrative in English.

Obtención de datos

El primer paso es obtener una set de datos disponible en una base de datos pública. El dataset con el que trabajaremos esta hosteado en la base de datos SRA (Sequence Read Archive), con el accession SRR11247075. Para obtener la secuencia podemos utilizar diferentes vías que se detallan a continuación.

Utilizando SRA toolkit en línea de comandos:

Para este enfoque se requiere tener previamente instalada el programa SRA toolkit, que se encuentra disponible para descargar en este link. Existen versiones para su utilización en Linux, Mac y Windows. En el siguiente link dejamos las instrucciones para su instalación.

Una vez instalado el software, para obtener los datos hosteados en el SRA se utilizará el siguiente comando:

prefetch SRR11247075

Este comando descarga de SRA un archivo tipo .sra(ubicado en el directorio con el nombre del accession), que debe ser descomprimido, no necesariamente debe tener esa extensión pero se conoce su origen y se sabe que es un archivo de ese tipo (si se hace el prefetch en windows el archivo queda guardado en un directorio %userprofile%/ncbi/pubic/sra, tener en cuenta el path de los ejecutables). Para descomprimir utilizamos el comando:

fastq-dump --split-e SRR11247075.sra

En el caso de que se trate de secuenciación PE, este comando genera 2 archivos, con los sufijos R1 y R2, que corresponden a los reads forward y reverse de cada par.

Utilizando la plataforma Kbase:

Esta aproximación permite realizar análisis bioinformáticos desde un servidor y, por lo tanto, no requiere la instalación de software adicional en nuestros equipos y es idependiente del sistema operativo que utilicemos. Para obtener los datos desde la base de datos SRA son los siguientes:

  1. Vamos a la región donde se encuentran las apps y seleccionamos Read Processing
  2. Dentro de Read Processing seleccionamos la aplicación Import SRA File as Reads From Web
  3. Buscar en la web de SRA el strain que vamos a descargar, copiar el link para la descarga en la casilla.
  4. Setear de acuerdo a la información que aparece en la web de SRA los parámetros: Sequencing Technology, Mean Insert Size (chequear que era inserto)
  5. Cuando completes la configuración haz click en Run para comenzar el proceso

¿Qué dice el reporte generado?

Descompresión y análisis de calidad

Para realizar el análisis de calidad se debe utilizar la app FastQC, también se puede instalar localmente desde su web oficial.

En kbase simplemente seleccionamos la app y cargamos la librería correspondiente.

Observa el resultado del análisis de FastQC e interprétalos. Se puede chequear la ayuda de FastQC para entender la simbología.

Import an SRA file from a web URL into your Narrative as a Reads data object.
This app completed without errors in 1m 37s.
Objects
Created Object Name Type Description
SRR11247075 SingleEndLibrary Imported Reads
Links
Import a Single-End Library into your Narrative as a Reads object.
This app completed without errors in 47s.
Summary
Import Finished Imported Reads: 1 Reads Name: SRA_fastq Reads Info: "qual_min": "9.0", "qual_mean": "35.1143", "sequencing_tech": "Illumina", "number_of_duplicates": "2896", "read_length_mean": "85.0177", "qual_stdev": "5.1076", "read_length_stdev": "71.6876", "qual_max": "38.0", "total_bases": "888775", "single_genome": "1", "gc_content": "0.307298", "phred_type": "33", "read_count": "10454"
Import an SRA file from a web URL into your Narrative as a Reads data object.
This app completed without errors in 1m 33s.
Objects
Created Object Name Type Description
COVID-19 SingleEndLibrary Imported Reads
Links
A quality control application for high throughput sequence data.
This app completed without errors in 1m 2s.
A quality control application for high throughput sequence data.
This app completed without errors in 1m 8s.
v1 - KBaseFile.SingleEndLibrary-2.1
The viewer for the data in this Cell is available at the original Narrative here: https://narrative.kbase.us/narrative/57422
Trim paired- or single-end Illumina reads with Trimmomatic.
This app completed without errors in 1m 21s.
Objects
Created Object Name Type Description
SRR11247075_trim1 SingleEndLibrary Trimmed Reads
A quality control application for high throughput sequence data.
This app completed without errors in 1m 6s.
Import a FASTA file from your staging area into your Narrative as an Assembly data object
This app completed without errors in 50s.
Objects
Created Object Name Type Description
COVID_19.ref Assembly Imported Assembly
Links
Align sequencing reads to long reference prokaryotic genome sequences using Bowtie2.
This app completed without errors in 2m 20s.
No output found.
Align sequencing reads to long reference prokaryotic genome sequences using Bowtie2.
This app is new, and hasn't been started.
No output found.
Import a FASTA file from your staging area into your Narrative as an Assembly data object
This app completed without errors in 59s.
Objects
Created Object Name Type Description
SARS.fasta Assembly Imported Assembly
Links
Align sequencing reads to long reference prokaryotic genome sequences using Bowtie2.
This app completed without errors in 2m 35s.
No output found.
v1 - KBaseRNASeq.RNASeqAlignment-3.0
The viewer for the data in this Cell is available at the original Narrative here: https://narrative.kbase.us/narrative/57422

Apps

  1. Align Reads using Bowtie2 - v2.3.2
    • Langmead B, Salzberg SL. Fast gapped-read alignment with Bowtie 2. Nat Methods. 2012;9: 357 359. doi:10.1038/nmeth.1923
    • Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol. 2009;10: R25. doi:10.1186/gb-2009-10-3-r25
  2. Assess Read Quality with FastQC - v0.11.5
    • FastQC source: Bioinformatics Group at the Babraham Institute, UK.
  3. Import FASTA File as Assembly from Staging Area
    no citations
  4. Import Single-End Reads from Web - v1.0.12
    • Arkin AP, Cottingham RW, Henry CS, Harris NL, Stevens RL, Maslov S, et al. KBase: The United States Department of Energy Systems Biology Knowledgebase. Nature Biotechnology. 2018;36: 566. doi: 10.1038/nbt.4163
  5. Import SRA File as Reads From Web - v1.0.7
    • Arkin AP, Cottingham RW, Henry CS, Harris NL, Stevens RL, Maslov S, et al. KBase: The United States Department of Energy Systems Biology Knowledgebase. Nature Biotechnology. 2018;36: 566. doi: 10.1038/nbt.4163
  6. Trim Reads with Trimmomatic - v0.36
    • Bolger AM, Lohse M, Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 2014;30: 2114 2120. doi:10.1093/bioinformatics/btu170