Análisis de la secuencia de un aislamiento de coronavirus Covid-19¶

Dado el impacto que ha tenido la pandemia de Covid-19 causada por el virus SARS-CoV-2, nos pareció una buena idea basar nuestro primer trabajo práctico de Bioinformática 2 a partir de datos de secuenciación masiva de este virus.

Please see https://narrative.kbase.us/narrative/58932 for this Narrative in English.

Obtención de datos¶

El primer paso es obtener una set de datos disponible en una base de datos pública. El dataset con el que trabajaremos esta hosteado en la base de datos SRA (Sequence Read Archive), con el accession SRR11247075. Para obtener la secuencia podemos utilizar diferentes vías que se detallan a continuación.

Utilizando SRA toolkit en línea de comandos:¶

Para este enfoque se requiere tener previamente instalada el programa SRA toolkit, que se encuentra disponible para descargar en este link. Existen versiones para su utilización en Linux, Mac y Windows. En el siguiente link dejamos las instrucciones para su instalación.

Una vez instalado el software, para obtener los datos hosteados en el SRA se utilizará el siguiente comando:

prefetch SRR11247075

Este comando descarga de SRA un archivo tipo .sra(ubicado en el directorio con el nombre del accession), que debe ser descomprimido, no necesariamente debe tener esa extensión pero se conoce su origen y se sabe que es un archivo de ese tipo (si se hace el prefetch en windows el archivo queda guardado en un directorio %userprofile%/ncbi/pubic/sra, tener en cuenta el path de los ejecutables). Para descomprimir utilizamos el comando:

fastq-dump --split-e SRR11247075.sra

En el caso de que se trate de secuenciación PE, este comando genera 2 archivos, con los sufijos R1 y R2, que corresponden a los reads forward y reverse de cada par.

Utilizando la plataforma Kbase:¶

Esta aproximación permite realizar análisis bioinformáticos desde un servidor y, por lo tanto, no requiere la instalación de software adicional en nuestros equipos y es idependiente del sistema operativo que utilicemos. Para obtener los datos desde la base de datos SRA son los siguientes:

Vamos a la región donde se encuentran las apps y seleccionamos Read Processing
Dentro de Read Processing seleccionamos la aplicación Import SRA File as Reads From Web
Buscar en la web de SRA el strain que vamos a descargar, copiar el link para la descarga en la casilla.
Setear de acuerdo a la información que aparece en la web de SRA los parámetros: Sequencing Technology, Mean Insert Size (chequear que era inserto)
Cuando completes la configuración haz click en Run para comenzar el proceso

¿Qué dice el reporte generado?

Descompresión y análisis de calidad¶

Para realizar el análisis de calidad se debe utilizar la app FastQC, también se puede instalar localmente desde su web oficial.

En kbase simplemente seleccionamos la app y cargamos la librería correspondiente.

Observa el resultado del análisis de FastQC e interprétalos. Se puede chequear la ayuda de FastQC para entender la simbología.

Análisis de la secuencia de un aislamiento de coronavirus Covid-19¶

Obtención de datos¶

Utilizando SRA toolkit en línea de comandos:¶

Utilizando la plataforma Kbase:¶

Descompresión y análisis de calidad¶

Apps