Dado el impacto que ha tenido la pandemia de Covid-19 causada por el virus SARS-CoV-2, nos pareció una buena idea basar nuestro primer trabajo práctico de Bioinformática 2 a partir de datos de secuenciación masiva de este virus.
Please see https://narrative.kbase.us/narrative/58932 for this Narrative in English.
El primer paso es obtener una set de datos disponible en una base de datos pública. El dataset con el que trabajaremos esta hosteado en la base de datos SRA (Sequence Read Archive), con el accession SRR11247075. Para obtener la secuencia podemos utilizar diferentes vÃas que se detallan a continuación.
Para este enfoque se requiere tener previamente instalada el programa SRA toolkit, que se encuentra disponible para descargar en este link. Existen versiones para su utilización en Linux, Mac y Windows. En el siguiente link dejamos las instrucciones para su instalación.
Una vez instalado el software, para obtener los datos hosteados en el SRA se utilizará el siguiente comando:
prefetch SRR11247075
Este comando descarga de SRA un archivo tipo .sra
(ubicado en el directorio con el nombre del accession), que debe ser descomprimido, no necesariamente debe tener esa extensión pero se conoce su origen y se sabe que es un archivo de ese tipo (si se hace el prefetch en windows el archivo queda guardado en un directorio %userprofile%/ncbi/pubic/sra, tener en cuenta el path de los ejecutables). Para descomprimir utilizamos el comando:
fastq-dump --split-e SRR11247075.sra
En el caso de que se trate de secuenciación PE, este comando genera 2 archivos, con los sufijos R1 y R2, que corresponden a los reads forward y reverse de cada par.
Esta aproximación permite realizar análisis bioinformáticos desde un servidor y, por lo tanto, no requiere la instalación de software adicional en nuestros equipos y es idependiente del sistema operativo que utilicemos. Para obtener los datos desde la base de datos SRA son los siguientes:
¿Qué dice el reporte generado?
Para realizar el análisis de calidad se debe utilizar la app FastQC, también se puede instalar localmente desde su web oficial.
En kbase simplemente seleccionamos la app y cargamos la librerÃa correspondiente.
Observa el resultado del análisis de FastQC e interprétalos. Se puede chequear la ayuda de FastQC para entender la simbologÃa.
Created Object Name | Type | Description |
---|---|---|
SRR11247075 | SingleEndLibrary | Imported Reads |
Created Object Name | Type | Description |
---|---|---|
COVID-19 | SingleEndLibrary | Imported Reads |
Created Object Name | Type | Description |
---|---|---|
SRR11247075_trim1 | SingleEndLibrary | Trimmed Reads |
Created Object Name | Type | Description |
---|---|---|
COVID_19.ref | Assembly | Imported Assembly |
Created Object Name | Type | Description |
---|---|---|
SARS.fasta | Assembly | Imported Assembly |