Use este identificador para citar ou linkar para este item:
https://www.arca.fiocruz.br/handle/icict/52429
VIRALFLOW: A VERSATILE AUTOMATED WORKFLOW FOR SARS-COV-2 GENOME ASSEMBLY, LINEAGE ASSIGNMENT, MUTATIONS AND INTRAHOST VARIANTS DETECTION
SARS-CoV-2
Viruses
Virus bioinformatics
Genotyping
Genomic variants
Software
Autor(es)
Afiliação
Fundação Oswaldo Cruz. Instituto Aggeu Magalhães. Núcleo de Entomologia e Bioinformática. Recife, PE, Brasil.
Fundação Oswaldo Cruz. Instituto Aggeu Magalhães. Núcleo de Bioinformática. Recife, PE, Brasil.
Fundação Oswaldo Cruz. Instituto Aggeu Magalhães. Núcleo de Bioinformática. Recife, PE, Brasil.
Fundação Oswaldo Cruz. Fiocruz Ceará. Eusébio, CE, Brasil.
Fundação Oswaldo Cruz. Fiocruz Ceará. Eusébio, CE, Brasil.
Fundação Oswaldo Cruz. Instituto Aggeu Magalhães. Núcleo de Entomologia e Bioinformática. Recife, PE, Brasil.
Fundação Oswaldo Cruz. Instituto Aggeu Magalhães. Núcleo de Bioinformática. Recife, PE, Brasil.
Fundação Oswaldo Cruz. Instituto Aggeu Magalhães. Núcleo de Bioinformática. Recife, PE, Brasil.
Fundação Oswaldo Cruz. Fiocruz Ceará. Eusébio, CE, Brasil.
Fundação Oswaldo Cruz. Fiocruz Ceará. Eusébio, CE, Brasil.
Fundação Oswaldo Cruz. Instituto Aggeu Magalhães. Núcleo de Entomologia e Bioinformática. Recife, PE, Brasil.
Resumo
Com a pandemia do novo coronavírus e o surgimento de variantes com características diferentes, a comunidade científica internacional se colocou diante de um desafio: como estudar o vírus, seu espalhamento e sua evolução em escala mundial? Uma série de ferramentas para análise de diferentes dados relacionados a pandemia vem sendo desenvolvidas para permitir que cientistas de todo o mundo estudem o vírus causador da COVID-19. Dentre os grandes desafios, a análise de dados de sequenciamento de genomas virais obtidos de amostras de pacientes são essenciais na detecção de novas variantes e para a compreensão das mutações relevantes para a saúde pública. Múltiplas ferramentas já foram desenvolvidas para análise de sequências genéticas para a automatização do processo de classificação em linhagens e para a detecção de mutações. Ainda assim, não há uma ferramenta que centralize a análise de qualidade, montagem de genomas e classificação das linhagens, descrição de mutações e a análise intra-hospedeiro de variantes (para detectar quando uma pessoa está infectada com duas ou mais variantes de uma vez). Deste modo, grupos de pesquisa têm de trabalhar de forma descentralizada com diferentes ferramentas para obter e analisar as sequências. Este modo de trabalho baseado em ferramentas dispersas consome tempo e exige que grupos de pesquisa invistam no treinamento para utilização de vários serviços. Além disso, em casos em que um mesmo paciente está infectado com duas ou mais variantes, a separação e a montagem dos genomas não é possível através destas ferramentas. O presente artigo, publicado no periódico internacional Viruses, apresenta uma ferramenta desenvolvida por pesquisadores da Rede Genômica Fiocruz, para centralizar em um único pacote de funcionalidades e análises complexas como as descritas acima, de maneira econômica em termos de tempo despendido, permitindo a emissão de relatórios e tabelas de dados com base nos resultados de sequenciamento. Esta ferramenta, chamada de ViralFlow, automatiza vários processos importantes para a vigilância genômica e oferece uma plataforma para que pesquisadores possam estudar múltiplos aspectos de amostras do SARS-CoV-2 de forma centralizada e ágil.
Resumo em Inglês
The COVID-19 pandemic is driven by Severe Acute Respiratory Syndrome coronavirus 2 (SARS-CoV-2) that emerged in 2019 and quickly spread worldwide. Genomic surveillance has become the gold standard methodology used to monitor and study this fast-spreading virus and its constantly emerging lineages. The current deluge of SARS-CoV-2 genomic data generated worldwide has put additional pressure on the urgent need for streamlined bioinformatics workflows. Here, we describe a workflow developed by our group to process and analyze large-scale SARS-CoV-2 Illumina amplicon sequencing data. This workflow automates all steps of SARS-CoV-2 reference-based genomic analysis: data processing, genome assembly, PANGO lineage assignment, mutation analysis and the screening of intrahost variants. The pipeline is capable of processing a batch of around 100 samples in less than half an hour on a personal laptop or in less than five minutes on a server with 50 threads. The workflow presented here is available through Docker or Singularity images, allowing for implementation on laptops for small-scale analyses or on high processing capacity servers or clusters. Moreover, the low requirements for memory and CPU cores and the standardized results provided by ViralFlow highlight it as a versatile tool for SARS-CoV-2 genomic analysis.
Palavras-chave em inglês
GenomicsSARS-CoV-2
Viruses
Virus bioinformatics
Genotyping
Genomic variants
Software
Compartilhar