Por favor, use este identificador para citar o enlazar este ítem:
https://www.arca.fiocruz.br/handle/icict/50142
Tipo
TesisDerechos de autor
Acceso abierto
Colecciones
Metadatos
Mostrar el registro completo del ítem
FERRAMENTA E ANÁLISE DE BIG DATA APLICADAS A LEISHMANIOSE TEGUMENTAR: ASPECTOS CLÍNICOS E GENÔMICOS
Anotação Genômica
Big Data
Variabilidade genômica
Leishmania braziliensis
Leishmaniose e Integração de dados
Genomic annotation
Big data
Genomic variation
Leishmania braziliensis
Leishmaniasis and Data integration
Torres, Felipe Guimarães | Fecha del documento:
2020
Autor
Director
Miembros de la junta
Afiliación
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Salvador, BA, Brasil.
Resumen en portugues
metodológicos e de custos reduzidos a geração de dados biológicos sobre os parasitos responsáveis pelas Leishmanioses em especial a Leishmania braziliensis. O genoma desse parasito foi sequenciado e reanotado e os estudos clínicos têm avançado com técnicas mais assertivas de tratamento e diagnóstico. Estudos genéticos, correlacionaram mutações em sítios genômicos específicos desse parasito com uma manifestação clínica atípica permitindo o maior entendimento do impacto de alterações do genoma do parasito na patologia do hospedeiro. Todavia, existe uma carência de novas ferramentas computacionais que permitam o armazenamento e integração desses múltiplos tipos de dados estruturados e não-estruturados, gerados pelas pesquisas e novas tecnologias utilizadas. As novas técnicas e recursos computacionais permitem que essa integração de dados componha análises mais complexas utilizando um maior volume dos mesmos. Assim propõe-se desenvolver bancos de dados com as caraterísticas clínico-epidemiológicas dos pacientes e as variações do parasito. OBJETIVO: Realizar uma análise exploratória do genoma da Leishmania braziliensis e desenvolver ferramentas para sua interação com dados clínicos. MATERIAL E MÉTODO: Inicialmente, foi realizado um estudo na área endêmica de Jiquiriçá/BA para levantamento de requisitos e especificações para um sistema que se adequasse ao gerenciamento de dados clínicos em estudos de Coorte desse patógeno. O sistema foi desenvolvido em Java com seu banco de dados utilizando o Postgres. Depois dessa fase, analisou-se todos os genomas disponíveis no estudo ERP003732 do SRA (Sequence Read Archive), totalizando 98 amostras sequenciadas de L. braziliensis. Um pipeline computacional foi utilizado para análise de mutações sendo composto por: Trimmomatic, GATK, SAMTools e BEDTools. Em seguida, avaliou-se a variação gênica utilizando a medida de entropia sendo construída uma árvore filogenética utilizando o Mega X. RESULTADOS E CONCLUSÕES: Utilizando a experiência de pesquisadores especialistas em estudos clínicos de Leishmaniose Tegumentar (LT), foi desenvolvido um gerenciador de dados clínicos e imagens de estudos sobre essa patologia, o RegaDB Leishmaniasis. Este se integra com as principais ferramentas de análises de dados clínicos por meio da exportação de dados em arquivos CSV (Comma separated values). O acesso aos dados se dá através do controle de acesso realizado por contas de usuários e níveis. Todo o código-fonte dessa ferramenta é open-source e está disponível no Github (https://github.com/fgtorres/regadbleishmaniasis). Nesse trabalho, foi realizado o estudo da variedade de nucleotídeos ao longo do genoma da L. braziliensis. Identificou-se cerca de 25.368 sítios com mutações no dataset de genomas. Estes foram anotados, sendo que 32% (8.311 de 25.368) das mutações ocorreram em regiões intra-gênicas. Alguns desses genes possuíam mais de 10 sítios com ocorrência de mutações ao longo da sua sequência como por exemplo Kinetoplast-associated protein-like, que demonstrou um grande potencial para identificação de subgênero. Com a possibilidade de armazenamento de dados e imagens, o RegaDB Leishmaniasis permite a criação de banco de dados de múltiplos tipos que pode ser utilizado em análises complexas por técnicas de Big Data dando suporte a novos estudos.
Resumen en ingles
methodological and low cost means, the generation of biological data on the parasites responsible for Leishmaniasis, especially Leishmania braziliensis. The genome of this parasite has been sequenced and reannote and clinical studies have advanced with more assertive techniques of treatment and diagnosis. Genetic studies have correlated mutations in specific genomic sites of this parasite with an atypical clinical manifestation allowing a greater understanding of the impact of changes in the parasite's genome on the host's pathology. However, there is a lack of new computational tools that allow the storage and integration of these multiple types of structured and unstructured data, generated by the research and new technologies used. The new techniques and computational resources allow this integration of data to compose more complex analyzes using a larger volume of them. Thus, it is proposed to develop databases with the clinical-epidemiological characteristics of the patients and the variations of the parasite. OBJECTIVE: To carry out an exploratory analysis of the Leishmania braziliensis genome and develop tools for its interaction with clinical data. MATERIAL AND METHOD: Initially, a study was carried out in the endemic area of Jiquiriçá / BA to survey requirements and specifications for a system that would suit the management of clinical data in Cohort studies of this pathogen. The system was developed in Java with its database using Postgres. After this phase, all genomes available in the ERP003732 study of the SRA (Sequence Read Archive) were analyzed, totaling 98 sequenced samples of L. braziliensis. A computational pipeline was used for mutation analysis, comprising: Trimmomatic, GATK, SAMTools and BEDTools. Then, the genetic variation was evaluated using the entropy measure and a phylogenetic tree was built using the Mega X. RESULTS AND CONCLUSIONS: Using the experience of researchers specialized in clinical studies of Tegumentary Leishmaniasis (LT), a manager of clinical data and images of studies on this pathology, the RegaDB Leishmaniasis, was developed. It integrates with the main clinical data analysis tools by exporting data in CSV (Comma separated values) files. Access to data is done through access control performed by user accounts and levels. All the source code for this tool is open-source and is available on Github (https://github.com/fgtorres/regadb-leishmaniasis). In this work, the study of the variety of nucleotides along the genome of L. braziliensis was carried out. About 25,368 sites were identified with mutations in the genome dataset. These were noted, with 32% (8,311 of 25,368) of the mutations occurring in intragenic regions. Some of these genes had more than 10 sites with mutations occurring along their sequence, such as Kinetoplast-associated protein-like, which demonstrated a great potential for subgenus identification. With the possibility of storing data and images, RegaDB Leishmaniasis allows the creation of a database of multiple types that can be used in complex analyzes by Big Data techniques, supporting new studies.
Palabras clave en portugues
Bancos de dadosAnotação Genômica
Big Data
Variabilidade genômica
Leishmania braziliensis
Leishmaniose e Integração de dados
Palabras clave en ingles
DatabaseGenomic annotation
Big data
Genomic variation
Leishmania braziliensis
Leishmaniasis and Data integration
Compartir