Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/50403
FERRAMENTA DE ANÁLISE DE HEPATITE, BANCO DE DADOS DE SEQUÊNCIAS HATSDB -HEPATITIS ANALYSIS TOOL, SEQUENCE DATABASE
Araújo Júnior, Helton Fábio Santos de | Date Issued:
2020
Advisor
Affilliation
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Salvador, BA, Brasil.
Abstract in Portuguese
INTRODUÇÃO: A Hepatite C, doença silenciosa causada pelo Vírus da Hepatite C (VHC), representa um problema na saúde pública global. Segundo a OMS (Organização Mundial da Saúde) cerca de 399.000 pessoas morrem anualmente por Hepatite C ou pelas doenças associadas, como cirrose ou carcinoma hepatocelular. Para lidar com a hepatite e evitar as suas possíveis progressões, é necessária a criação de vacinas. No entanto, os dados especializados necessários para o desenvolvimento de novos fármacos e tratamentos não estão disponíveis de forma centralizada em uma base de dados. Embora o VHC apresente risco severo à saúde pública, não há um banco de dados atualizado com análises biológicas sobre o vírus. Existem apenas bancos de dados primários e bancos de epítopos, e a única base de dados específica para o VHC foi descontinuada. OBJETIVO: Para obter uma vacina, é de grande valia que haja a informação sobre a distribuição dos subtipos e o mapeamento do genoma. Assim é possibilitado também que os epítopos imunogênicos, representados pela menor parcela do antígeno capaz de gerar uma resposta imune no hospedeiro, sejam mapeados, consequentemente se encontre a ordem de relevância de todos os epítopos. Desta forma, objetivou-se o desenvolvimento de um sistema autônomo que foca em obter dados primários e realizar mapeamento de sequências, classificação destas sequências e mapeamento de epítopos. MATERIAL e MÉTODOS: Neste trabalho, foi realizado um estudo in-sílico no propósito da obtenção dos dados primários, mapeamento e subtipagem de sequências genômicas utilizando modelos matemáticos para realizar alinhamentos conhecidos como matrizes de pontuação por posição, fazendo assim a classificação destas sequências em genótipos e subtipos. Desse modo, o próximo passo corresponde ao processo de mapeamento dos epítopos imunogênicos através de um algoritmo de janela deslizante, buscando encontrar regiões genômicas nas sequências de VHC correspondentes a um epítopo dentre todos os epítopos presentes no conjunto de dados que foram obtidos de um banco especializado. RESULTADOS: Se observa que o epítopo de sequência linear \201CYLLPRRGPRL\201D tem uma das maiores quantidades de correspondências (937.738 ocorrências totais e 17.384 ocorrências em registros únicos de sequências) em todas as sequências estando presente em 16 subtipos, e apresenta uma frequência de correspondência em sequências de 7,15% na quantidade total de sequências (não estando presente apenas nos subtipos 3b e 3k). Todavia, o epítopo de sequência linear \201CGSWHINRT\201D tem cerca da metade do total de correspondências (48.626 ocorrências totais e também para registros únicos de sequências), porém, está globalmente mais presente (em um total de 20% de todas as sequências). CONCLUSÃO: O HATsDB, os dados estatísticos dos mapeamentos, os backups de banco e os dados de epítopos estão disponíveis em: http://pah.bahia.fiocruz.br/hat/
Abstract
INTRODUCTION: Hepatitis C, a silent disease caused by the Hepatitis C Virus (HCV), represents a global public health issue. According to WHO (World Health Organization), about 399,000 people die annually from Hepatitis C or associated diseases such as cirrhosis or hepatocellular carcinoma. In order to deal with hepatitis and prevent its possible progressions, it is necessary to create vaccines. However, the specialized data necessary for the development of new drugs and treatments are not available centrally in a database. Although HCV presents a severe public health risk, there is no updated database with biological analyzes of the virus. There are only primary databases and epitope banks, and the only HCV-specific database has been discontinued. OBJECTIVE: To obtain a vaccine, it is nice-to-have information on the distribution of the subtypes and the mapping of the genome. Thus, it is also possible that the immunogenic epitopes, represented by the smallest portion of the antigen capable of generating an immune response in the host, are mapped, consequently finding all epitopes relevance order. Thus, the aim was to develop an autonomous system that focuses on obtaining primary data and performing sequence mapping, classification of these sequences, and mapping of epitopes. MATERIAL and METHODS: In this work, an in-silicon study was carried out in order to obtain primary data, mapping and subtyping genomic sequences using mathematical models to perform alignments known as position scoring matrices, thus making the classification of these sequences into genotypes and subtypes. Thus, the next step corresponds to the process of mapping immunogenic epitopes through a sliding window algorithm, seeking to find genomic regions in the HCV sequences corresponding to an epitope among all the epitopes present in the data set that was obtained from a specialized bank. RESULTS: It is observed that the linear sequence epitope \201CYLLPRRGPRL\201D has one of the largest number of matches (937,738 total occurrences and 17,384 occurrences in single sequence records) in all sequences being present in 16 subtypes, and has a correspondence frequency in 7.15% of sequences in the total number of sequences (not only present in subtypes 3b and 3k). However, the linear sequence epitope \201CGSWHINRT\201D has about half of the total matches (48,626 total occurrences and also for single sequence records), however, it is globally more present (in a total of 20% of all sequences). CONCLUSION: HATsDB, mapping statistical data, database backups, and epitope data are available at http://pah.bahia.fiocruz.br/hat/
Share