Use este identificador para citar ou linkar para este item:
https://www.arca.fiocruz.br/handle/icict/13218
MODELAGEM CONCEITUAL DO SISTEMA DE BANCO DE DADOS PROTEINWORLDDB
Modelagem conceitual de Banco de Dados
Genômica Comparativa
Genômica
Estudo Comparativo
Desenho de Programas de Computador
Bezerra, Márcia Mártyres | Data do documento:
2012
Autor(es)
Orientador
Membros da banca
Afiliação
Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil
Resumo
Esta tese descreve o projeto conceitual do sistema de banco de dados ProteinWorldDB (PWDB). Um ponto importante da proposta do PWDB é permitir a construção de consultas e procedimentos no domínio da genômica comparativa sem a necessidade de comparação de sequências. Além disso, o PCG comparou milhões de sequências de proteína, incluindo o conjunto proteico total de centenas de genomas completos, utilizando programação dinâmica, e não um método heurístico, para os cálculos de similaridade. A estratégia do PCG, assim como a genômica, está fundamentada no conhecimento de que sequências biológicas por si só são pouco informativas; elas precisam ser analisadas a partir de um enfoque comparativo para a inferência de homologia. A comparação de sequências de diferentes organismos introduz uma perspectiva evolutiva ao processo, e o estudo comparativo de genomas completos pode ampliar a escala do conhecimento de um único processo biológico para o de sistemas biológicos complexos em células e organismos. Para responder eficientemente questões dessa natureza, o esquema conceitual apresentado associa bases de dados biológicos de referência aos índices de similaridade já pré-calculados e armazenados pelo PCG
Utilizando um formato gráfico de fácil compreensão para representar conceitos e relacionamentos (diagrama ER), o esquema foi proposto para facilitar o planejamento de consultas e procedimentos por pesquisadores da área de genômica (sem conhecimento de linguagens de bancos de dados), assim como guiar o desenvolvimento e a implementação física do PWDB por profissionais da área de computação. Alguns exemplos são apresentados com o objetivo de demonstrar a utilização do esquema conceitual para a especificação de consultas e procedimentos, mesmo antes da existência de um esquema lógico. O esquema pode ser facilmente estendido. Módulos anexos podem ser inseridos/removidos para incluir outros projetos, baseados em comparação de sequências de proteína, que se beneficiem das informações fornecidas pelo módulo central do esquema e novas bases de dados, específicas de diferentes áreas (-ômicas, por exemplo), podem ser integradas ao esquema
Resumo em Inglês
This thesis
describes
the conceptua
l design of the database system ProteinWorldDB
(PWDB)
.
An important
point
of the
PWDB
p
roposal
is to allow the construction of queries
and procedures in the field of comparative genomics without the need for sequence
comparison
.
Moreover
, the
PCG
compared
millions of protein sequences,
including the
entire set of proteins from hundreds of complete genomes
using
dynamic programming
,
rather than a heuristic method
,
for calculating similarity
PCG‘s strategy, like that of genomic studies in general, is grounded
in the knowledge
that biological sequences alone are uninformative. They need to be analyzed from a
comparative approach to infer homology. The comparison of sequences from different
organisms introduces an evolutionary perspective to the process
and
the
comparative
study of complete genomes can expand our knowledge from a single biological process
all the way to complex biological systems in cells and organisms.
To efficiently answer
questions of this nature, the conceptual
schema
links
selected
internati
onal reference
biological databases to similarity
indexes
already
precomputed
and stored by the PCG
.
By using an easily understandable graphic format to represent concepts and
relationships (ER diagram), the schema
was
proposed
to help
the design of querie
s and
procedures by
genomic researchers (who may not have knowledge of database
languages)
as well as to guide the development and physical implementation of
the
system by developers.
Some e
xamples
are
presented
to demonstrate the use of the
conceptual sch
ema for specifying queries and procedures, even before the existence of
a logical schema.
The schema can be easily extended. Additional modules can be inserted/removed to
include other
protein sequences comparisons
projects that may benefit from
the
inform
ation provided by the schema ́s central module. Likewise, new databases specific
to different areas
(
-
omics, for example) can be cross
-
referenced to the schema This thesis
describes
the conceptua
l design of the database system ProteinWorldDB
(PWDB)
.
An important
point
of the
PWDB
p
roposal
is to allow the construction of queries
and procedures in the field of comparative genomics without the need for sequence
comparison
.
Moreover
, the
PCG
compared
millions of protein sequences,
including the
entire set of proteins from hundreds of complete genomes
using
dynamic programming
,
rather than a heuristic method
,
for calculating similarity
PCG‘s strategy, like that of genomic studies in general, is grounded
in the knowledge
that biological sequences alone are uninformative. They need to be analyzed from a
comparative approach to infer homology. The comparison of sequences from different
organisms introduces an evolutionary perspective to the process
and
the
comparative
study of complete genomes can expand our knowledge from a single biological process
all the way to complex biological systems in cells and organisms.
To efficiently answer
questions of this nature, the conceptual
schema
links
selected
internati
onal reference
biological databases to similarity
indexes
already
precomputed
and stored by the PCG
.
By using an easily understandable graphic format to represent concepts and
relationships (ER diagram), the schema
was
proposed
to help
the design of querie
s and
procedures by
genomic researchers (who may not have knowledge of database
languages)
as well as to guide the development and physical implementation of
the
system by developers.
Some e
xamples
are
presented
to demonstrate the use of the
conceptual sch
ema for specifying queries and procedures, even before the existence of
a logical schema.
The schema can be easily extended. Additional modules can be inserted/removed to
include other
protein sequences comparisons
projects that may benefit from
the
inform
ation provided by the schema ́s central module. Likewise, new databases specific
to different areas
(
-
omics, for example) can be cross
-
referenced to the schema
Palavras-chave
Banco de Dados BiológicosModelagem conceitual de Banco de Dados
Genômica Comparativa
DeCS
Bases de Dados de Ácidos NucleicosGenômica
Estudo Comparativo
Desenho de Programas de Computador
Compartilhar