Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/64579
PROBABILISTIC INTEGRATION OF LARGE BRAZILIAN SOCIOECONOMIC AND CLINICAL DATABASES
Ligação probabilística
Dados de saúde e assistência social
Avaliação de precisão
Author
Affilliation
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
University College London (UCL). Farr Institute of Health Informatics Research. London, UK.
University College London (UCL). Farr Institute of Health Informatics Research. London, UK.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde (CIDACS), Salvador, BA, Brasil.
University College London (UCL). Farr Institute of Health Informatics Research. London, UK.
University College London (UCL). Farr Institute of Health Informatics Research. London, UK.
Abstract
The integration of disparate large and heterogeneous socioeconomic and clinical databases is considered essential to capture and model longitudinal and social aspects of diseases. However, such integration is challenging: databases are stored in disparate locations, make use of different identifiers, have variable data quality, record information in bespoke purpose-specific formats and have different levels of metadata. Novel computational methods are required to integrate them and enable their statistical analyses for epidemiological research purposes. In this paper, we describe a probabilistic approach for constructing a very large population-based cohort comprised of 114 million individuals using linkages between clinical databases from the National Health System and administrative databases from governmental social programmes. We present our data integration model for creating data marts (epidemiological data) and discuss our evaluation results in controlled and uncontrolled scenarios, which demonstrate that our model and tools achieve high accuracy (minimum of 91%) in different probabilistic data integration scenarios.
Keywords in Portuguese
Integração de dadosLigação probabilística
Dados de saúde e assistência social
Avaliação de precisão
Share