Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/45893
CIDACS‑RL: A NOVEL INDEXING SEARCH AND SCORING‑BASED RECORD LINKAGE SYSTEM FOR HUGE DATASETS WITH HIGH ACCURACY AND SCALABILITY
Data linkage
Entity resolution
Indexing
Information retrieval techniques
Scalability
Scoring Search
Author
Affilliation
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil / London School of Hygiene and Tropical Medicine. Department of Non‑communicable Disease Epidemiology. London, UK / University of Oxford. Center for Statistics in Medicine. Oxford, UK.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil / Federal University of Bahia. Department of Statistics. Salvador, BA, Brazil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil / Federal University of Bahia. Department of Statistics. Salvador, BA, Brazil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil / Federal University of Bahia. Computer Science Department. Salvador, BA, Brazil / London School of Economics and Political Science. Department of Statistics. London, UK.
London School of Hygiene and Tropical Medicine. Department of Non‑communicable Disease Epidemiology. London, UK / University of Oxford. Center for Statistics in Medicine. Oxford, UK.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil / Federal University of Bahia. Institute of Public Health. Salvador, BA, Brazil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil / London School of Hygiene and Tropical Medicine. Department of Non‑communicable Disease Epidemiology. London, UK / University of Oxford. Center for Statistics in Medicine. Oxford, UK.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil / Federal University of Bahia. Department of Statistics. Salvador, BA, Brazil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil / Federal University of Bahia. Department of Statistics. Salvador, BA, Brazil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil / Federal University of Bahia. Computer Science Department. Salvador, BA, Brazil / London School of Economics and Political Science. Department of Statistics. London, UK.
London School of Hygiene and Tropical Medicine. Department of Non‑communicable Disease Epidemiology. London, UK / University of Oxford. Center for Statistics in Medicine. Oxford, UK.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil / Federal University of Bahia. Institute of Public Health. Salvador, BA, Brazil.
Abstract
Record linkage is the process of identifying and combining records about the same individual from
two or more different datasets. While there are many open source and commercial data linkage tools, the volume and
complexity of currently available datasets for linkage pose a huge challenge; hence, designing an efficient linkage
tool with reasonable accuracy and scalability is required.
Methods: We developed CIDACS-RL (Centre for Data and Knowledge Integration for Health – Record Linkage), a
novel iterative deterministic record linkage algorithm based on a combination of indexing search and scoring algorithms
(provided by Apache Lucene). We described how the algorithm works and compared its performance with
four open source linkage tools (AtyImo, Febrl, FRIL and RecLink) in terms of sensitivity and positive predictive value
using gold standard dataset. We also evaluated its accuracy and scalability using a case-study and its scalability and
execution time using a simulated cohort in serial (single core) and multi-core (eight core) computation settings.
Results: Overall, CIDACS-RL algorithm had a superior performance: positive predictive value (99.93% versus AtyImo
99.30%, RecLink 99.5%, Febrl 98.86%, and FRIL 96.17%) and sensitivity (99.87% versus AtyImo 98.91%, RecLink 73.75%,
Febrl 90.58%, and FRIL 74.66%). In the case study, using a ROC curve to choose the most appropriate cut-off value
(0.896), the obtained metrics were: sensitivity = 92.5% (95% CI 92.07–92.99), specificity = 93.5% (95% CI 93.08–93.8)
and area under the curve (AUC) = 97% (95% CI 96.97–97.35). The multi-core computation was about four times faster
(150 seconds) than the serial setting (550 seconds) when using a dataset of 20 million records.
Conclusion: CIDACS-RL algorithm is an innovative linkage tool for huge datasets, with higher accuracy, improved
scalability, and substantially shorter execution time compared to other existing linkage tools. In addition, CIDACS-RL
can be deployed on standard computers without the need for high-speed processors and distributed infrastructures.
Keywords
AccuracyData linkage
Entity resolution
Indexing
Information retrieval techniques
Scalability
Scoring Search
Share