Potential limitations in COVID-19 machine learning due to data source variability: A case study in the nCov2019 dataset.

Journal: Journal of the American Medical Informatics Association : JAMIA
PMID:

Abstract

OBJECTIVE: The lack of representative coronavirus disease 2019 (COVID-19) data is a bottleneck for reliable and generalizable machine learning. Data sharing is insufficient without data quality, in which source variability plays an important role. We showcase and discuss potential biases from data source variability for COVID-19 machine learning.

Authors

  • Carlos Sáez
  • Nekane Romero
    Biomedical Data Science Lab, Instituto Universitario de Tecnologías de la Información y Comunicaciones, Universitat Politècnica de València, Camino de Vera s/n, Valencia 46022, España.
  • J Alberto Conejero
    Instituto Universitario de Matemática Pura y Aplicada, Universitat Politécnica de Valéncia, Camino de Vera s/n, Valencia 46022, Spain. Electronic address: aconejero@upv.es.
  • Juan M García-Gómez
    Biomedical Data Science Lab. Instituto de Aplicaciones de las Tecnologías de la Información y de las Comunicaciones Avanzadas (ITACA), Universitat Politécnica de Valéncia, Camino de Vera s/n, Valencia 46022, Spain. Electronic address: juanmig@ibime.upv.es.