Mammography reporting dataset with BI-RADS system for natural language processing applications: Addressing public data gaps in Spanish.

Journal: Data in brief

Published Date: Jun 7, 2025

Abstract

Applying Natural Language Processing (NLP) to clinical reports is important for automating the analysis and classification of clinical data, improving diagnostic accuracy, and enhancing healthcare workflows. This article presents a dataset derived from mammography reports written in Spanish collected across multiple medical units operated by the Oxades company in Paraguay. The dataset contains 4357 records and 15 variables, including the text of the complete report and also each of its sections separately (clinical observations, diagnostic conclusions, follow-up recommendations), and the BI-RADS (Breast Imaging Reporting and Data System) classification assigned to each one of the reports. Additionally, the dataset includes metadata such as report IDs, dates, and patient information such as age, patient reasons for the analysis, last menstruation period, type of hormonal therapy received, family history and number of children. To ensure patient confidentiality, all identifiable data was removed, and the dataset was structured using automated segmentation and manual verification to ensure quality and transparency. This dataset is an invaluable resource for both medical and AI research communities. It provides real-world data for developing and testing NLP algorithms and machine learning models, specifically for automating BI-RADS classification and analyzing mammography reports.

Authors

José Luis Vázquez Noguera

Universidad Americana, Asunción 1029, Paraguay.
Alejandro Torres-Hurtado

Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas, Universidad Nacional Autónoma de México, Coyoacán, 04510 México City, México.
Helena Gómez-Adorno

Instituto Politécnico Nacional (IPN), Centro de Invetigación en Computación (CIC), Mexico City, Mexico.
Julio César Mello-Román

Universidad Americana, Asunción 1029, Paraguay.
Enrique Javier Fleitas-Alvarez

Universidad Americana, Asunción 1029, Paraguay.
Federico Fernando Espinola Schulze

Universidad Americana, Asunción 1029, Paraguay.
Miguel García-Torres

Universidad Pablo de Olavide, Seville, Spain.
Carlos Domingo Méndez Gaona

Universidad Americana, Asunción 1029, Paraguay.
Pedro Esteban Gardel Sotomayor

Universidad Católica Nuestra Señora de la Asunción, Campus Alto Paraná, Paraguay.
Silvia Vázquez Noguera

Universidad Americana, Asunción 1029, Paraguay.
Norma Elizabeth Zaracho Amarilla

OXADES, Asunción, Paraguay.
Oxades Wilfrido Gamarra Esquivel

OXADES, Asunción, Paraguay.

Keywords

No keywords available for this article.

External Resources

View on PubMed Access via DOI PubMed (40612472)

Mammography reporting dataset with BI-RADS system for natural language processing applications: Addressing public data gaps in Spanish.

Abstract

Authors

Keywords

External Resources

Popular Topics

Recent Journals

Mammography reporting dataset with BI-RADS system for natural language processing applications: Addressing public data gaps in Spanish.

Abstract

Authors

Keywords

External Resources

Stay Ahead of Medical AI

Popular Topics

Recent Journals