Are Chat Generative Pre-trained Transformer Answers to Patient Questions Regarding Fecal Incontinence Accurate, Complete, and Consistent With the American Society of Colorectal Surgeons Clinical Practice Guidelines?

Journal: Diseases of the colon and rectum
Published Date:

Abstract

BACKGROUND: Chat Generative Pre-trained Transformer, an artificial intelligence large language model chatbot, transforms how patients obtain information regarding health concerns, including sensitive questions. OBJECTIVE: To assess and compare the accuracy, completeness, and consistency of answers by Chat Generative Pre-trained Transformer-3.5, -4, -5, and -5 Plus to common questions regarding fecal incontinence. DESIGN: Thirty questions, written in lay language and based on American Society of Colon and Rectal Surgeons Clinical Practice Guidelines for fecal incontinence, were presented in sequential order twice to all Chat Generative Pre-trained Transformer versions. Question categories included general/background, diagnosis, treatment, and miscellaneous. Three board-certified professors of colorectal surgery with expertise treating fecal incontinence rated the answers "yes" or "no" for accuracy, completeness, and consistency with guidelines. A "no" prompted a free-text response. Quantitative and qualitative analysis was performed. SETTINGS: Chat Generative Pre-trained Transformer-3.5, -4, -5 (free access), and -5 Plus (paid subscription). PATIENTS: Patients with fecal incontinence were included. INTERVENTION: Patient questions. MAIN OUTCOME MEASURES: Accuracy, completeness, and consistency with practice guidelines. RESULTS: Reviewers rated 61% of answers accurate, 65% complete, and 68% consistent for Chat Generative Pre-trained Transformer-3.5; 72%, 73%, and 69% for Chat Generative Pre-trained Transformer-4; 50%, 73%, 68% for Chat Generative Pre-trained Transformer-5 Free; and 83%, 95%, and 82% for Chat Generative Pre-trained Transformer-5 Plus, respectively. Three questions triggered content warning by Chat Generative Pre-trained Transformer, flagging them as inappropriate and terminating the chat. Qualitative analyses revealed 10 emergent subthemes; the most frequent was inaccuracy of treatment recommendations. LIMITATIONS: The current set of chatbots is not intended for medical use. CONCLUSIONS: No version of Chat Generative Pre-trained Transformer provided answers that were entirely accurate, complete, or consistent with clinical practice guidelines; however, the paid version performed markedly better than the other versions. Analysis of Chat Generative Pre-trained Transformer-5 Free versus Plus highlighted a dimension of disparity introduced by paywall-contingent model performance. Our study emphasizes the necessity for patient and provider education on the benefits and pitfalls of this technology regarding health information. See Video Abstract . SON PRECISAS, COMPLETAS Y COHERENTES CON LAS DIRECTRICES DE PRCTICA CLNICA DE LA SOCIEDAD AMERICANA DE CIRUJANOS COLORRECTALES LAS RESPUESTAS DE CHATGPT A LAS PREGUNTAS DE LOS PACIENTES SOBRE LA INCONTINENCIA FECAL: ANTECEDENTES:ChatGPT, un chatbot basado en un modelo de lenguaje grande de inteligencia artificial, transforma la forma en que los pacientes obtienen información sobre cuestiones de salud, incluidas preguntas delicadas.OBJETIVO:Evaluar y comparar la precisión, exhaustividad y coherencia de las respuestas de ChatGPT-3.5, 4, 5 y 5 Plus a preguntas frecuentes sobre la incontinencia fecal.DISEÑO:Se presentaron treinta preguntas redactadas en lenguaje sencillo, basadas en las directrices de práctica clínica de la Sociedad Americana de Cirujanos de Colon y Recto para la incontinencia fecal, en orden secuencial y dos veces a todas las versiones de ChatGPT. Las categorías de preguntas incluían información general/antecedentes, diagnóstico, tratamiento y miscelánea. Tres profesores certificados en cirugía colorrectal con experiencia en el tratamiento de la incontinencia fecal calificaron las respuestas con «sí» o «no» en función de su precisión, exhaustividad y coherencia con las directrices. Un «no» daba lugar a una respuesta de texto libre. Se realizó un análisis cuantitativo y cualitativo.CONFIGURACIÓN:ChatGPT-3.5, ChatGPT-4, ChatGPT-5 (acceso gratuito), ChatGPT-5 Plus (suscripción de pago)INTERVENCIÓN:Preguntas de los pacientes.PRINCIPALES MEDIDAS DE RESULTADO:Exactitud, exhaustividad y coherencia con las directrices prácticasRESULTADOS:Los revisores calificaron el 61 % de las respuestas como exactas, el 65 % como completas y el 68 % como coherentes para ChatGPT-3.5, el 72 %, el 73 % y el 69 % para ChatGPT-4, 50 %, 73 % y 68 % para ChatGPT-5 gratuito, y 83 %, 95 % y 82 % para ChatGPT-5, respectivamente. Tres preguntas activaron la advertencia de contenido de ChatGPT, que las marcó como inapropiadas y terminó el chat. Los análisis cualitativos revelaron 10 subtemas emergentes; el más frecuente fue la inexactitud de las recomendaciones de tratamiento.LIMITACIONES:El conjunto actual de chatbots no está destinado a uso médico.CONCLUSIONES:Ninguna versión de ChatGPT proporcionó respuestas totalmente precisas, completas o coherentes con las directrices de práctica clínica, aunque la versión de pago funcionó notablemente mejor que el resto. El análisis de ChatGPT-5 free frente a Plus puso de relieve una dimensión de disparidad introducida por el rendimiento del modelo dependiente del muro de pago. Nuestro estudio hace hincapié en la necesidad de educar a los pacientes y a los proveedores sobre los aspectos positivos y los inconvenientes de esta tecnología en lo que respecta a la información sanitaria. (AI-generated translation ).

Authors

  • Lindsay L Welton
    University of Minnesota Department of Surgery, Minneapolis, Minnesota.
  • Melissa A Gunderson
    University of Minnesota Department of Surgery, Minneapolis, Minnesota.
  • Geetanjali Rajamani
    University of Minnesota, Minneapolis, MN USA.
  • Ying Liu
    The First School of Clinical Medicine, Lanzhou University, Lanzhou, China.
  • Karen Trang
    Division of Clinical Informatics and Digital Transformation, Department of Medicine, University of California San Francisco, San Francisco, CA; Division of General Surgery, Department of Surgery, University of California San Francisco, San Francisco, CA.
  • Lauren Weaver
    Department of Nutrition, Dietetics, and Food Science, Brigham Young University, Provo, UT.
  • Alexander M Troester
    University of Minnesota Department of Surgery, Minneapolis, Minnesota.
  • Rui Zhang
    Department of Cardiology, Zhongda Hospital, Medical School of Southeast University, Nanjing, China.
  • Wolfgang B Gaertner
    University of Minnesota Department of Surgery, Minneapolis, Minnesota.
  • Mark L Welton
    University of Minnesota Department of Surgery, Minneapolis, Minnesota.
  • Elizabeth C Wick
    Division of Clinical Informatics and Digital Transformation, Department of Medicine, University of California San Francisco, San Francisco, CA; Division of General Surgery, Department of Surgery, University of California San Francisco, San Francisco, CA.
  • Genevieve B Melton
    Institute for Health Informatics, University of Minnesota, Minneapolis, Minnesota, USA.

Keywords

No keywords available for this article.