Estudio 2025 revela un 20 % de citas inventadas por IA en salud mental
Redacción HC
Un estudio experimental publicado en JMIR Mental Health analiza cómo la familiaridad del tema y la especificidad de la instrucción influyen en la fabricación de citas por modelos de lenguaje en investigación sobre salud mental.
| Características del estudio | Descripción y resultados |
|---|---|
| Tipo de estudio | Estudio experimental con análisis cuantitativo de textos generados por LLM |
| Modelo evaluado | GPT-4o |
| Revista científica | JMIR Mental Health (2025) |
| Número de textos generados | 6 revisiones académicas (~2 000 palabras cada una) |
| Número mínimo de citas por texto | 20 referencias |
| Tasa global de citas fabricadas | ≈20 % |
| Citas reales con errores | >50 % con metadatos incorrectos |
| Tasa máxima en temas especializados | ≈46 % de referencias inventadas |
¿Puede una herramienta diseñada para asistir a la investigación terminar inventando referencias científicas sin que el lector lo note? Esta es la pregunta de fondo que plantea un estudio publicado en JMIR Mental Health, una revista internacional especializada en salud digital y salud mental.
La investigación, desarrollada por un equipo de la Facultad de Salud de Deakin University, en Australia, examina un riesgo emergente en el uso académico de modelos de lenguaje a gran escala: la fabricación de citas bibliográficas. En un contexto donde estas herramientas se integran cada vez más en flujos de trabajo científicos, comprender sus límites resulta clave para la integridad de la investigación.
Basado en un diseño experimental, el estudio analiza cómo variables como la familiaridad del tema y la especificidad de la instrucción influyen directamente en la calidad y veracidad de las referencias generadas por inteligencia artificial.
La fabricación de citas como problema científico emergente
Uno de los principales aportes del estudio es delimitar con precisión el fenómeno conocido como hallucination o fabricación de citas. Este ocurre cuando un modelo de lenguaje genera referencias que aparentan ser académicamente válidas, pero no corresponden a publicaciones reales o contienen errores sustanciales en sus metadatos.
“La generación de citas inexistentes representa una amenaza directa para la fiabilidad de los textos académicos asistidos por IA”.
Según los autores, este problema no solo afecta a la exactitud técnica, sino que puede erosionar la confianza en artículos científicos, revisiones de literatura y contenidos de divulgación que utilicen modelos de lenguaje sin controles humanos estrictos.
Metodología experimental y verificación manual
El estudio se basó en un diseño experimental controlado utilizando GPT-4o para generar textos académicos sobre tres trastornos mentales con distintos niveles de visibilidad científica:
- trastorno depresivo mayor, ampliamente investigado;
- trastorno por atracón, con desarrollo intermedio;
- trastorno dismórfico corporal, menos estudiado.
Para cada trastorno se generaron dos tipos de revisiones: una general y otra especializada centrada en intervenciones digitales. En total, se produjeron seis textos, cada uno con al menos 20 referencias bibliográficas.
Las citas generadas fueron verificadas manualmente mediante bases de datos académicas como Google Scholar, Scopus y PubMed, evaluando su existencia real y la exactitud de datos como autores, año, título y DOI.
Hallazgos clave sobre errores y variabilidad temática
Los resultados muestran un patrón claro y preocupante. En promedio, alrededor del 20 % de las citas generadas eran completamente inventadas. Además, entre las referencias que sí correspondían a artículos reales, más de la mitad presentaban errores significativos en sus metadatos.
La tasa de fabricación varió notablemente según el tema:
- el trastorno depresivo mayor presentó una tasa baja, cercana al 6 %;
- el trastorno por atracón y el trastorno dismórfico corporal alcanzaron valores cercanos al 28–29 %;
- en revisiones altamente especializadas, la tasa llegó hasta un 46 % de citas inexistentes.
“La precisión de las referencias no es homogénea y depende del volumen de literatura disponible y de la formulación del prompt”.
Implicaciones para la investigación y la divulgación científica
Estos hallazgos tienen implicaciones directas para la ciencia abierta, las políticas editoriales y el uso responsable de inteligencia artificial. La automatización de tareas académicas sin verificación humana puede introducir errores sistemáticos difíciles de detectar, especialmente en áreas con menor desarrollo bibliográfico.
En periodismo científico y divulgación, el riesgo se amplifica: una referencia falsa bien formulada puede conferir una falsa sensación de autoridad, afectando el debate público en temas sensibles como la salud mental.
Los autores recomiendan fortalecer los protocolos de revisión humana, mejorar los algoritmos de los modelos y promover la transparencia en el uso de herramientas de IA dentro de la investigación académica.
El estudio publicado en JMIR Mental Health confirma que los modelos de lenguaje, aunque poderosos, no pueden sustituir la verificación académica rigurosa, especialmente cuando se trata de referencias científicas.
Temas relacionados
TecnologíaReferencia: Linardon, J., Jarman, H. K., McClure, Z., Anderson, C., Liu, C., & Messer, M. (2025). Influence of topic familiarity and prompt specificity on citation fabrication in mental health research using large language models: Experimental study. JMIR Mental Health. https://doi.org/10.2196/80371



