Una de las conclusiones más delicadas del trabajo reveló que los errores aparecían con más frecuencia en preguntas abiertas, es decir, en el tipo de consultas que una persona suele hacer en una conversación real. En esos casos, los modelos tendieron a mezclar información correcta con datos débiles, incompletos o directamente incorrectos.
Las preguntas abiertas fueron las que más expusieron los errores
Según el estudio, los peores resultados surgieron cuando los chatbots respondieron consultas amplias y abiertas. Ese tipo de planteos generó una proporción más alta de respuestas altamente problemáticas que las preguntas cerradas o más acotadas.
El dato es relevante porque, en la práctica, los usuarios no suelen formular dudas médicas con precisión técnica ni dentro de opciones limitadas. Preguntan si una vacuna es segura, si un tratamiento sirve o qué puede ayudar a mejorar el rendimiento físico. En ese terreno más ambiguo y cotidiano, los bots mostraron más fallas.
Los investigadores observaron que allí aparecía uno de los principales riesgos: respuestas convincentes en la forma, pero poco confiables en el contenido. Esa combinación puede hacer que la información errónea pase inadvertida para quien consulta.
Citas incompletas y referencias inventadas
El trabajo también analizó la calidad de las fuentes citadas por los sistemas. En promedio, las referencias obtuvieron un nivel de completitud de apenas 40%, y ninguno de los chatbots logró presentar una lista de citas completamente precisa.
Además, los autores señalaron la presencia de referencias y citas inventadas. Es decir, respuestas que aparentaban estar respaldadas por bibliografía o estudios, pero que no resistían una verificación posterior. A eso se sumó otro problema: los modelos respondieron con seguridad y casi sin advertencias sobre los límites de la información que estaban entregando.
Ese punto ayuda a explicar por qué estos chatbots pueden generar confianza y credibilidad en las personas. Una respuesta redactada con tono firme, lenguaje claro y apariencia académica puede parecer confiable, aunque contenga errores o información insuficiente.
Con esto en cuenta, los investigadores concluyeron que, incluso en asuntos médicos basados en evidencia, las herramientas conversacionales basadas en inteligencia artificial todavía no ofrecen garantías suficientes para orientar decisiones importantes de salud.
Por ahora, su utilidad parece más acotada. Pueden servir para resumir información, ordenar dudas o ayudar a preparar preguntas para una consulta profesional. Sin embargo, los resultados del trabajo muestran que todavía no son una fuente confiable para tomar decisiones médicas por cuenta propia.
















