该项目研究了AI模型生成的误导性医疗内容,定义为‘医疗幻觉’,并引入了一种新的分类方法。研究使用了Med-HALT数据集和医生注释的真实病例,对最先进的语言模型(LLM)进行基准测试,揭示尽管采取了缓解措施,幻觉仍然存在。研究表明,链式思考(CoT)和搜索增强生成等技术可以降低幻觉率,但不能完全消除,尤其在需要事实回忆和时间推理的任务中。