哈佛医学院研究团队对包括ChatGPT、Gemini和Claude在内的20多种先进AI大型语言模型进行了评估。研究重点考察了这些模型基于患者症状和体征进行鉴别诊断的能力。结果显示AI模型的初步诊断错误率达到80%。该发现揭示了当前AI技术在医疗诊断应用中的重大局限性。研究未说明具体错误类型及其临床影响程度。