在线客服系统
大语言模型仍无法可靠区分信念与事实_行业动态_资讯_大健康环球网
分享好友 资讯首页 频道列表

大语言模型仍无法可靠区分信念与事实

2025-11-07 17:591300

科技日报北京11月6日电 (记者张梦然)在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。

这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,强调需要审慎对待模型输出结果,特别是在处理涉及主观认知与事实偏差的复杂场景时,否则LLM有可能会支持错误决策、加剧虚假信息的传播。

团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到LLM相较于真实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%。

团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(“Mary相信……”)时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。

研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并防止错误信息传播。

反对 0
举报 0
收藏 0
打赏 0
评论 0
聚焦精准功能营养,布局特医领域,飞鹤爱本携手行业伙伴共筑中国特医新生态
@page{size:8.27in11.69in;margin-left:1.25in;margin-ri

0评论2026-03-24292

截肢患者残肢中“解码”出大脑运动意图
科技日报北京3月23日电 (记者张梦然)瑞典查尔姆斯理工大学领导的研究团队取得一项关键突破,首次利用植入式

0评论2026-03-24171

出现这些信号,警惕儿童发育迟缓
联合国人权理事会和条约机制司负责人日前在发言时援引了一项数据:2024年,全球1.5亿幼儿出现发育迟缓。我

0评论2026-03-24461

智能伤口敷料可按需释放抗生素
科技日报北京3月23日电 (记者刘霞)美国布朗大学科学家开发出一种新型伤口敷料材料,只有在伤口中存在有害细

0评论2026-03-24822

小RNA调控“生命启动”机制破解
科技日报北京3月18日电 (记者刘园园)记者18日从西湖大学获悉,该校遗传物质表达与重构全国重点实验室申恩

0评论2026-03-20849

我国肝癌介入治疗取得系列成果
  科技日报南京3月18日电 (记者张晔 通讯员程守勤)3月18日是第26个全国爱肝日。当日,由中国科学院

0评论2026-03-20195

应对花粉过敏需走出认知误区
“很多人认为花粉过敏主要由杏花、桃花等观赏花引起,其实真正的元凶主要是空气中的风媒花。”在3月18日国家卫

0评论2026-03-20550

保养人体“解毒工厂”,专家有良方
近日,有女子瘦到皮包骨,结果被查出脂肪肝,引发网友热议。清华大学附属北京清华长庚医院肝胆胰中心肝胆内科主治

0评论2026-03-20888

线粒体可支撑感光细胞“起死回生”
科技日报讯 (记者刘霞)美国密歇根大学科学家针对小鼠开展的一项突破性研究发现,即使眼睛内的感光细胞已步入凋

0评论2026-03-20819

卫健委主任强调癌症早筛重要性 美年健康全链条体系精准护航国民健康
2026年3月7日,十四届全国人大四次会议民生主题记者会上,国家卫生健康委员会主任雷海潮聚焦癌症防治民生议

0评论2026-03-09663