在线客服系统
大语言模型仍无法可靠区分信念与事实_行业动态_资讯_大健康环球网
分享好友 资讯首页 频道列表

大语言模型仍无法可靠区分信念与事实

2025-11-07 17:591390

科技日报北京11月6日电 (记者张梦然)在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。

这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,强调需要审慎对待模型输出结果,特别是在处理涉及主观认知与事实偏差的复杂场景时,否则LLM有可能会支持错误决策、加剧虚假信息的传播。

团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到LLM相较于真实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%。

团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(“Mary相信……”)时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。

研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并防止错误信息传播。

反对 0
举报 0
收藏 0
打赏 0
评论 0
1月资讯
科研突破格陵兰睡鲨心脏抗衰机制为人类老年心脏健康研究提供新思路(1 月 19 日,英国):意大利和丹麦等国科研团队发现,格陵兰

0评论2026-01-2027

华为擎云亮相第八届海南国际健康产业博览会,以数智科技赋能健康管理新形态
华为擎云亮相第八届海南国际健康产业博览会,以数智科技赋能健康管理新形态2025年12月19日至22日,以汇聚全球健康资源、推动产业

0评论2025-12-23201

蚂蚁阿福引爆AI健康管理赛道,美年健康锚定下一代AI健康智能体核心生态位
@page{size:8.27in11.69in;margin-left:1.25in;margin-right:1

0评论2025-12-22532

国家卫健委:饱和脂肪及糖含量将列入预包装食品营养标签
今天(19日),国家卫生健康委召开新闻发布会,介绍新版《食品安全国家标准 预包装食品营养标签通则》有关情况。营养标签

0评论2025-12-22233

诱骗老年人买“神药” 五起私域直播虚假宣传典型案例公布
市场监管总局今天(12月19日)公布五起民生领域私域直播虚假宣传典型案例。一、广东省广州市天河区市场监管局查处广州赞

0评论2025-12-22822

探索咖啡健康,《2025咖啡成分的研究、综述与展望》报告发布
@page{size:8.27in11.69in;margin-left:1.25in;margin-ri

0评论2025-12-22290

2018-2025年中央财政累计为医疗保障投入超3万亿元 惠及超180亿人次看病报销
央视网消息:据国家医保局消息,党中央、国务院始终把人民健康放在优先发展的战略位置,不断加大医保领域财政投入规模。20

0评论2025-12-22350

我国侵入式脑机接口临床试验取得新进展
12月17日,中国科学院脑科学与智能技术卓越创新中心发布该中心与国内科研机构及医疗单位合作开展的第二例侵入式脑机接口

0评论2025-12-22438

专解中老年肌肉流失困境!飞鹤爱本小分子乳蛋白特膳粉系列新品上市
@page{size:8.27in11.69in;margin-left:1.25in;margin-ri

0评论2025-12-22337

天津市中医药循证医学中心主任张俊华:循证医学证据转化迈入智能化阶段
中国经济网广州12月11日讯(记者 郭文培)第二届中国呼吸健康大会12月6日在广州举行。天津中医药大学副校长、天津市

0评论2025-12-22751