点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:研究发现:AI生成答案超三成“不可靠”
首页> 网安频道> 评论观察 > 正文

研究发现:AI生成答案超三成“不可靠”

来源:参考消息网2025-09-19 17:49

  参考消息网9月18日报道 据英国《新科学家》周刊网站9月16日报道,生成式人工智能(AI)工具及其驱动的深度研究智能体和搜索引擎经常给出缺乏依据和存在偏见的说法,它们引述的资料并不支持这样的说法。一项分析得出了上述结论,它发现,AI工具提供的答案有大约三分之一缺乏可靠资料的支持。对开放人工智能研究中心(OpenAI)的GPT-4.5来说,这一比例更高,达到47%。

  赛富时公司AI研究部门的普拉纳夫·纳拉亚南·文基特和他的同事测试了一些生成式AI搜索引擎,包括OpenAI的GPT-4.5和GPT-5、You.com、“解惑”和微软的必应聊天。此外,他们还测试了5个深度研究智能体:GPT-5的深度研究功能、必应聊天的深度思考选项以及You.com、谷歌“双子座”和“解惑”提供的深度研究工具。

  纳拉亚南·文基特说:“我们希望对生成式搜索引擎进行社会技术评估。”目的是确定答案的质量及人类应该如何对待其中包含的信息。

  他们要求不同的AI引擎回答303个问题,评价AI的回应使用了8个指标。研究人员把这套指标称为DeepTrace。其设计目的是检测某个答案是否过于片面或自信,它与问题的相关性如何,它引述了什么资料,引述的资料对答案给出的说法有多少支持,以及引述的资料的详尽程度。

  问题大致被分成两组:第一组包含一些有争议的问题,以发现AI回应中的偏见;第二组用于检测一系列领域的专业知识,包括气象学、医学和人机交互。

  总的来说,AI驱动的搜索引擎和深度研究工具表现得相当差。

  研究人员发现许多模型给出了过于片面的答案。必应聊天搜索引擎给出的答案有大约23%包含缺乏依据的说法,而You.com和“解惑”AI搜索引擎的这一比例为31%左右。GPT-4.5给出的缺乏依据的说法更多,为47%,而“解惑”深度研究智能体的该比例高达97.5%。纳拉亚南·文基特说:“看到这样的情况确实让我们很惊讶。”(编译/杨新鹏)

研究发现:AI生成答案超三成“不可靠”

  手机屏幕上的OpenAI标识(美联社资料图片)

[ 责编:曾震宇 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 中欧班列开行突破13万列

  • 迎接国际护士节 致敬白衣天使

独家策划

推荐阅读
岁岁母亲节,浓浓感恩情。母爱藏于日常陪伴、融于朝夕相守。各地以温情满满的主题活动致敬母亲,有亲子相拥的暖心瞬间、有沉浸式感恩教育、有敬老陪伴闲话家常,也有鲜花寄情、书信传爱。
2026-05-10 20:18
安徽省铜陵市青少年机器人竞赛在铜陵市第三中学开赛,竞赛分为竞赛类项目和普及类项目,共有200支队伍,400余名中小学生参赛,通过比赛激发青少年科创兴趣,锻炼动手实践与创新思维能力。
2026-05-10 19:53
内蒙古乌兰察布市四子王旗脑木更苏木阿莫吾素嘎查“三北”工程治沙现场,在沙化区域栽种驼绒藜等乡土灌木,通过灌草结合、封山育草的治理模式修复退化草原,有效遏制土地沙化,稳步提升草原植被覆盖。
2026-05-10 19:49
河南省许昌市鄢陵县彭店镇,国家“两重”建设项目赵口引黄灌区现代化改造工程施工现场,建设者们抢抓工期、坚守施工一线,全力推进项目建设进度。
2026-05-10 19:40
安徽马鞍山和县至芜湖鸠江区长江水域上空,国网马鞍山供电公司联合安徽送变电工程有限公司组织员工,对±800千伏建苏线、±500千伏龙政线跨江线路开展走线检查。
2026-05-10 19:35