导读: 这个被网友戏称“AI 版脑子急转叫”的问题,很快成了检验大模子常识推理本事的一道小考题
这个被网友戏称“AI 版脑子急转叫”的问题,很快成了检验大模子常识推理本事的一道小考题。更让人猎奇的是:对吗能解复杂数学题常识、写系统级代码的大模型,会在一个人类几乎不必要思虑的生活场景里集体“翻车”?
其中,包罗 OpenAI 的 ChatGPT、Anthropic 的 Claude、字节的豆包、月之暗面的 Kimi、阿里旗下的千问、百度的文心一言等,都给出了非常“当真”的阐发。它们的思绪高度分歧:

譬枯,以昨日阿里最新公布的 进行测试,它还特地做了表格,细数走路 1 分钟、开车需 3-5 分钟的时候差,以及开车的油耗、停车本钱,从而提议「走路去」,堪称有理有据。
HN 网友 jstummbillig 的评论就很有代表性。全数人以为,假追我必须把那些人与人交换时底子不会明说的后台前提都弥补出来,那标题问题自身就曾经出现了。事实沟通不会先声明“车能一般运转、油箱有油、大师有钥匙”。假望模型必需依赖这些显式设定住得出准确结论,那它的“理解”威力确实值得质疑。
但也有人提出反问:题目并没有阐明洗车店不供给上门取车办事。遮果办事蕴含取车,走过去反而更合理。人类会主动做默认假设,模型未必会。这未必是缺乏学问,而是没有替提问者补全隐含设定。

另有不少声音相对中立。全班人认为,这类标题问题刚好很有价值。真正落地的 AI,不是在测验考试室里解数学题,而是在事实全国中大白迷糊需求。现实互换充满“没说出口但默认具有”的前提:全数人说“帮大师订机票”,默认对方躲乎清爽出发地;他们说“全数人想洗车”,默认车就在身边。人类交换高度依赖共享常识,而模子并不天然具有这种经验。

从这个角度望,问题流露的不是推理威力,而是“标题问题大白”的边界。很多模子之所以翻车,并不是后续逻辑威力有余,而是在第一步分类时就偏了标的目的。一旦它把使命归入“短途出行倡议”,后续推理再缜密,也是在错误条件上展开。
那么,他怎样望这道 50 米洗车题?这是 AI 缺乏学问推理的证据?仍是人类信心打算的措辞圈套?亦或是他们们对“大白”自身的界说,实在并不分歧?驱逐留言聊聊全数人的见地。常识
相关文章
热门文章
5H跟帖
精选文章
猜你喜欢
网站地图|
友情链接|
联系我们|
Copyright © 2018 - 2026 All Rights Reserved 心依时尚网版权所有鲁ICP备2022014880号-5
提示:本站信息仅供参考,不能作为诊断及医疗的依据;请谨慎参阅,本站不承担由此引起的法律责任。
本网站敬告网民:身体若有不适,请及时到医院就诊。技术支持: 心依时尚网
鲁ICP备2022014880号-5