一都数学题吵翻天,实测十家大模子:ChatGPT差点翻车

一都数学题吵翻天,实测十家大模子:ChatGPT差点翻车

13.11和13.8谁大?——这么一都陋劣的“小升初”数学题难倒一众网友和大模子。

“13.8 13.11”曾经成为积聚新热梗。

上周五(7月12日)综艺《歌手2024》投票率出炉,孙楠以13.8%的投票率位居第三,Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高?”连忙引起热议,随后“13.8 13.11”话题登上微博热搜。

围绕这么一都陋劣数学题,南都记者发问了9家国产大模子以及各人大模子标杆ChatGPT3.5。效用裸露,国产大模子中6家答对3家答错,就连ChatGPT3.5也差点“翻车”。

大模子给出的离谱回答:13.11比13.8多了0.31

7月16日下昼,南都记者实测通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节杰出豆包、学而念念九章大模子、面壁智能Luca、月之暗面Kimi等9家国产大模子。

当南都记者输入“13.11和13.8,哪个数值更大?”时,Luca、Kimi、智谱清言均流弊地暗意13.11更大。其余6家大模子给出了正确谜底,以为13.8更大。

Kimi以为,13.11比13.8更接近14。

当南都记者进一步追问时,“你细则13.11大于13.8吗”,Kimi修起:“是的,我细则。”然后一册郑重地讲授,“13.11与13.8的整数部分交流,由于少量部分0.11是两位少量,而0.8唯有一位少量,13.11比13.8更接近14,因此13.11是更大的数。”

智谱清言称,13.11在百分位上比13.80大。

智谱清言是通过相比少量部分得出流弊论断,称“13.11的百分位是1,而13.80(即13.8)的百分位是0。在这种情况下,1大于0。”“简而言之,13.11骨子上就是13.80+0.01+0.01,这使得它比13.80(即13.8)大。”

Luca则流弊地修起称,“因为13.11比13.8多了0.31,是以13.11的数值更大。”

Luca暗意,13.11比13.8多了0.31。

回答正确的6家国产大模子,都在少量的相比上作念出正确判断。

通义千问的讲授。

举例,通义千问暗意:“关于13.11而言,至极位是1;而关于13.8而言,至极位是8。由于8大于1,因此不错立即得出论断,13.8比13.11大。是以,13.8是这两个数值中更大的一个。”

文心一言的讲授。

文心一言还进行了一番陋劣运算:“0.8是8个0.1,而0.11仅仅1个0.1加上1个0.01。澄莹,8个0.1比1个0.1加上1个0.01要大。”

当南都记者用新的账号重启对话,并尝试变换语序问答:“13.8和13.11,哪个数值更大”,Luca、Kimi、智谱清言等三家大模子也未反馈过来,坚握认定13.11更大。

ChatGPT3.5差点“翻车”?大模虚假假原因安在

有酷爱酷爱的是,不仅国产大模子搞不了了这说念陋劣的数学题,外洋主流的大模子曾经在肖似问题上集体翻车。此前有AI工程师晒出问答截图裸露,9.11和9.9谁更大?ChatGPT-4o、谷歌Gemini、Claude 3.5 Sonnet都坚韧地以为9.11更大。

在南都记者实测中,面临“13.11和13.8,哪个数值更大?”这一问题,ChatGPT3.5当先也给出了流弊的谜底。

当被问及“13.11和13.8,哪个数值更大?”时,ChatGPT3.5起始暗意13.11比13.8大。不外当南都记者进一步追问时,ChatGPT3.5相比少量后修正了流弊的谜底,最终认定13.8比13.11大。

ChatGPT3.5几乎“翻车”。

一都陋劣数学相比题,大模子为何时时出错?

时间众人告诉南都记者,在东说念主们看来,这是一都小学生的数学算术题,但大模子不一定这么以为,它更频繁见到这些数字是包含在软件版块号、股票、基金卤莽汇率等信息里,它们出面前跟数字大小自己没关系联。而大模子看到这么一组数字,意志不到应该作念双精度浮点运算。

还有业内东说念主士提议了一种讲授称,这是大模子在输入词和标点向量化排序时,莫得把礼貌卤莽关联逻辑弄对,忽略了少量点亦然数字的一部分。

采写:南都记者黄莉玲 李玲

视频:南都记者王子黎





Powered by 广州椭臃科技 @2013-2022 RSS地图 HTML地图

Copyright 站群 © 2013-2022 本站首页 版权所有