一都数学题吵翻天，实测十家大模子：ChatGPT差点翻车

发布日期：2024-07-22 11:59 点击次数：85

13.11和13.8谁大？——这么一都陋劣的“小升初”数学题难倒一众网友和大模子。

“13.8 13.11”曾经成为积聚新热梗。

上周五（7月12日）综艺《歌手2024》投票率出炉，孙楠以13.8%的投票率位居第三，Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高？”连忙引起热议，随后“13.8 13.11”话题登上微博热搜。

围绕这么一都陋劣数学题，南都记者发问了9家国产大模子以及各人大模子标杆ChatGPT3.5。效用裸露，国产大模子中6家答对3家答错，就连ChatGPT3.5也差点“翻车”。

大模子给出的离谱回答：13.11比13.8多了0.31

7月16日下昼，南都记者实测通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节杰出豆包、学而念念九章大模子、面壁智能Luca、月之暗面Kimi等9家国产大模子。

当南都记者输入“13.11和13.8，哪个数值更大？”时，Luca、Kimi、智谱清言均流弊地暗意13.11更大。其余6家大模子给出了正确谜底，以为13.8更大。

Kimi以为，13.11比13.8更接近14。

当南都记者进一步追问时，“你细则13.11大于13.8吗”，Kimi修起：“是的，我细则。”然后一册郑重地讲授，“13.11与13.8的整数部分交流，由于少量部分0.11是两位少量，而0.8唯有一位少量，13.11比13.8更接近14，因此13.11是更大的数。”

智谱清言称，13.11在百分位上比13.80大。

智谱清言是通过相比少量部分得出流弊论断，称“13.11的百分位是1，而13.80（即13.8）的百分位是0。在这种情况下，1大于0。”“简而言之，13.11骨子上就是13.80+0.01+0.01，这使得它比13.80（即13.8）大。”

Luca则流弊地修起称，“因为13.11比13.8多了0.31，是以13.11的数值更大。”

Luca暗意，13.11比13.8多了0.31。

回答正确的6家国产大模子，都在少量的相比上作念出正确判断。

通义千问的讲授。

举例，通义千问暗意：“关于13.11而言，至极位是1；而关于13.8而言，至极位是8。由于8大于1，因此不错立即得出论断，13.8比13.11大。是以，13.8是这两个数值中更大的一个。”

文心一言的讲授。

文心一言还进行了一番陋劣运算：“0.8是8个0.1，而0.11仅仅1个0.1加上1个0.01。澄莹，8个0.1比1个0.1加上1个0.01要大。”

当南都记者用新的账号重启对话，并尝试变换语序问答：“13.8和13.11，哪个数值更大”，Luca、Kimi、智谱清言等三家大模子也未反馈过来，坚握认定13.11更大。

ChatGPT3.5差点“翻车”？大模虚假假原因安在

有酷爱酷爱的是，不仅国产大模子搞不了了这说念陋劣的数学题，外洋主流的大模子曾经在肖似问题上集体翻车。此前有AI工程师晒出问答截图裸露，9.11和9.9谁更大？ChatGPT-4o、谷歌Gemini、Claude 3.5 Sonnet都坚韧地以为9.11更大。

在南都记者实测中，面临“13.11和13.8，哪个数值更大？”这一问题，ChatGPT3.5当先也给出了流弊的谜底。

当被问及“13.11和13.8，哪个数值更大？”时，ChatGPT3.5起始暗意13.11比13.8大。不外当南都记者进一步追问时，ChatGPT3.5相比少量后修正了流弊的谜底，最终认定13.8比13.11大。

ChatGPT3.5几乎“翻车”。

一都陋劣数学相比题，大模子为何时时出错？

时间众人告诉南都记者，在东说念主们看来，这是一都小学生的数学算术题，但大模子不一定这么以为，它更频繁见到这些数字是包含在软件版块号、股票、基金卤莽汇率等信息里，它们出面前跟数字大小自己没关系联。而大模子看到这么一组数字，意志不到应该作念双精度浮点运算。

还有业内东说念主士提议了一种讲授称，这是大模子在输入词和标点向量化排序时，莫得把礼貌卤莽关联逻辑弄对，忽略了少量点亦然数字的一部分。

采写：南都记者黄莉玲李玲

视频：南都记者王子黎

友情链接：

热点资讯