首页 > 汽车新闻 > 汽车新闻 > 9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

发布时间:2024-07-19 16:28:18来源: 15210273549

导读

一道小学生的数学题竟然难倒了全球AI大模型,只有4个大模型给出了正确答案!这究竟是怎么一回事?快来看看!

 

全球AI大模型被一道小学生数学题难倒

日前,一道来自小学生的数学题却难倒了不少海内外AI大模型,这道题的内容是“9.11和9.9哪个更大”,而仅有4个大模型给出了正确答案。

 

挑战大模型的数学推理能力

大模型的数学能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大进步空间,而此前笔者在采访12位大模型时也得出了一个惊人的结论,这些大模型中仅有4个回答是正确的,而其他8个大模型却都给出了错误的答案。

 

数字切分问题与模型的理解能力

而针对大模型的数学能力,笔者曾进行过深入的采访,大部分行业人士认为大模型数学能力差的根本原因还是出在分词上,即Tokenizer(分词器)在处理数字时会出现问题,导致模型难以正确理解和计算。

 

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题,12个大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,其他8个大模型都认为9.11比9.9更大。

 

虽然最终4个大模型给出了正确答案,但这并不能掩饰大模型数学能力的薄弱,毕竟面对简单的大小比较题,8个大模型都给出了错误答案。

 

而对于未来大模型的发展方向,笔者也咨询了不少专家学者以及从业者,针对此前大模型的回答,不少人表示“并不意外”。

一些专家认为,未来在模型的训练数据上会越来越依赖构造型的数据,而不是直接爬取下来的数据,以提升模型的复杂推理能力。

 

因为直接爬取下来的数据中会夹杂大量的错误数据,这些错误数据会误导模型,导致模型做出错误的判断。

而构造型的数据则可以事先筛选,保证数据的准确性和可靠性,从而培养模型健康的思维方式。

汽车新闻更多>>

新款奔驰G500上市,186.8万元,V8变V6,加速提升 2025款宋L EV泊车辅助体验,这次真的没短板了 日产也开始卷了,逍客·荣誉9.98万起,2.0L发动机+前后独悬 9.98万起的日产逍客·荣誉,为什么首推入门版本? 比亚迪唐L最新谍照来了,配双层日行灯,外观基本确定 新款奥迪A3要来了,轴距加长+换1.5T,还有发光LOGO 三星又一三折叠手机专利获批:提高屏幕耐用性、添加防反射层 华为Nova13手机使用体验 用的国产好芯 待机长 打开快 运行丝滑。 全球最长续航+顶级宽适空间,荣威iMAX8 DMH上市,有望一战封神! 一汽解放2024梦想合伙人大会圆满召开 高阶智驾、长续航,宝骏云海能一步到位 造车新势力之争,极越01、乐道L60,品牌力方面谁更“靠谱”? 单车利润仅8450元,比亚迪揭开合资品牌“暴利”模式,钱花哪了? 纯电中大型SUV“新选择”:全新智己LS6,产品力均衡,底盘是亮点 强强联合,方程豹汽车和中国火箭正式签约,豹8将上市,值得期待 到店试驾宝骏云海,TA究竟有何魔力?竟能让我当即拍板 蓝电E5 PLUS上市:配华为座舱+长续航插混系统,9.98万起售 迟到的财报,比亚迪半年营收超3000亿元, 净利润翻倍增长 2025 款福特 Bronco Stroppe 版灵感源自传奇的 Baja Racer 比亚迪的薄利多销魔法,卷出新高度,赢在未来 日产发布全新第四代Murano(楼兰),将抛弃CVT 丰田汽车与波士顿动力合作 推进AI人形机器人技术 丰田研究所与波士顿动力合作,推进机器人大规模行为模型等研究 全面升级 吉利中国星东方曜双子新车解读 一汽奥迪以专家造车,打造全周期高品质用车体验 谷歌安卓15引入“空间大师”功能,128GB存储也能拥抱海量应用 华硕笔记本电脑质量怎么样?四款华硕笔记本推荐,真香选择 苏姿丰等亮相联想Tech World:我们正进入最激动人心的创新时代 史无前例,英特尔和AMD在联想“撮合”下合作了 产业链协同视角下的理想汽车:国产豪华品牌高质量发展的先锋