|

有福吧
2000活跃值=1元

首页 > 汽车新闻 > 汽车新闻 > 9.11和9.9哪个大？实测12个大模型8个都答错，ChatGPT也翻车了

9.11和9.9哪个大？实测12个大模型8个都答错，ChatGPT也翻车了

发布时间：2024-07-19 16:28:18

导读

一道小学生的数学题竟然难倒了全球AI大模型，只有4个大模型给出了正确答案！这究竟是怎么一回事？快来看看！

全球AI大模型被一道小学生数学题难倒

日前，一道来自小学生的数学题却难倒了不少海内外AI大模型，这道题的内容是“9.11和9.9哪个更大”，而仅有4个大模型给出了正确答案。

挑战大模型的数学推理能力

大模型的数学能力一直是短板，即便是目前最好的大模型GPT4也仍然有很大进步空间，而此前笔者在采访12位大模型时也得出了一个惊人的结论，这些大模型中仅有4个回答是正确的，而其他8个大模型却都给出了错误的答案。

数字切分问题与模型的理解能力

而针对大模型的数学能力，笔者曾进行过深入的采访，大部分行业人士认为大模型数学能力差的根本原因还是出在分词上，即Tokenizer(分词器)在处理数字时会出现问题，导致模型难以正确理解和计算。

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题，12个大模型中，只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，其他8个大模型都认为9.11比9.9更大。

虽然最终4个大模型给出了正确答案，但这并不能掩饰大模型数学能力的薄弱，毕竟面对简单的大小比较题，8个大模型都给出了错误答案。

而对于未来大模型的发展方向，笔者也咨询了不少专家学者以及从业者，针对此前大模型的回答，不少人表示“并不意外”。

一些专家认为，未来在模型的训练数据上会越来越依赖构造型的数据，而不是直接爬取下来的数据，以提升模型的复杂推理能力。

因为直接爬取下来的数据中会夹杂大量的错误数据，这些错误数据会误导模型，导致模型做出错误的判断。

而构造型的数据则可以事先筛选，保证数据的准确性和可靠性，从而培养模型健康的思维方式。

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“有福吧用户上传并发布"，本平台仅提供信息存储服务。

下一篇:小红书2025届实习生校园招聘会

上一篇:在人工智能快速发展的当下，普通人应该怎样应对

汽车新闻更多>>

80幅画卷、19万字述说…安顺本土画家笔下的“老安顺风景”成书自带“沉浸感” 童年记忆中的庙会；看戏不如听书，欣赏歌舞受限制，相声很尴尬《精神与音乐》：音乐是编织精神生命的经纬线江苏宜兴陶润云水蒋立峰书法作品展暨蒋立峰书法紫砂创作基地揭牌新款奔驰G500上市，186.8万元，V8变V6，加速提升 2025款宋L EV泊车辅助体验，这次真的没短板了日产也开始卷了，逍客·荣誉9.98万起，2.0L发动机+前后独悬 9.98万起的日产逍客·荣誉，为什么首推入门版本？比亚迪唐L最新谍照来了，配双层日行灯，外观基本确定新款奥迪A3要来了，轴距加长+换1.5T，还有发光LOGO 三星又一三折叠手机专利获批：提高屏幕耐用性、添加防反射层华为Nova13手机使用体验用的国产好芯待机长打开快运行丝滑。全球最长续航+顶级宽适空间，荣威iMAX8 DMH上市，有望一战封神！一汽解放2024梦想合伙人大会圆满召开高阶智驾、长续航，宝骏云海能一步到位造车新势力之争，极越01、乐道L60，品牌力方面谁更“靠谱”？单车利润仅8450元，比亚迪揭开合资品牌“暴利”模式，钱花哪了？纯电中大型SUV“新选择”：全新智己LS6，产品力均衡，底盘是亮点强强联合，方程豹汽车和中国火箭正式签约，豹8将上市，值得期待到店试驾宝骏云海，TA究竟有何魔力?竟能让我当即拍板蓝电E5 PLUS上市：配华为座舱+长续航插混系统，9.98万起售迟到的财报，比亚迪半年营收超3000亿元，净利润翻倍增长 2025 款福特 Bronco Stroppe 版灵感源自传奇的 Baja Racer 比亚迪的薄利多销魔法，卷出新高度，赢在未来日产发布全新第四代Murano（楼兰），将抛弃CVT 丰田汽车与波士顿动力合作推进AI人形机器人技术丰田研究所与波士顿动力合作，推进机器人大规模行为模型等研究全面升级吉利中国星东方曜双子新车解读一汽奥迪以专家造车，打造全周期高品质用车体验谷歌安卓15引入“空间大师”功能，128GB存储也能拥抱海量应用

Copyright 2018-2025 有福吧版权所有京ICP备18019986号-1