谷歌的新AI,“遥遥领先”?欢迎您!

谷歌的新AI,“遥遥领先”?

2023-12-12 12:22:49 栏目:汽车新闻 发布用户: 15210273549

中国战略新兴产业融媒体记者 李子吉

北京时间12月7日凌晨,谷歌突然宣布推出“最大、最强、最通用”的原生多模态大模型Gemini(双子座),向竞争对手OpenAI的大模型GPT-4发出挑战。据称,该模型在一系列智能测试中优于GPT-4模型和人类专家。

Gemini大模型一经推出,便引发了科技圈的“地震”。然而,热度才持续没多久,谷歌发布的一段展示Gemini强大能力的视频却被质疑造假,让该公司陷入“虚假宣传”的风波。

Gemini确实很优秀,就是“但是”有点多。

无论是外部还是内部,似乎都有声音表示谷歌有些“急于求成”,而谷歌也有很充足理由着急。

 

01“全面超越”GPT-4?

Gemini 1.0 共官宣“中杯、大杯、超大杯”三种不同规格。

中杯:Gemini Nano —— 最高效的设备任务模型;

大杯:Gemini Pro —— 适用于广泛的任务扩展的最佳模型;

超大杯:Gemini Ultra ——谷歌最大、最强模型,适用于高度复杂的任务,被定位为GPT-4的竞争对手。

从官方放出的数据来看,Gemini Ultra的能力很强,在各种常规测试里都超越了GPT-4。

其中Gemini Ultra在大型语言模型研发被广泛使用的32个学术基准测试集中,在其中30个测试集的性能超过当前SOTA(State of the art,特指领先水平的大模型)结果。

此外,Gemini Ultra是第一个在MMLU(大规模多任务语言理解)中得分率达到90.0%的大模型,基准上超过人类专家水平。MMLU数据集包含数学、物理、历史、法律、医学和伦理等57个科目,用于测试大模型的知识储备和解决问题能力。据称,在同样的测试中,GPT-4得分为87%,LLAMA-2得分为68%,Anthropic的Claude 2得分为78.5%。在其他9项常见基准测试中,Gemini在8项中击败了所有模型。

除了在常规能力上的全面超越GPT-4,Gemini最特殊的一点是,它是谷歌带来的首个多模态大模型。多模态,意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。

谷歌在视频平台官方账号发布的“与Gemini亲密互动:与多模态AI交互”的演示视频,引发了大量网友“围观”。这段6分钟的视频包括用户和Gemini驱动的聊天机器人之间的口头对话,还展示了Gemini识别视觉图片和物理对象,并区分它们的能力。其中一些功能令人印象深刻。

Gemini似乎能够快速识别图像,并在几秒钟的时间内做出反应。

例如,Gemini识别了一个鸭子素描从一条线到完整画面的演变过程。当演示者将鸭子素描填满蓝色颜料时,Gemini指出——“鸭子通常是棕色、白色或黑色的,不会是蓝色的。”

 

它似乎特别擅长对数学和物理等复杂学科的问题进行推理。

如下图所示,一位老师画了一个滑雪者从斜坡上下来的物理问题,而一位学生则提出了一个解决方案来计算滑雪者在斜坡底部的速度。利用Gemini的多模态推理能力,该模型能够读懂凌乱的笔迹,正确理解问题的表述,将问题和解决方案都转换为数学公式,识别出学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。

 

而在编码方面,Gemini也能够理解、解释和生成使用世界上最流行的编程语言写出的高质量代码,包括Python、Java、C++和Go,能够跨语言工作并对复杂信息进行推理,还可用作更高级编码系统的引擎

然而,这段视频发布仅一天,外界就开始质疑谷歌对Gemini的功能造假

人们第一时间涌入新模型加持的Bard想要试试Gemini的能力,结果给出的评价褒贬不一。最值得注意的是,有人质疑,“该视频并非实时录制,而是多轮尝试并精心挑选和剪辑而成。”

 

02演示视频为剪辑合成

面对质疑,谷歌向媒体回应,这段关于Gemini性能演示的视频确实并不是实时的,而是使用了原始镜头中的静止图像帧,然后编写了文本提示,以便让Gemini做出回应。

点击 YouTube 上的视频描述,可以发现 Google 有一个重要的免责声明:“为了演示的目的,而减少了延迟;为了简洁,Gemini 的输出也缩短了。”

 

视频看起来很美好,然而,却也反映出了这一问题:视频不是真实的。谷歌可能只是制作了一个夸张的视频,然后使用静态图像帧和文本进行拼凑来作为 Gemini 的提示语。

也就是说,视频Demo是精心挑选的结果:也许Gemini可以如实的完成视频展示的内容,但谷歌没有这样做,而是加了速;又或许Gemini根本不像视频中展示的那样丝滑,有人从好几个错误结果中挑出了正确的作为素材。

但无论如何,Gemini 的演示看起来都像是经过精心调整好的,对实际交互情况进行了歪曲。

例如,在玩剪刀石头布的游戏中,在视频的 2:45 处,一只手对着镜头静静地做出一系列手势。Gemini 很快主动表示:“我知道你在做什么!你在玩石头、剪刀、布!”

然而在谷歌博客中,用户必须同时显示所有三个手势并提示:“你认为我在做什么?”外加提示:“这是一个游戏”。Gemini 才回答道:“你在玩石头、剪刀、布。”就像下图所展示的,当用户伸出两根手指时,Gemini 并不知道这是石头、剪刀、布的游戏。只有三张图片都齐全了,Gemini 才能猜对。

下一篇:40 亿大单:浪潮、中科可控、紫光(中);联想、中兴(落)

上一篇:中国手机市场份额重新“洗牌”,华为仅排第四,第二才是最大黑马

汽车新闻更多>>

40年前,一位日本青年缘何为中国长城捐出“结婚钱”? 1572亿美元!微软前CEO鲍尔默身家首超盖茨,成全球第六大富豪 中俄确定出席上合峰会,印度却再度降低标准,这次莫迪不来了 保时捷遭经销商逼宫,一纸联合声明能否力挽狂澜? 更年轻、更智能,“国民神车”全面焕新——试驾新一代哈弗H6 上汽“七大技术底座”跃迁升级 2026年全固态电池将率先量产 捷途山海武汉建银吉途新能源中心开业,捷途加速挺进3.0时代 iAuto集团与华人运通签署合作协议 支持高合汽车恢复业务运营 “蔚小理”和雷军,还能做多久“表面朋友”? 第二代UNI-V智电iDD挑战东方阿尔卑斯魔鬼山路游刃有余 高性能节油王 2.4T乘用炮、商用炮重磅上市 售价12.58万元起 9.99万元起售,全新北京BJ30上市,哪款配置车型更值得买? 遥遥领先?享界S9官宣首搭ADS 3.0,特斯拉FSD还有入华的必要? 从“不愁卖”到“降价卖”,日系B级车“三剑客”到底怎么了? 荣放、探岳请让让!13万买中型SUV,231马力7.6秒破百,5.1L油耗 一切以驾驶出发 试驾斯巴鲁旭豹 新能源充电基建狂飙,企业却陷亏损泥潭 帕萨特蝉联1-4月B级燃油车销冠 新能源车企最速IPO!极氪于纽交所挂牌上市,股价首日大涨34% 好看好开好聪明 !玩转重庆, 一台东风纳米 01就够了 增配不增价 2024款哈弗猛龙硬核来袭 售价16.58万元起 唐EV荣耀版、唐DM-p荣耀版/2024款战神版震撼上市,起售价21.98万元 吉利雷达皮卡“媲美特斯拉” 新车售价15.18万起 同平台造的车,想不到皓影比CR-V颜值高出这么多 特斯拉进入All-in自动驾驶阶段 Robotaxi或将带来下一次工业革命 “烨”品牌发布,三款新车首发,本田转型这次来真的了 全新尾灯+四出排气,全新宝马X3谍照曝光,插混版赫然在列 中国电混巅峰战 吉利银河L7、L6龙腾版合肥站试驾会圆满收官 江淮钇为3销量惨淡,夏顺礼打响品牌生死战 品牌升维之作,iCAR V23亮相品牌之夜,为年轻人而来