谷歌的新AI,“遥遥领先”?
中国战略新兴产业融媒体记者 李子吉
北京时间12月7日凌晨,谷歌突然宣布推出“最大、最强、最通用”的原生多模态大模型Gemini(双子座),向竞争对手OpenAI的大模型GPT-4发出挑战。据称,该模型在一系列智能测试中优于GPT-4模型和人类专家。
Gemini大模型一经推出,便引发了科技圈的“地震”。然而,热度才持续没多久,谷歌发布的一段展示Gemini强大能力的视频却被质疑造假,让该公司陷入“虚假宣传”的风波。
Gemini确实很优秀,就是“但是”有点多。
无论是外部还是内部,似乎都有声音表示谷歌有些“急于求成”,而谷歌也有很充足理由着急。
01“全面超越”GPT-4?
Gemini 1.0 共官宣“中杯、大杯、超大杯”三种不同规格。
中杯:Gemini Nano —— 最高效的设备任务模型;
大杯:Gemini Pro —— 适用于广泛的任务扩展的最佳模型;
超大杯:Gemini Ultra ——谷歌最大、最强模型,适用于高度复杂的任务,被定位为GPT-4的竞争对手。
从官方放出的数据来看,Gemini Ultra的能力很强,在各种常规测试里都超越了GPT-4。
其中Gemini Ultra在大型语言模型研发被广泛使用的32个学术基准测试集中,在其中30个测试集的性能超过当前SOTA(State of the art,特指领先水平的大模型)结果。
此外,Gemini Ultra是第一个在MMLU(大规模多任务语言理解)中得分率达到90.0%的大模型,基准上超过人类专家水平。MMLU数据集包含数学、物理、历史、法律、医学和伦理等57个科目,用于测试大模型的知识储备和解决问题能力。据称,在同样的测试中,GPT-4得分为87%,LLAMA-2得分为68%,Anthropic的Claude 2得分为78.5%。在其他9项常见基准测试中,Gemini在8项中击败了所有模型。
除了在常规能力上的全面超越GPT-4,Gemini最特殊的一点是,它是谷歌带来的首个多模态大模型。多模态,意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。
谷歌在视频平台官方账号发布的“与Gemini亲密互动:与多模态AI交互”的演示视频,引发了大量网友“围观”。这段6分钟的视频包括用户和Gemini驱动的聊天机器人之间的口头对话,还展示了Gemini识别视觉图片和物理对象,并区分它们的能力。其中一些功能令人印象深刻。
Gemini似乎能够快速识别图像,并在几秒钟的时间内做出反应。
例如,Gemini识别了一个鸭子素描从一条线到完整画面的演变过程。当演示者将鸭子素描填满蓝色颜料时,Gemini指出——“鸭子通常是棕色、白色或黑色的,不会是蓝色的。”
它似乎特别擅长对数学和物理等复杂学科的问题进行推理。
如下图所示,一位老师画了一个滑雪者从斜坡上下来的物理问题,而一位学生则提出了一个解决方案来计算滑雪者在斜坡底部的速度。利用Gemini的多模态推理能力,该模型能够读懂凌乱的笔迹,正确理解问题的表述,将问题和解决方案都转换为数学公式,识别出学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。
而在编码方面,Gemini也能够理解、解释和生成使用世界上最流行的编程语言写出的高质量代码,包括Python、Java、C++和Go,能够跨语言工作并对复杂信息进行推理,还可用作更高级编码系统的引擎。
然而,这段视频发布仅一天,外界就开始质疑谷歌对Gemini的功能造假。
人们第一时间涌入新模型加持的Bard想要试试Gemini的能力,结果给出的评价褒贬不一。最值得注意的是,有人质疑,“该视频并非实时录制,而是多轮尝试并精心挑选和剪辑而成。”
02演示视频为剪辑合成
面对质疑,谷歌向媒体回应,这段关于Gemini性能演示的视频确实并不是实时的,而是使用了原始镜头中的静止图像帧,然后编写了文本提示,以便让Gemini做出回应。
点击 YouTube 上的视频描述,可以发现 Google 有一个重要的免责声明:“为了演示的目的,而减少了延迟;为了简洁,Gemini 的输出也缩短了。”
视频看起来很美好,然而,却也反映出了这一问题:视频不是真实的。谷歌可能只是制作了一个夸张的视频,然后使用静态图像帧和文本进行拼凑来作为 Gemini 的提示语。
也就是说,视频Demo是精心挑选的结果:也许Gemini可以如实的完成视频展示的内容,但谷歌没有这样做,而是加了速;又或许Gemini根本不像视频中展示的那样丝滑,有人从好几个错误结果中挑出了正确的作为素材。
但无论如何,Gemini 的演示看起来都像是经过精心调整好的,对实际交互情况进行了歪曲。
例如,在玩剪刀石头布的游戏中,在视频的 2:45 处,一只手对着镜头静静地做出一系列手势。Gemini 很快主动表示:“我知道你在做什么!你在玩石头、剪刀、布!”
然而在谷歌博客中,用户必须同时显示所有三个手势并提示:“你认为我在做什么?”外加提示:“这是一个游戏”。Gemini 才回答道:“你在玩石头、剪刀、布。”就像下图所展示的,当用户伸出两根手指时,Gemini 并不知道这是石头、剪刀、布的游戏。只有三张图片都齐全了,Gemini 才能猜对。