您的位置 首页 科技

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

编辑 | 杨文 今天凌晨,大洋彼岸可真够热闹的。 OpenAI 推出了 GPT-4o 动嘴生图、P 图的功能,而谷歌则直接祭出了号称「最智能的模型」Gemini 2.5。

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

编辑 |杨文

今天凌晨,大洋彼岸可真够热闹的。

OpenAI 推出了 GPT-4o 动嘴生图、P 图的功能,而谷歌则直接祭出了号称「最智能的模型」Gemini 2.5。

据谷歌首席科学家 Jeff Dean 介绍,首个版本 Gemini 2.5 Pro Experimental 已集成「思考能力」,是迄今为止性能最强大的 Gemini 模型,尤其擅长高级推理和编码,并在 @lmarena_ai 排行榜上拿下第一。

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

到底有多智能?

先来欣赏几个官方给出的 demo。

Prompt:p5js to explore a Mandelbrot set。

展开全文

提示词:用 p5.js 探索曼德博集合。

Prompt:Create an animated bubble chart using Plotly Express of how economic and health indicators have evolved over the years for each continent.

提示词:使用 Plotly Express 创建动画气泡图,展示各大洲经济和健康指标随时间变化。

Prompt:Make me a captivating endless runner gameKey instructions on the screen. p5js scene ,no HTML. l like pixelated dinosaurs and interesting backgrounds.

提示词:用 p5.js 创作一个迷人的无尽跑酷游戏,画面上有关键操作提示。场景像素风,主角是恐龙,背景要有趣。

Prompt:Create a beautiful, interactive p5js demo (no HTML).l like fish and nebulaeShow me what the fish are thinking.

提示词:用 p5.js 做个好看的互动演示,别用 HTML。我喜欢鱼和星云,能不能展现出鱼的想法。

Prompt: p5.js (no HTML) swarm of 30 colorful boids swimming inside a rotating hexagon.like supernova nebulae.

提示词:用 p5.js 做一个无 HTML 的演示:30 只彩色的 “boids” 在一个旋转的六边形内游动,效果像超新星星云。

效果甚是惊艳。

而且谷歌一出手就是免费!

现在普通用户可以在 AI Studio 中免费使用 Gemini 2.5 Pro,Gemini App 中的 Gemini 高级用户也能使用它。

链接直达:http://aistudio.google.com/app/prompts/

一手实测

现在只要发布新模型,言必称自家的最智能、最强大,然后佐以各种跑分结果。

对于普通用户来说,分数、排名都不重要,真正重要的是,它在实际生活中到底好不好使。

既然谷歌称 Gemini 2.5 是目前地表最强,那我们就来场大乱斗,将它和 o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1 拉出来同台竞技。

1. 一根 10 米长的竹竿能通过高 4.5 米、宽 3.8 米的城门吗?

如果按照常规的数学逻辑来思考,10 米长的竹竿确实无法通过这个尺寸的城门,但是在现实生活中,我们可以让竹竿与地面平行穿过城门。

万万没想到,这么一道简单的竹竿过城门,让这群曾号称最强的大模型全军覆没。

它们不约而同地想到了勾股定理,也把数值算对了,却忽略了现实是个三维空间。

来看看各家大模型的具体表现。

Gemini 2.5:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

o3-mini:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

GPT-4.5:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

Claude 3.7 Sonnet:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

Grok3:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

DeepSeek R1:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

2. 我有 6 个鸡蛋,碎了 2 个,煎了 2 个,吃了 2 个,最多还剩几个?

这道题目的关键在于理解这些动作之间的关系。

如果把每个动作视为独立事件,那将一个鸡蛋也不剩。

但题目问的是最多还剩几个,这表明可能有重叠的情况,碎的 2 个鸡蛋正好煎了、吃了,因此在最佳情况下,最多还剩 4 个鸡蛋。

Gemini 2.5 和 DeepSeek R1 思考一番后,抓住了问题关键,最终回答正确。

o3-mini、GPT-4.5 和 Claude3.7 考虑到了动作重叠的情况,但没有扣住「最多」这个条件,因此回答错误。

最搞笑的就是马斯克家的 Grok3,答案对了,但脑回路清奇,它是从完整的鸡蛋里拿出 2 个煎了、吃了,所以最后还剩 2 个完整的鸡蛋和 2 个碎鸡蛋。

来看看各家大模型的具体表现。

Gemini 2.5:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

o3-mini:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

GPT-4.5:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

Claude3.7 Sonnet:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

Grok3:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

DeepSeek R1:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

3. 两个人同时来到了河边,都想过河,但只有一条小船,而且小船只能载一个人。请问:他们能否都过河?

这道题目很容易让人陷入思维定势。

同时来到河边的俩人不一定在河的同一边,只要抓住这个关键点,这道题目就迎刃而解了。

Gemini 2.5、Claude3.7 Sonnet 思路清晰,回答正确。

o3-mini 和 GPT-4.5 虽然都说可以同时过河,但给出的解释非常牵强,GPT-4.5 甚至说让船空着漂回去,所以不算对。

Grok3 和 DeepSeek R1 则回答错误。

各家大模型具体表现如下。

Gemini 2.5:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

o3-mini:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

GPT-4.5:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

Claude3.7 Sonnet:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

Grok3:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

DeepSeek R1:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

4. 张三去水果店买苹果,苹果进价为 20 元,卖价是 30 元。张三付给老板 100 元,老板没有零钱,就在卖鞋的人那里换了 100 元零钱,找给张三 70 元。后来卖鞋的人发现那 100 元是假币,于是找老板换回了 100 元。请问水果店老板损失了多少钱?

别看这道题目出现了如此多的数字,故事情节也曲折,但其实水果店老板损失的钱只有两部分 —— 苹果进价 20 元和找给买家的 70 元,因此答案时 90 元。

Gemini 2.5、Claude3.7 Sonnet、Grok3 和 DeepSeek R1 都回答正确。

o3-mini 和 GPT-4.5 纠结了半天,彻底被绕进去了,最终得出错误答案。

Gemini 2.5:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

o3-mini:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

GPT-4.5:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

Claude3.7 Sonnet:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

Grok3:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

DeepSeek R1:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

5. 多模态测试题,杯子有多高?

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

对于这道题,大模型们要先识别图像,然后进行计算。

Gemini 2.5、Claude3.7 Sonnet 和 Grok3 回答正确。

而 o3-mini、GPT4.5 全程胡说八道。

DeepSeek R1 虽然可以上传图片,但它只能识别图片中的文字,无法真正读懂图,因此回答错误。

各家大模型的具体表现如下。

Gemini 2.5:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

o3-mini:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

GPT-4.5:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

Claude 3.7 Sonnet:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

Grok3:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

DeepSeek R1:

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

根据以上测试,我们发现 Gemini 2.5 虽然也会翻车,但正确率达 80%,总体来说数学逻辑推理能力还是挺能打的。

Claude 3.7 Sonnet 稍逊一筹,5 道题目错了俩。

最惨的就是 OpenAI 家的两大模型 o3mini 和 GPT-4.5,没有一道题目是做对的,正确率为 0。

以后我们会带来更多好玩有用的 AI 评测,也欢迎大家进群交流。

本文来自网络,不代表冰河马新闻网立场,转载请注明出处:http://wtoor.com/20599.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部