进入到了 2025 年,各家的 AI 模型可以说已经是强到不像话了,尤其是 DeepSeek 发布自己的模型之后,各家更是都要卷飞了,尤其是各个大厂,不仅卷性能,卷价格,使用体验上也可以说是卷飞了,正好最近高强度使用了 Google Gemini 2.5 Pro、DeepSeek R1(官网版本)和 ChatGPT o3,浅浅的评测一下。需要注意的是测试时间是 2025.4.22,模型性能可能会根据时间的不同而变化,所以这个评测结果是有时效性的。

整体使用体验

整体的使用体验,我觉得是 Google Gemini 2.5 Pro > ChatGPT o3 > DeepSeek R1。

UI

UI 上 Gemini 和 ChatGPT 是真的有打磨的很好,但是 DeepSeek 就很粗糙了,但是这也很正常,毕竟 DeepSeek 这个官网模型就相当于是一个“样板间”一样的东西,甚至也没有收费这一说。

生成速度

生成速度方面 Google Gemini 2.5 Pro 一骑绝尘,真的太快了,ChatGPT o3 也可以接受,但是 DeepSeek 除了偶尔连不上网络问题让你一会在请求,他的模型也动不动就思考个 400、500 秒,但是同样的题,Google Gemini 2.5 Pro 可能 20 秒就生成完了。具体思考时间如下表:

Google Gemini 2.5 Pro ChatGPT o3 DeepSeek R1
Q1 5s 81s
Q2 51s 120s 305s
Q3 58s 63s 233s
Q4 33s 10s 149s
Q5 50s 21s
Q6 52s 12s
Q7 31s 8s
Q8 18s 3s
Q9 46s 16s
Q10 30s 11s

需要注意的是,Google Gemini 2.5 Pro 自己不会计时,所以是我手记的,但是我不仅记 reasoning 时间了,还记了最后生成 final answer 的时间,大概相当于多记了 10 来秒。

从表里可以发现 ChatGPT 其实也很快,甚至比 Gemini 还快,我有的时候觉得慢可能是因为这个账号当时正好还有别人用。

图片上传与识别

这个问题最大的是 DeepSeek,DeepSeek 上传一个图片的速度实在是太慢了,还经常失败。

生成文本质量

内容格式

因为是数学题,所以会用到很多数学公式,但其实三个都会有数学公式渲染不正确,最后出来一堆 latex 代码的情况。

就我这十道题来看,各个模型渲染出错的次数如表

模型名称 数学公式渲染出错次数
Google Gemini 2.5 Pro 0
ChatGPT o3 6
DeepSeek R1 0

可以看到 ChatGPT o3 的这个数学表达式的渲染可以说是糟糕至极,基本上每一道需要大段数学表达式的地方,他总会有的地方没渲染到,很影响体验。

内容

内容方面我觉得还是 Google Gemini 2.5 Pro > ChatGPT o3 > DeepSeek R1,因为只有 Google Gemini 2.5 Pro 最后呈现出来的内容是一直详略得当的,ChatGPT o3 有的时候就会最后呈现的东西太少,而 DeepSeek R1 属于是基本上每次都少,就导致我光看最后总结出来的内容看不懂,要不然就得看他的 reasoning 内容,要不然就还得再问。

这个感觉就是工程上的问题了,各个阶段的 prompt 都是怎么写的,Google 明显做的更好。