主流 AI 实际使用体验(组合学答题方面)
进入到了 2025 年,各家的 AI 模型可以说已经是强到不像话了,尤其是 DeepSeek 发布自己的模型之后,各家更是都要卷飞了,尤其是各个大厂,不仅卷性能,卷价格,使用体验上也可以说是卷飞了,正好最近高强度使用了 Google Gemini 2.5 Pro、DeepSeek R1(官网版本)和 ChatGPT o3,浅浅的评测一下。需要注意的是测试时间是 2025.4.22,模型性能可能会根据时间的不同而变化,所以这个评测结果是有时效性的。
整体使用体验
整体的使用体验,我觉得是 Google Gemini 2.5 Pro > ChatGPT o3 > DeepSeek R1。
UI
UI 上 Gemini 和 ChatGPT 是真的有打磨的很好,但是 DeepSeek 就很粗糙了,但是这也很正常,毕竟 DeepSeek 这个官网模型就相当于是一个“样板间”一样的东西,甚至也没有收费这一说。
生成速度
生成速度方面 Google Gemini 2.5 Pro 一骑绝尘,真的太快了,ChatGPT o3 也可以接受,但是 DeepSeek 除了偶尔连不上网络问题让你一会在请求,他的模型也动不动就思考个 400、500 秒,但是同样的题,Google Gemini 2.5 Pro 可能 20 秒就生成完了。具体思考时间如下表:
| Google Gemini 2.5 Pro | ChatGPT o3 | DeepSeek R1 | |
|---|---|---|---|
| Q1 | 5s | 81s | |
| Q2 | 51s | 120s | 305s | 
| Q3 | 58s | 63s | 233s | 
| Q4 | 33s | 10s | 149s | 
| Q5 | 50s | 21s | |
| Q6 | 52s | 12s | |
| Q7 | 31s | 8s | |
| Q8 | 18s | 3s | |
| Q9 | 46s | 16s | |
| Q10 | 30s | 11s | 
需要注意的是,Google Gemini 2.5 Pro 自己不会计时,所以是我手记的,但是我不仅记 reasoning 时间了,还记了最后生成 final answer 的时间,大概相当于多记了 10 来秒。
从表里可以发现 ChatGPT 其实也很快,甚至比 Gemini 还快,我有的时候觉得慢可能是因为这个账号当时正好还有别人用。
图片上传与识别
这个问题最大的是 DeepSeek,DeepSeek 上传一个图片的速度实在是太慢了,还经常失败。
生成文本质量
内容格式
因为是数学题,所以会用到很多数学公式,但其实三个都会有数学公式渲染不正确,最后出来一堆 latex 代码的情况。
就我这十道题来看,各个模型渲染出错的次数如表
| 模型名称 | 数学公式渲染出错次数 | 
|---|---|
| Google Gemini 2.5 Pro | 0 | 
| ChatGPT o3 | 6 | 
| DeepSeek R1 | 0 | 
可以看到 ChatGPT o3 的这个数学表达式的渲染可以说是糟糕至极,基本上每一道需要大段数学表达式的地方,他总会有的地方没渲染到,很影响体验。
内容
内容方面我觉得还是 Google Gemini 2.5 Pro > ChatGPT o3 > DeepSeek R1,因为只有 Google Gemini 2.5 Pro 最后呈现出来的内容是一直详略得当的,ChatGPT o3 有的时候就会最后呈现的东西太少,而 DeepSeek R1 属于是基本上每次都少,就导致我光看最后总结出来的内容看不懂,要不然就得看他的 reasoning 内容,要不然就还得再问。
这个感觉就是工程上的问题了,各个阶段的 prompt 都是怎么写的,Google 明显做的更好。