如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

2025-06-20 05:15:09

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
广告位810*200
相关阅读
中国的核武库规模为什么那么小?

中国的核武库规模为什么那么小?

以前没钱,觉得几百颗够了。 后来发现美国是真敢顶着百万级死亡...

2025-06-20
为什么苹果手机杀后台现象频繁?是内存不够、后台管理严格还是其他原因呢?

为什么苹果手机杀后台现象频繁?是内存不够、后台管理严格还是其他原因呢?

根据苹果社区开发者们的测试,iOS是一个不存在页面交换和zr...

2025-06-20
黑客为什么可以做到无需知道源码的情况下找出系统漏洞?

黑客为什么可以做到无需知道源码的情况下找出系统漏洞?

很久以前,***设你看中了一个音乐网站,部分音乐免费,部分音...

2025-06-20
电脑上有哪些好用且必备的软件推荐一下?

电脑上有哪些好用且必备的软件推荐一下?

必备的跨平台三件套。 浏览器+输入法+压缩软件。 其中 浏...

2025-06-20
内蒙古教育厅回应那尔那茜定向委培***「正调查」,若属实定向委培违约将承担什么责任?学历会被撤销吗?

内蒙古教育厅回应那尔那茜定向委培***「正调查」,若属实定向委培违约将承担什么责任?学历会被撤销吗?

回避不是负责任的态度,那尔那茜该给公众一个交代 近日,演员那...

2025-06-20