2025年,数学新课标Ⅰ卷的测评成绩公布,我们终于有机会看到多模态大模型在处理数学难题时的实际表现。这些模型的表现既有亮点,也暴露出一些不足之处。这一切无疑加深了我们对其实际能力的探究兴趣。
考题设置情况
本次考试依照2025年数学新课标Ⅰ卷的要求进行,试卷包括14道客观题,总分为73分。在多选题部分,每题计6分,若全答对,即可获得6分;若未选中的题目,得分将依据正确答案的数目来定,而错误选项则不得分。这种评分方法细致周到,同时也显示出对答题准确性的严格要求。考生若未在ABCD选项中作出选择,将面临1.5分的减分,这一规定的制定旨在激发大家确保答题的正确性。
客观题整体表现
在客观题测试中,各模型间的差异非常微小,最大的差距仅有三分之差。特别是第6题的图像识别题目,许多多模态大型模型都未能准确作答,这一点确实让人感到出乎意料。回顾上一轮的测评结果,o3在客观题的表现并不出色,排名相对靠后。对此,有网友推测,这可能是由于某些原因,后台系统自动更换了模型所致。在本次测试中,我们使用了未经降智处理的o3,尽管在选择题和填空题环节我们的排名依旧落后,但最终的成绩达到了65分,与使用降智版本的分数相比,成绩有了明显的提高。
满分题目情况
第15题涉及的是概率学的知识,而第17题则是关于立体几何的问题,在这两道题目上,七家大型模型都取得了满分的好成绩。由此可以得出结论,这些模型在处理这类知识点时表现得相当出色,它们在概率和立体几何的计算基础相当扎实。再者,这也反映出大型模型在应对常见题型时,无论是在计算还是解答上,都具有一定的优势。
数列综合题情况
第16题是一道与数列相关的题目,总分是15分。只要证明过程详尽且计算精确,就能获得满分。总体来看,大模型的表现尚可,不过Qwen3给出的答案是正确的,但在最终答案中存在一些多余的假设,这导致了扣分,最终少了一分。这道题目要求考生具备较强的逻辑推理和计算技能,同时也揭示了某些大型模型在推理过程中可能存在的过度推论或过分重视非重要因素的问题。
椭圆方程题情况
第18题针对椭圆方程的题目让众多大型模型都遭遇了挑战。在这些模型中,仅有R1和.5 Pro两种模型获得了满分,得分高达17分;而其他模型在评分过程中普遍出现了扣分现象。Qwen3模型在前半部分的表现还算不错,解答过程也比较全面,但到了最后,因为多加了一些不必要的步骤,导致最终结果出现了偏差,所以被扣了分;文心X1模型在第二个问题中成功计算出了P点的路径,但没能证明极值,结果导致最终答案出现了错误。这说明大型模型在处理涉及椭圆的复杂推理和严谨论证时,还存在一些不足。
测评整体反思
总体来说,客观题的大模型表现尚可,Qwen3、2.5 pro、R1、文心X1 Turbo和-t1-都取得了68分的好成绩,然而o3在多选题上因为选项不全而受到了扣分。不过,在这次测评中,多模态大模型在识图题上普遍表现不佳,而且在解答题上的失分也显示出它们在复杂推理、严密论证以及多步骤计算等方面还有很大的提升空间。您认为在当前这些问题面前,哪些方面的改善最为重要?恳请您在评论区发表您的见解,同时,不妨也为这篇文章点赞,或者转发以示支持!
发表评论