摘要:其中备受关注的星火深度推理模型X1,是国内首个基于全国产算力平台训练的具备深度思考和推理能力的大模型。与通用大模型相比,星火深度推理模型X1解题过程更接近人类的“慢思考”方式,并且用更少的算力,多项指标国内第一。
图源:大模型之家
1月15日,科大讯飞官方发布了星火深度推理模型X1、星火4.0Turbo底座升级、星火语音同传大模型。
其中备受关注的星火深度推理模型X1,是国内首个基于全国产算力平台训练的具备深度思考和推理能力的大模型。与通用大模型相比,星火深度推理模型X1解题过程更接近人类的“慢思考”方式,并且用更少的算力,多项指标国内第一。
图源:科大讯飞
在发布会直播中,主播使用了2024年数学高考试卷、美国AIME奥数竞赛题等来进行演示,表现流畅,作为国内首个基于全国产算力平台训练的星火深度推理模型X1和升级后的星火4.0 Turbo在期待值上拉满,大模型之家在第一时间入手实测,来体验一下讯飞星火的最新成果。
01
深度推理模型X1更像AI智能体
在官方的介绍中,星火深度推理模型X1能够覆盖小学、初中、高中、大学全学段数学,输入或拍照数学题目复杂问题都能解答。
大模型之家开场体验中,使用了2024年全国大学生数学建模案例中的题目,截取了该建模题中的前两个问题。
得到的回答是“内容暂不支持,可以换个题目试试。”
大模型之家猜测可能是由于数学建模题目过长导致,于是重新选取了一道关于基金调动的数学案例来对X1进行提问。
在用时139秒后,X1完成思考。在回答过程中,与前段时间的DeepSeekAI智能助手类似,采用了深度思考计时的形式,但星火的深度推理模型X1并未在页面中显示出思考过程,只有在形成答案的过程中,会闪动小标题来显示正在思考。这道题回答完整,并且在最后结果解析完成之后进行答案总结。
对于此类难度系数较高的大学生数学案例题来看,星火深度推理模型X1的回答逻辑严密,能够根据题干进行预设,并且注释清晰。
既然是深度思考的数学大模型,接下来,大模型之家也拿出了每个学习阶段的小学生常见问题“1+1为什么等于2?”,来测试一下星火深度推理模型X1面对学生的问题会给出怎样的答复。
本次回答用时72秒,X1根据自然数的定义、定义加法运算以及应用定义计算1+1,综合得出2是1的后继数,以此来得出1+1=2的公式成立。但是以小学阶段的孩子可能对提到的皮亚诺公理等性质的内容理解起来有难度。
深度推理模型X1以智能体的形式出现,在实际的体验中,无论是页面设计还是回答来看,X1更像是一个经过训练形成的数学专用智能体,并没有出现直播演示中的右侧思考栏,与官方介绍中的具备深度思考过程和推理能力的大模型有所出入。
02
长文本处理强行充数、图文识别已读乱回
此外,在本次升级中本次讯飞星火4.0 Turbo行业能力提升,在能源、金融、汽车、运营商等场景下,讯飞星火正在持续学习行业知识,目前已有300+智能体应用,成为更懂行业的大模型,其中对长文本、图文识别和减少幻觉等能力进行了提升。
大模型之家先以生成长文本能力进行测试,输入prompt“以“2025年1月15日,讯飞星火大模型升级”为信源,写5000字关于讯飞星火大模型升级的文案,要求风格是活泼的”。
最终星火大模型4.0Turbo给出的回答中,总共分为五个部分,从升级背景、技术突破、应用场景拓展赋能各行各业、用户体验升级以及未来展望着手,文案的完整性和连贯性表现不错。
但在字数校对中发现回复的文案共计2676字,与提问的5000字相差甚远。当然,星火也没有强行凑字数,这是目前所有大模型输出文本长度受限的问题。
接下来,以处理长文本能力进行测试。大模型之家将《2025人工智能行业趋势报告》文件导入,要求星火大模型进行整理“提取其中关于OpenAI案例的部分,分点罗列”。
在星火的回答中,将《报告》中关于OpenAI的三个案例分三点罗列,在案例数量上是正确的,但回答的要点与《报告》实际提到的OpenAI重启人形机器人项目、 o1&o3系列模型以及Scaling Law逐渐逼近的“边际效应”这三部分不对应。
提示词中是关于“OpenAI的案例”,但在星火实际的回答中却出现了“特斯拉入局人形机器人赛道”的案例来充数,在整理长文本的能力上可见一斑。
接下来,大模型之家开始对图文能力提升,“看”懂复杂文档进行实测,复杂场景的图文包括手写文字识别的内容。利用之前商汤融合大模型的一个英文手写诗图文测试题目来对星火进行提问。
图左:讯飞星火大模型 右:商汤融合大模型
星火的反应速度很快,甚至出现“已读乱回”的迹象,实际给出的回答中,字数明显多于原图,但主打一个“答都答了”,完整性上确实无懈可击,从信件开头的Dear到结尾的落款名Larry都有,但内容上确实存在图文完全不一致的情况。
如果说英文场景不是星火大模型擅长的语言,大模型之家又以中文场景下的手写文案进行图文识别测试。
根据识别的内容来看,图中左上角文字和下半部分文字识别正确,但在中间的户外运动分类等内容均未识别。
根据大模型之家的实测来看,星火深度推理模型X1的数学解题能力覆盖中小学生的日常解题足够了,进阶到数学建模层面明显吃力;而星火4.0 Turbo升级后的长文本能力和图文识别能力的表现一般,失误频频。
不过值得肯定的是,星火深度推理模型X1作为首个基于全国产算力训练的具备深度思考和推理能力的大模型,用更少的算力达到效果,并率先实现了实际场景落地,这对于国产来说还是很值得鼓励的。
03
大模型中标王者--科大讯飞前路漫漫
回顾2024年,科大讯飞讯飞星火大模型获得大模型行业中标金额和数量双第一的成绩。中标项目主要以大模型软件、AI平台、AI应用等项目为主。
同时科大讯飞表示,中标收入不仅是为了获取最初的经济收益,更是为了获取进入特定场景的机会,从而有机会深入迭代并在该场景上建立起客户的持续投资回报循环。
而大模型之家也注意到,尽管科大讯飞取得了中标王者的成绩,但同时其应收账款项一路狂奔,从2020年的54.68亿元一直涨到2024年前三季度的140亿元,但AI大模型研发投入巨大,这也促使科大讯飞不得不“节衣缩食”,开始了“用更少的算力”来达到AI疗效。
由本次的升级发布会来看,科大讯飞也在大模型和自家硬件之间进行了强联合,从AI学习机到科大讯飞翻译机,每一步的大模型升级都是围绕客户需求来进行的。但在实际测试中,星火大模型的升级迭代也并没有给用户带来惊艳的效果。
星火深度推理模型X1作为国内首个基于全国产算力训练的具备深度思考和推理能力的大模型,实现了用更少的算力达到效果,并率先实现了实际场景落地。大模型之家希望科大讯飞能够低调做好产品,而不是口号上一味对标超越GPT,基于国产算力的AI大模型或许目前还不能成为世界一流,但只要中国的科技在不断向前推进,大模型之家坚定的相信以科大讯飞为代表的中国企业终究会跻身世界一流水平。
来源:小蔓车讯