KIMI 视觉思考模型 K1:强到离谱!

摘要:在预训练阶段,基础模型重点优化了字符识别能力,在 OCRBench 上取得了 903 分的优异成绩,在 mathVista-testmini、MMMU-val 和 DocVQA 基准测试集上也表现出色,分数分别达到 69.1、66.7 和 96.9,处于全球第

12 月 16 日,月之暗面科技有限公司发布了 AI 人工智能助手 KIMI 的视觉思考模型 K1,这一创新成果为 AI 教学与应用领域带来了新的活力与可能。

K1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,其训练分为预训练和强化学习后训练两个阶段。

在预训练阶段,基础模型重点优化了字符识别能力,在 OCRBench 上取得了 903 分的优异成绩,在 mathVista-testmini、MMMU-val 和 DocVQA 基准测试集上也表现出色,分数分别达到 69.1、66.7 和 96.9,处于全球第一梯队水平。

而强化学习后训练则在数据质量和学习效率方面实现了进一步优化,在强化学习的规模化上取得了新的突破,为 K1 模型的卓越性能奠定了坚实基础。

K1 模型不仅在数学领域表现出色,还将其能力扩展到了物理、化学等更多基础科学领域,在这些学科的基准能力测试中,初代 K1 模型的成绩超过了 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet 等全球标杆模型,展现出了其在多学科教学中的巨大潜力。

此外,K1 的图像理解能力也十分强大,能够识别各种真实的拍题场景,包括照片图像不清晰、多题一起拍、手写字迹干扰甚至纯手写的题目等复杂状况,并且解决了之前 Kimi 数学推理模型 K0-math 无法解决的许多几何图形问题,为学生在学习过程中遇到的各种图像类问题提供了有力的帮助。

K1 模型的一大亮点是其强大的推理能力与视觉能力以端到端的方式有机结合,避免了多阶段方法中容易出现的信息丢失问题,使其在真实应用场景中的性能相比 OpenAI 和 Anthropic 的视觉模型有了大幅提升。

例如,在仿真环境中的初级和高级的数学、物理、化学题目上,K1 的最低正确度分数(38.7 / 高级物理)显著高于 OpenAI 和 Anthropic 的视觉模型的最高分数(32.0 / 高级化学)。

除此之外,K1 还展现出了一些令人惊喜的涌现能力,如古代文献分析、梗图理解、基于照片推断地点等,这些能力进一步提升了其在日常生活和教学中的实用性,为学生提供了更加丰富多样的学习体验。

在教育辅助方面,K1 模型为学生提供了一个互动性强的学习平台,能够引导学生逐步进行推理,将复杂问题分解为可管理的部分,从而增强他们对知识的理解和记忆,有助于培养学生的批判性思维技能。

同时,用户在日常学习与生活中,也可以通过拍照或发送图片的方式,利用 Kimi 的视觉思考能力获取答案,比如识别不熟悉的物品、解读梗图等,大大提升了交互体验和便捷性。

下面是一些真实的案例测试

数学题解答:对于这道手写的高中数学题, K1 最终还是能够得出正确答案,并且在解答过程中还展现出了一定的反思能力,详细地展示出每一步的推理思维链,帮助学生更好地理解解题思路。

物理题解析:对于这道物理题,K1 不仅可以用正确的方式完成解答任务,还完整地展示了推理思维链,让学生不仅能看到答题结果,也能清晰地了解模型思索答案的全过程,有助于学生掌握物理知识和解题方法,培养逻辑思维能力。

化学学习辅助:当给出一个化学反应的图示时,K1 不仅很快分析指出这是一个化学反应的图示,而且还详细地说明了该装置的具体实验目的以及图片中各种器皿和化学物质的作用。

目前,K1 视觉思考模型已陆续上线最新版 Kimi 智能助手的 Android 和 iPhone 手机 APP 以及网页版(kimi.com),用户只需在对话框中输入 @,然后选择「Kimi 视觉思考版」,即可开始 AI 视觉推理之旅,轻松享受 K1 模型带来的强大功能和便捷服务。

总之,KIMI 的视觉思考模型 K1 的发布是 AI 领域的又一重要进展,其在技术、功能和应用等方面的优势为 AI 教学与应用带来了新的思路和方法。相信随着技术的不断发展和完善,K1 模型将在教育领域发挥更大的作用,为学生的学习和成长提供更有力的支持。

本文,完。觉得本篇文章不错的,记得随手点个赞、收藏和转发三连,感谢感谢~如果想第一时间收到推送,请记得关注我们⭐~

来源:AIGC研究社一点号

相关推荐