开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

3次阅读

迄今为止最大最好的开源模型,总参数达 1 万亿,屠榜多个基准测试,kimi k2 thinking 来了。

开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

一登场就是斩获多个测试榜单的第一名,Kimi 也不玩开源只和开源比那一套,而是直接把 GPT-5、Claude 4.5 Sonnet 这样的闭源模型放一起,非常自信。

开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

无论是对智能体能力要求极高的编程任务、还是通用的推理写作、深度搜索等方面,Kimi K2 Thinking 的性能表现可以说是,目前最接近封闭模型的开源模型。

延续了 7 月份,发布 K2 时,将其定位为自主智能路线图的一部分,Kimi K2 Thinking 也是主打 Agentic Intelligence(智能体智能)。它是一个推理的混合专家(MoE)模型,总参数量 1T,激活参数 32B,上下文长度 256K。

K2 Thinking 能在智能体 工具 调用中交错思考,同时在保持任务目标的同时,持续进行 200 到 300 次顺序 工具 调用。尽管工具调用在类似的闭源模型上,已经成为某种程度上的标准,但 K2 Thinking 可能是第一个,具有如此多工具调用能力的开源模型。

对比 K2 0905,K2 Thinking 在具体的任务上的提升,我们总结了 Kimi 的技术博客,有这些亮点。

开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

Writer

企业级 AI 内容创作工具

开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了 176

查看详情 开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

  • 解决需要百步推理的复杂难题:它能将一个庞大的目标分解为数百个子任务,然后像一个项目经理一样逐一执行。官方举例称,它曾通过 23 个交错的推理和工具调用,成功解决了一个博士级的数学难题。
  • 更准确的找到详细的信息:通过执行动态的思考 → 搜索 → 浏览器 使用 → 思考 → 代码循环,K2 Thinkging 在面对模糊或冷门的搜索需求,能自己上网反复搜索、浏览网页、验证证据,直到找到精准答案。
  • 直接把想法变成可用的产品:K2 Thinking 特别擅长 前端 代码(如 HTML、React),和其他 Vibe Coding 产品一样,能直接把我们的想法写成一个功能完善、响应迅速的网页或软件产品。
  • 写出更有人味的文章:逻辑严谨的专业长文,想象力丰富的创意故事,甚至是需要同理心的情感建议,K2 Thinking 在聊天问答这些通用能力上,能做到更扎实、更细腻的推理写作。

开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

目前,Kimi K2 Thinking 已经在 Kimi 官网的聊天模式上线。

但需要注意的是,Kimi 解释说为了保证用户能获得快速、轻量级的体验,当前的网页聊天版本有选择性地减少了部分工具的使用和调用次数。因此,直接在 kimi.com 上聊天,可能暂时无法完全复现上述基准测试中的极限分数。

开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

此外,能充分发挥 Kimi K2 Thinking 能力的完整智能体模式(Full Agentic Mode)将很快更新。开发者也可以通过 Kimi k2 thinking API 来体验。

星耀云
版权声明:本站原创文章,由 星耀云 2025-11-29发表,共计374字。
转载说明:转载本网站任何内容,请按照转载方式正确书写本站原文地址。本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。
text=ZqhQzanResources