开源新王！首次干翻 GPT-5，实测 Kimi K2 Thinking，中国 AI 杀疯了

迄今为止最大最好的开源模型，总参数达 1 万亿，屠榜多个基准测试，kimi k2 thinking 来了。

一登场就是斩获多个测试榜单的第一名，Kimi 也不玩开源只和开源比那一套，而是直接把 GPT-5、Claude 4.5 Sonnet 这样的闭源模型放一起，非常自信。

开源新王！首次干翻 GPT-5，实测 Kimi K2 Thinking，中国 AI 杀疯了

无论是对智能体能力要求极高的编程任务、还是通用的推理写作、深度搜索等方面，Kimi K2 Thinking 的性能表现可以说是，目前最接近封闭模型的开源模型。

延续了 7 月份，发布 K2 时，将其定位为自主智能路线图的一部分，Kimi K2 Thinking 也是主打 Agentic Intelligence（智能体智能）。它是一个推理的混合专家（MoE）模型，总参数量 1T，激活参数 32B，上下文长度 256K。

K2 Thinking 能在智能体工具调用中交错思考，同时在保持任务目标的同时，持续进行 200 到 300 次顺序工具调用。尽管工具调用在类似的闭源模型上，已经成为某种程度上的标准，但 K2 Thinking 可能是第一个，具有如此多工具调用能力的开源模型。

对比 K2 0905，K2 Thinking 在具体的任务上的提升，我们总结了 Kimi 的技术博客，有这些亮点。

Writer

企业级AI内容创作工具

176

解决需要百步推理的复杂难题：它能将一个庞大的目标分解为数百个子任务，然后像一个项目经理一样逐一执行。官方举例称，它曾通过 23 个交错的推理和工具调用，成功解决了一个博士级的数学难题。
更准确的找到详细的信息：通过执行动态的思考 → 搜索 → 浏览器使用 → 思考 → 代码循环，K2 Thinkging 在面对模糊或冷门的搜索需求，能自己上网反复搜索、浏览网页、验证证据，直到找到精准答案。
直接把想法变成可用的产品：K2 Thinking 特别擅长前端代码（如 HTML、React），和其他 Vibe Coding 产品一样，能直接把我们的想法写成一个功能完善、响应迅速的网页或软件产品。
写出更有人味的文章：逻辑严谨的专业长文，想象力丰富的创意故事，甚至是需要同理心的情感建议，K2 Thinking 在聊天问答这些通用能力上，能做到更扎实、更细腻的推理写作。

开源新王！首次干翻 GPT-5，实测 Kimi K2 Thinking，中国 AI 杀疯了

目前，Kimi K2 Thinking 已经在 Kimi 官网的聊天模式上线。

但需要注意的是，Kimi 解释说为了保证用户能获得快速、轻量级的体验，当前的网页聊天版本有选择性地减少了部分工具的使用和调用次数。因此，直接在 kimi.com 上聊天，可能暂时无法完全复现上述基准测试中的极限分数。

开源新王！首次干翻 GPT-5，实测 Kimi K2 Thinking，中国 AI 杀疯了

此外，能充分发挥 Kimi K2 Thinking 能力的完整智能体模式（Full Agentic Mode）将很快更新。开发者也可以通过 Kimi k2 thinking API 来体验。