Kimi K2.5 深度解读
月之暗面最新大模型评测。
# Kimi K2.5 深度解读:月之暗面最新大模型到底强在哪?
月之暗面(Moonshot AI)刚刚发布了 Kimi K2.5,这是他们迄今为止最强大的开源模型。在 Hacker News 上获得了 205+ 的热度,开发者社区讨论得沸沸扬扬。
Kimi K2.5 不是一次简单的迭代升级——它是一个原生多模态智能体模型,在 Kimi-K2-Base 基础上使用约 15 万亿混合视觉和文本 token 进行持续预训练。更重要的是,它完全开源,权重已经放在了 Hugging Face 上。
这篇文章会帮你全面了解 K2.5 的架构亮点、基准测试表现、与主流模型的对比,以及国内用户如何直接使用。
模型概览
| 规格 | 详情 |
|---|---|
| 架构 | 混合专家模型(MoE) |
| 总参数量 | 1 万亿(1T) |
| 激活参数量 | 320 亿(32B) |
| 层数 | 61 层(含 1 层 Dense 层) |
| 专家数量 | 384 |
| 每 Token 激活专家数 | 8 |
| 共享专家 | 1 |
| 注意力机制 | MLA(多头潜在注意力) |
| 上下文长度 | 256K tokens |
| 词表大小 | 160K |
| 视觉编码器 | MoonViT(4 亿参数) |
| 激活函数 | SwiGLU |
虽然总参数量达到 1 万亿,但 MoE 架构意味着每次推理只激活 320 亿参数。这让你获得前沿级别的性能,但推理成本远低于同等规模的 Dense 模型。
三大核心能力
一、原生多模态
和那些"先训练文本模型再接上视觉能力"的方案不同,Kimi K2.5 从预训练阶段就融合了视觉和语言 token。这种原生方式带来了:
- 视觉知识理解 —— 解读图表、图形、复杂视觉数据
- 跨模态推理 —— 将视觉信息和文本分析联系起来
- 基于视觉输入的工具调用 —— "看到"什么就能做什么
自研的 MoonViT 视觉编码器(4 亿参数)专为这种深度融合设计。从 OCRBench(92.3)、MathVista(90.1)、InfoVQA(92.6)等基准测试来看,效果非常突出。
二、视觉编码能力
这是 K2.5 真正让开发者兴奋的地方:
- 从 UI 设计稿直接生成代码 —— 给它一张设计图,它写出实现代码
- 理解视频工作流 —— 看懂多步骤的视觉指令并转换为代码
- 自主编排工具 —— 处理视觉数据时自动调用合适的工具
对开发者来说,这意味着你可以截图一个 UI 设计,直接让 K2.5 帮你实现。SWE-Bench Verified 得分 76.8,和 GPT-5.2(80.0)及 Claude 4.5 Opus(80.9)处于同一梯队。
三、Agent Swarm(多智能体协作)
这是最具前瞻性的功能。K2.5 从单智能体执行升级为自主协调的"蜂群"式执行模式:
- 将复杂任务分解为可并行的子任务
- 动态生成特定领域的子智能体
- 协调多个智能体实例的执行
用 BrowseComp 基准测试来说明:
- 标准模式:60.6
- 加上上下文管理:74.9
- 使用 Agent Swarm:78.4
这不是噱头,而是质的飞跃。Agent Swarm 代表了一种全新的复杂任务执行范式。
基准测试全面对比
以下所有数据来自月之暗面官方评测,K2.5 均使用 Thinking 模式。
推理与知识
| 基准测试 | Kimi K2.5 | GPT-5.2 (xhigh) | Claude 4.5 Opus | Gemini 3 Pro | DeepSeek V3.2 |
|---|---|---|---|---|---|
| HLE-Full | 30.1 | 34.5 | 30.8 | 37.5 | 25.1 |
| HLE-Full (带工具) | 50.2 | 45.5 | 43.2 | 45.8 | 40.8 |
| AIME 2025 | 96.1 | 100 | 92.8 | 95.0 | 93.1 |
| HMMT 2025 (Feb) | 95.4 | 99.4 | 92.9 | 97.3 | 92.5 |
| GPQA-Diamond | 87.6 | 92.4 | 87.0 | 91.9 | 82.4 |
| MMLU-Pro | 87.1 | 86.7 | 89.3 | 90.1 | 85.0 |
重点关注: K2.5 在"带工具的 HLE"上以 50.2 的成绩打败了所有对手,这个指标衡量的是借助工具进行实际问题解决的能力。在纯数学推理(AIME、HMMT)上,GPT-5.2 领先,但 K2.5 的表现已经非常出色。
视觉与多模态
| 基准测试 | Kimi K2.5 | GPT-5.2 | Claude 4.5 Opus | Gemini 3 Pro |
|---|---|---|---|---|
| MMMU-Pro | 78.5 | 79.5 | 74.0 | 81.0 |
| MathVision | 84.2 | 83.0 | 77.1 | 86.1 |
| MathVista (mini) | 90.1 | 82.8 | 80.2 | 89.8 |
| OCRBench | 92.3 | 80.7 | 86.5 | 90.3 |
| OmniDocBench 1.5 | 88.8 | 85.7 | 87.7 | 88.5 |
| InfoVQA (val) | 92.6 | 84.0 | 76.9 | 57.2 |
| SimpleVQA | 71.2 | 55.8 | 69.7 | 69.7 |
| WorldVQA | 46.3 | 28.0 | 36.8 | 47.4 |
| VideoMMMU | 86.6 | 85.9 | 84.4 | 87.6 |
| LongVideoBench | 79.8 | 76.5 | 67.2 | 77.7 |
| LVBench | 75.9 | - | - | 73.5 |
这是 K2.5 真正碾压对手的领域。 OCRBench 92.3 vs GPT-5.2 的 80.7,InfoVQA 92.6 vs GPT-5.2 的 84.0——差距巨大。对于做文档理解、图表分析、OCR 提取的团队来说,K2.5 可以说是目前最好的选择。
视频理解也很强:VideoMMMU 86.6、LongVideoBench 79.8、LVBench 75.9,均是同类最优或接近最优水平。
编码能力
| 基准测试 | Kimi K2.5 | GPT-5.2 | Claude 4.5 Opus | Gemini 3 Pro | DeepSeek V3.2 |
|---|---|---|---|---|---|
| SWE-Bench Verified | 76.8 | 80.0 | 80.9 | 76.2 | 73.1 |
| SWE-Bench Pro | 50.7 | 55.6 | 55.4 | - | - |
| SWE-Bench 多语言 | 73.0 | 72.0 | 77.5 | 65.0 | 70.2 |
| LiveCodeBench (v6) | 85.0 | - | 82.2 | 87.4 | 83.3 |
| PaperBench | 63.5 | 63.7 | 72.9 | - | 47.1 |
编码能力稳居第一梯队。SWE-Bench Multilingual 73.0 超过了 GPT-5.2 的 72.0。LiveCodeBench 85.0 也是非常高的水平。不过在 SWE-Bench Verified 上,Claude 4.5 Opus 和 GPT-5.2 还是略有领先。
智能体搜索
| 基准测试 | Kimi K2.5 | GPT-5.2 | Claude 4.5 Opus | Gemini 3 Pro |
|---|---|---|---|---|
| BrowseComp | 60.6 | 65.8 | 37.0 | 37.8 |
| BrowseComp (Agent Swarm) | 78.4 | - | - | - |
| WideSearch (Agent Swarm) | 79.0 | - | - | - |
| DeepSearchQA | 77.1 | 71.3 | 76.1 | 63.2 |
| Seal-0 | 57.4 | 45.0 | 47.7 | 45.5 |
Agent Swarm 模式下的表现是独家优势(其他模型不支持这种范式)。DeepSearchQA 和 Seal-0 两项指标上,K2.5 均超越了所有对手,包括 GPT-5.2。这说明月之暗面在智能体搜索能力上确实有独到的技术积累。
月之暗面公司背景
月之暗面(Moonshot AI)成立于 2023 年,创始人杨植麟是知名的 AI 研究者,此前在卡内基梅隆大学和 Google Brain 工作。
融资情况
- B 轮融资:约 10 亿美元,是中国最受资本看好的 AI 创业公司之一
- 投资方包括国内外知名风险投资机构
产品矩阵
月之暗面的旗舰产品是 Kimi 智能助手,目前产品线包括:
- Kimi 对话 —— 日常 AI 对话助手
- 深度研究(Deep Research) —— 自动化研究报告生成
- Agent Swarm(Beta) —— 多智能体协作任务
- 文档/幻灯片/表格处理 —— 办公生产力工具
- 网页生成 —— 直接生成网站
国内用户如何使用 Kimi K2.5
方式一:直接访问 kimi.com(推荐)
国内用户最方便的方式是直接访问 [kimi.com](https://www.kimi.com)(原 kimi.moonshot.cn 已跳转至新域名)。
平台支持:
- 即时模式和思考模式切换
- 网页浏览和搜索
- 文档上传和理解(支持超长文档)
- 代码执行
- 深度研究
- Agent Swarm(Beta 测试中)
基本功能免费使用,有使用量限制。付费版解锁更多额度。
方式二:API 调用
通过 [platform.moonshot.ai](https://platform.moonshot.ai) 获取 API Key,支持 OpenAI/Anthropic 兼容格式:
import openai
client = openai.OpenAI(
api_key="你的-api-key",
base_url="https://api.moonshot.ai/v1"
)
response = client.chat.completions.create(
model="kimi-k2.5",
messages=[
{"role": "user", "content": "分析这张图表并解释趋势"}
]
)
方式三:本地部署(开源)
K2.5 完全开源,权重在 [Hugging Face](https://huggingface.co/moonshotai/Kimi-K2.5) 上提供下载。
支持的推理引擎:
- vLLM 和 SGLang
- KTransformers
- 支持原生 INT4 量化,降低显存需求
- 最低 `transformers` 版本要求:4.57.1
推荐参数设置:
- Thinking 模式:temperature = 1.0,top_p = 0.95
- Instant 模式:temperature = 0.6,top_p = 0.95
⚠️ 注意:完整的 1T 参数模型即使用 INT4 量化也需要多张高端 GPU(总显存超过 200GB)。对大多数用户来说,直接用 kimi.com 或 API 更实际。
优势与不足
优势
✅ 视觉能力同类最强 —— OCR、文档理解、视觉问答多项指标第一
✅ 完全开源 —— 权重在 Hugging Face 上公开,无限制使用
✅ Agent Swarm 独创 —— 多智能体架构带来可衡量的性能提升
✅ 256K 超长上下文 —— 比大多数竞品的 128K 多一倍
✅ 高效 MoE 架构 —— 1T 参数但每次只激活 32B,兼顾能力和成本
✅ 智能体搜索领先 —— DeepSearchQA 和 Seal-0 打败 GPT-5.2
✅ 中文原生支持 —— 国内用户直接用 kimi.com,体验流畅
不足
❌ 纯数学推理稍弱 —— AIME 和 HMMT 上落后于 GPT-5.2
❌ 编码不是最强 —— SWE-Bench 上 Claude 4.5 Opus 和 GPT-5.2 略有优势
❌ 本地部署门槛高 —— 1T 参数需要多张顶级 GPU
❌ 生态成熟度 —— 第三方集成不如 OpenAI 和 Anthropic 丰富
适合谁用?
- 文档处理团队:OCR 和文档理解得分无人能敌
- 需要开源权重的研究者:完整的前沿模型免费使用
- 构建智能体系统的公司:Agent Swarm 是差异化优势
- 中文用户:原生中文理解 + kimi.com 直接使用
- 视觉密集型应用:图表分析、视觉问答、视频理解
总结
Kimi K2.5 是一个真正令人印象深刻的模型。它在多个重要领域与 GPT-5.2、Claude 4.5 Opus、Gemini 3 Pro 正面竞争,并且在视觉理解、文档处理、智能体搜索等方面取得了领先。
最关键的是——它完全开源。你可以自行部署一个前沿级别的多模态模型,还带有 Agent Swarm 功能。这在一年前是不可想象的。
它是不是综合最强的模型?还不完全是——GPT-5.2 在纯推理上仍然领先,Claude 4.5 Opus 在编码上略有优势。但 K2.5 毫无疑问处于第一梯队,其在视觉和智能体方面的独特优势让它成为特定场景下的最佳选择。
评分:4.5/5 —— 一个开源的前沿模型,原生多模态,Agent Swarm 创新突出。纯数学和编码上的小差距使其未能获得满分。
---
常见问题(FAQ)
1. Kimi K2.5 是免费的吗?
是的,Kimi K2.5 完全开源,可以在 Hugging Face 上免费下载并自行部署。kimi.com 平台也提供免费使用(有额度限制),API 通过 platform.moonshot.ai 提供付费服务。
2. Kimi K2.5 和 GPT-5.2 相比怎么样?
K2.5 在多个视觉基准测试上超过 GPT-5.2(OCRBench:92.3 vs 80.7,InfoVQA:92.6 vs 84.0),在智能体搜索任务上也领先(DeepSearchQA:77.1 vs 71.3)。GPT-5.2 在纯数学推理上更强(AIME 2025:100 vs 96.1)。总体来说两者能力非常接近。
3. 普通用户能在本地跑 Kimi K2.5 吗?
技术上可以——模型是开源的。但完整的 1T 参数模型即使用 INT4 量化也需要 200GB+ 的 GPU 显存(通常需要多张 A100/H100)。对大多数用户来说,直接使用 kimi.com 或 API 更现实。
4. Agent Swarm 和普通 AI 智能体有什么区别?
传统 AI 智能体以单个实例顺序执行任务。Agent Swarm 将复杂任务分解为并行子任务,动态创建专门的子智能体来处理每个子任务。效果提升非常明显——BrowseComp 得分从 60.6(单智能体)跳升到 78.4(Agent Swarm)。
5. Kimi K2.5 支持视频理解吗?
支持。K2.5 在 VideoMMMU 上得分 86.6,在 LongVideoBench 上得分 79.8,均处于同类最优水平。视频对话功能目前通过官方 API 支持,第三方部署的视频支持仍在实验阶段。