写在2025最后一天
真是非常充实的一年。
突然发现 DeepSeek 爆火也就是今年年初的事,感觉已经过去好久了。朋友圈刷屏,技术群里天天在聊。现在回头看,那只是一个起点。
¶工作:从旁观者到实践者
今年最大的变化是加入了一家 MaaS 公司。
之前做 LLM 相关的东西,更多是自己折腾,写写工具,跑跑实验。但进入真实业务场景完全是另一回事——直接面对客户需求、成本压力、SLO 约束,每一个决策都是真金白银。
说实话,真的很上头。总想着再优化一点点:延迟能不能再低?吞吐能不能再提?成本能不能再省?而且这不是单一目标的优化,是在成本 + 收入 + SLO 的多重限制下找平衡点。有时候为了省成本牺牲了一点延迟,有时候为了保 SLO 不得不多花钱。这种多目标博弈的感觉,比纯粹追求技术指标有意思多了。
这一年下来,对 LLM 落地的认知确实深了很多。以前觉得"模型好就行",现在知道模型只是开始,后面还有一长串的工程问题要解决。
¶技术深潜:模型服务的那些事
想要做到模型服务高效运行,真的需要把计算机科学能用的都用上。大概可以分几层:
¶网关层
- 调度策略:怎么把请求分到合适的实例上,怎么做负载均衡,怎么处理突发流量
- 异常处理:超时、重试、熔断、降级,每一个都有坑
- 时延优化:每一跳都在加延迟,能省则省
¶推理服务层
- 超参调优:batch size、chunk size、tile size,以后要在不同的卡上能快速 tune 一个符合要求的配置和 kernel
- 部署模式:PD 分离、各种并行方式,不同场景用不同的组合
¶存储层(围绕 KV Cache)
- 单机内存池化:在单机上做内存管理,减少重复计算
- 集群 SSD 池化:把 SSD 资源池化,KV Cache 可以跨节点共享
¶AI 发展:震惊是常态
今年参加了不少活动,前两天去了 WayToAGI 的线下,发现很多非技术背景的"一人公司",已经用 AI 工具做出了非常好的产品,而且取得了不错的收益。他们不懂代码,不懂模型原理,但就是能把工具用好,把产品做出来,把钱赚到。视频生成现在简单到离谱——一句话或者一个简单的分镜,就能生成效果很好的视频。主要用的是 Google 的工具,还有 MiniMax。以前觉得视频生成还早,现在发现已经能用了。
具身机器人也发展得超出预期。王力宏演唱会上机器人跳舞那个视频真的震惊到了。动作流畅度、协调性、稳定性,比我想象中好太多。
有一种感觉:明年把足够聪明的 LLM 塞到机器人身上,可能就快进到"西部世界"了。
¶工具:效率提升的一年
今年用上了公司的 Cursor,体验确实不错。倒是没怎么用 Claude Code,可能是使用场景不太对。说实话,对于我这种经常在推理框架里面 debug 的人来说,AI 编程工具的作用主要是省了我亲自打字。TAB 键已经按冒烟了。核心的思考、设计、排查问题,还是得自己来。但体力活确实省了不少。
另外要特别夸一下 Cherry Studio,真的好用。
¶预测
-
现在的模型已经足够智能了(我已经不把 claude 模型当傻子了),但是聪明的模型还不普及,2026 年大家手里的 ai 平均智商应该能再提升一倍
-
sparse attention or linear attention? 感觉 sparse 既难做快速的 kernel,kernel 代码也难迁移到其他模型。linear attention 似乎是快但是不聪明。
-
云原生继续发力,会有更多 LLM 相关各种 infra,包括网关,存储,网卡,显卡,模型冷启动。感觉现在还是没有出名&功能强大&大一统的框架,都是很初级的。
-
phone-use, computer-use 的各种 agent 放出各种 demo(特质豆包手机,GLM phone agent 这些),ai 可以端到端干更多的事了,但是还是受限于模型智力和 VL 模型效果。如果这些 agent 还是“小爱同学”的形式就没啥新鲜的。AI 是程序,手机电脑上的功能都是调 API,程序调用 API 多自然的流程,不应该有人类参与(任何模拟 vision, click, touch 的方法都算)。人只管输入就好了,具体实现应该是程序直接 call API 而不是用一个 VL 看屏幕,再模拟人点点点。移动互联网是把人们在线下 do something,变成了手机 APP 里面 do something。AI 手机应该去掉 APP,厂商提供一系列 API,人给 LLM 一个 task,LLM 去 tool call 就行了。
-
端侧LLM发展太难了,聪明的模型很大跑不动,跑的起来的模型太小不够聪明,老老实实call api吧
¶2026 想做的事
- 继续深耕模型服务——KV Cache、调度策略、部署优化,还有很多可以挖的
- 去新疆
- 去川西
- 去新西兰
¶总结
2025 年,从旁观者变成了实践者,在真实业务中摸爬滚打,对 LLM 落地有了更深的理解。AI 发展速度超出预期,这个时代太有意思了。
希望 2026 年,能做出更多有价值的事。
由 Opus 润色




