前言
2025 年各家 LLM 厂商的模型能力都有了很大的提升,GPT-5、Claude 4.5、Gemini 3 都有非常大的性能提升,让我感觉很多场景下 LLM 开始真正可用了,从 2025 年初我就开始将我的各个工作流都引入了 LLM,LLM 也帮我做了很多我以前只是想想的事情,包括将许多油猴脚本都替换成了自己实现的版本、将部分 Self-Hosted 服务换成了自己写的软件、编写许多一次性小工具等等。接下来主要讲讲我都是怎么用 AI 的(当然本站的文章基本上是 100% 人类完成的)。
我使用的 AI 服务/工具
Coding CLI
我用的最多的工具应该就是各种代码 Agents 了,虽然我不是程序员也没系统地学习过编码,但是 LLM 的出现确实让我可以更简单的编写程序了,虽然目前 LLM 还无法在没有人类干预的情况下,仅凭一句话就生成完整可用的程序,但是作为辅助和做一些重复枯燥的任务还是非常合适的,包括在 Debug 的时候使用 LLM 也非常方便,不用再像以前一样去搜索了。
我目前主力使用的 Coding CLI 是 Claude Code 和 OpenCode,虽然很多人觉得 OpenCode 不好用,但是我认为 OpenCode 是类似 Quickshell 一类的软件,可以完全按照自己的想法来自定义配置,而 Claude Code 则是我认为默认状态下最好用的 Coding CLI。最好用 + 最自由的组合在大部分情况下已经可以用的很舒服了。MCP 我也只配置了一个 Exa MCP,可以完成搜索、抓取、代码搜索的任务。
在进行工作量偏大的任务的时候我一般还会使用 Codex CLI,Codex + GPT 模型在这种长时间、工作量大的任务下表现比 Claude 好一点,并且由于 Codex 是 Rust 编写的,稳定性也比 Claude Code 和 OpenCode 好一点。Claude 在进行大工作量的任务的时候就经常会只做一半就停下了,不管在 Claude Code 还是 OpenCode 里都是这样。
除了这些我还体验过 Gemini CLI、Copilot、Cursor、Antigravity。Gemini CLI 在用 Gemini 的情况下表现非常糟糕,Gemini 3 Pro 非常不适合代码 Agent 的使用场景,遵从性很差,Gemini 3 Flash 在代码 Agent 场景下的表现甚至还比 Gemini 3 Pro 好一点。Copilot 和 Cursor 我都感觉中规中矩,主要还是看模型性能,Copilot 在下半年之后更新的还算可以了,不过 Copilot 的模型都是被砍了上下文的。Antigravity 目前还比较新,BUG 非常多,并且 Gemini 在代码 Agent 场景下确实不好用,我现在基本都是在 OpenCode 里用 Antigravity 的额度的。
最近我还做了一个完全由 LLM 编写的项目,我只负责指挥 LLM,有兴趣的可以看一下,是一个 RSS 服务器 https://github.com/9bingyin/Gist,目前已经是一个比较可用的状态了,前几天还完善了单元测试,后面说不定可以让 LLM 完全自己完成迭代了。
这个项目最重要的部分可能就是记忆文件了,我一开始做的时候是用 Next.js 完成了所有前后端功能的、并且只用了 8 个小时左右就完成了大部分功能,不过这也导致了许多问题,例如无处不在的竞态条件,还有各种诡异的 BUG。后来我直接重做了整个项目,换成了 Golang 后端 + React 前端,并且在项目开始之前编写了非常详细的记忆文件,里面放了代码库的结构规范和代码规范,让项目顺利了很多,LLM 写 Golang 感觉也比较靠谱,现在我已经将我的 RSS 服务器替换成这个了,用起来甚至比我之前的更好用(毕竟是按照我自己的需求编写的)。
从 Claude Code 发布至今也就一年多,LLM 辅助编写代码几乎已经普及了,只要开发者知道自己在干什么,我认为 LLM 辅助编码是完全可以接受的。当然,一切的前提都是操作 Agent 的人知道自己需要让 LLM 完成什么,并且最好有完善的测试。程序员现在更多的是需要了解程序架构和需要使用的技术栈,繁琐的劳动则可以交给 LLM 辅助完成了。
除了写代码,我的 NixOS 几乎有一半也都是 Coding CLI 帮我配置的,不过这部分可能留到以后讲我 NixOS 的配置时候再展开讲。我比较意外的一次就是我在配置 Quickshell 的时候,由于我用的是主线的 Flake,有一个配置的文档还没更新,在多次修改配置,确认文档后问题依旧没有解决,Claude 直接查了 Quickshell 的源码发现了这个问题并且修正了配置。这个时候我是真正感觉到主流 LLM 的模型能力可能已经超出我的预期了。
AI 字幕翻译插件
这里主要是沉浸式翻译,沉浸式翻译因为之前有过不太好的前科,所以我一直在找替代品,不过用来用去还是沉浸式翻译最好用,也就懒得换了,不过可能在我完成 RSS 服务器的项目之后自己写一个插件来替代掉沉浸式翻译(?),不过这都是后话了。
我这里主要是用来翻译网页和 Youtube 字幕,还有翻译 Discord 消息。
不过用这种插件好像真的可以练英语听力(?),有好几次我视频快看完了才发现插件没有自动打开字幕,可能也是有点用吧,后面可以试试让 LLM 教我外语。
AI 同声传译
在体验了各种同声传译服务之后,我觉得最好用的应该是阿里的千问 APP,在延迟和准确度方面都还不错,到了能用的水平了。不过 Gemini 的音频能力明明非常出色,模型能力也完全足够做翻译任务,为什么谷歌不在谷歌翻译里也用 LLM 做个这样的功能呢,虽然现在的谷歌翻译有类似的功能,但准确度还是差点意思,不知道用上 Gemini 之后会不会比千问更好。
聊天机器人
聊天机器人作为最“远古”的 LLM 用例,现在已经是每个大厂必须有的服务了,今年我用的最多的应该就是 Gemini 和 Claude 了,在 Gemini 3 Pro 发布后 Gemini 变的好用了非常多,我也经常用 Deep Research 功能来辅助我分析公司业务和财报等信息。Claude 则是我的搜索工具,在响应速度和性能上 Claude 4.5 Sonnet 比较平衡。
在移动端我的主力聊天机器人 APP 也是 Gemini,得益于 Gemini 3 Pro 强到离谱的图像性能和知识面,我可以直接截图、分享图片给 Gemini 加上简单的问题就可以获得准确的答案。例如在下面这个用例里 Gemini 凭借这么一点图片信息就能得出便签上的信息是布料清单的结论。


另外最近也有 Siri 要用上 Gemini 作为基座模型的传闻,如果这样确实对于 Siri 来说是一个很大的提升。
在 Gemini 3 Pro 刚出的时候我也给它做过这个测试,结果 Gemini 每次都是 5 轮左右就能得出正确的人物了,并且大部分时候在第 2-3 轮就能猜到正确的作品,Gemini 3 Flash 出的时候我也测试了一下,结果几乎和 Gemini 3 Pro 一致。Gemini 系列的原生多模态确实是一个杀手级功能了。
Chatwise
自从 Chatwise 发布以来我就一直在使用,得益于 Tauri,Chatwise 一直十分轻量快速,是我一直在用的主力 LLM 软件,平时用来概括下网页,做简单脚本编写之类的,不过最近 Chatwise 已经有点疏于维护了。
谷歌
在 2025 年,谷歌的 AI 业务可以说是飞速发展,已经抢占了很多 OpenAI 的市场份额,作为我的第一大仓位也是给我带来了可观的收益(投资披露),谷歌现在开始将各个业务都整合进了 AI。比起微软那种像是用胶水粘在一起的,谷歌的就好用了很多,包括 Gmail 助手、Google Drive 助手等,还有谷歌的另一个杀手级应用——NotebookLM。NotebookLM 绝对是我用过最好用的 AI 知识库应用,现在还多了一键生成 PPT 的功能。Gmail 助手在回复/撰写邮件的时候也非常好用,最近我的 Metamask 的卡被盗刷了,争议需要我自己先去联系那些盗刷的商户退款,我就是用 Gmail 助手帮我撰写的邮件,这在以前是个非常麻烦的事情(等事情完全结束可能也会写个文章)。
总之我认为按照现在的情况来看,谷歌是最有可能成为 AI 应用巨头的。
结尾
2025 年我认为才是 AI 真正爆发的一年,2025 年所有 LLM 的性能都迎来了飞跃,从不好用真正变成了能用,不过边际效应似乎已经开始出现了,后面模型性能的提升可能会越来越慢了。我也认为 LLM 不会变成真正的 AI,而是作为一种提高效率的过渡工具。人类距离真正的 AGI 可能还很遥远。