2026 年，我都在用 AI 做什么

前言

2025 年各家 LLM 厂商的模型能力都有了很大的提升，GPT-5、Claude 4.5、Gemini 3 都有非常大的性能提升，让我感觉很多场景下 LLM 开始真正可用了，从 2025 年初我就开始将我的各个工作流都引入了 LLM，LLM 也帮我做了很多我以前只是想想的事情，包括将许多油猴脚本都替换成了自己实现的版本、将部分 Self-Hosted 服务换成了自己写的软件、编写许多一次性小工具等等。接下来主要讲讲我都是怎么用 AI 的（当然本站的文章基本上是 100% 人类完成的）。

我使用的 AI 服务/工具

Coding CLI

我用的最多的工具应该就是各种代码 Agents 了，虽然我不是程序员也没系统地学习过编码，但是 LLM 的出现确实让我可以更简单的编写程序了，虽然目前 LLM 还无法在没有人类干预的情况下，仅凭一句话就生成完整可用的程序，但是作为辅助和做一些重复枯燥的任务还是非常合适的，包括在 Debug 的时候使用 LLM 也非常方便，不用再像以前一样去搜索了。

我目前主力使用的 Coding CLI 是 Claude Code 和 OpenCode，虽然很多人觉得 OpenCode 不好用，但是我认为 OpenCode 是类似 Quickshell 一类的软件，可以完全按照自己的想法来自定义配置，而 Claude Code 则是我认为默认状态下最好用的 Coding CLI。最好用 + 最自由的组合在大部分情况下已经可以用的很舒服了。MCP 我也只配置了一个 Exa MCP，可以完成搜索、抓取、代码搜索的任务。

在进行工作量偏大的任务的时候我一般还会使用 Codex CLI，Codex + GPT 模型在这种长时间、工作量大的任务下表现比 Claude 好一点，并且由于 Codex 是 Rust 编写的，稳定性也比 Claude Code 和 OpenCode 好一点。Claude 在进行大工作量的任务的时候就经常会只做一半就停下了，不管在 Claude Code 还是 OpenCode 里都是这样。

除了这些我还体验过 Gemini CLI、Copilot、Cursor、Antigravity。Gemini CLI 在用 Gemini 的情况下表现非常糟糕，Gemini 3 Pro 非常不适合代码 Agent 的使用场景，遵从性很差，Gemini 3 Flash 在代码 Agent 场景下的表现甚至还比 Gemini 3 Pro 好一点。Copilot 和 Cursor 我都感觉中规中矩，主要还是看模型性能，Copilot 在下半年之后更新的还算可以了，不过 Copilot 的模型都是被砍了上下文的。Antigravity 目前还比较新，BUG 非常多，并且 Gemini 在代码 Agent 场景下确实不好用，我现在基本都是在 OpenCode 里用 Antigravity 的额度的。

最近我还做了一个完全由 LLM 编写的项目，我只负责指挥 LLM，有兴趣的可以看一下，是一个 RSS 服务器 https://github.com/9bingyin/Gist，目前已经是一个比较可用的状态了，前几天还完善了单元测试，后面说不定可以让 LLM 完全自己完成迭代了。

这个项目最重要的部分可能就是记忆文件了，我一开始做的时候是用 Next.js 完成了所有前后端功能的、并且只用了 8 个小时左右就完成了大部分功能，不过这也导致了许多问题，例如无处不在的竞态条件，还有各种诡异的 BUG。后来我直接重做了整个项目，换成了 Golang 后端 + React 前端，并且在项目开始之前编写了非常详细的记忆文件，里面放了代码库的结构规范和代码规范，让项目顺利了很多，LLM 写 Golang 感觉也比较靠谱，现在我已经将我的 RSS 服务器替换成这个了，用起来甚至比我之前的更好用（毕竟是按照我自己的需求编写的）。

从 Claude Code 发布至今也就一年多，LLM 辅助编写代码几乎已经普及了，只要开发者知道自己在干什么，我认为 LLM 辅助编码是完全可以接受的。当然，一切的前提都是操作 Agent 的人知道自己需要让 LLM 完成什么，并且最好有完善的测试。程序员现在更多的是需要了解程序架构和需要使用的技术栈，繁琐的劳动则可以交给 LLM 辅助完成了。

除了写代码，我的 NixOS 几乎有一半也都是 Coding CLI 帮我配置的，不过这部分可能留到以后讲我 NixOS 的配置时候再展开讲。我比较意外的一次就是我在配置 Quickshell 的时候，由于我用的是主线的 Flake，有一个配置的文档还没更新，在多次修改配置，确认文档后问题依旧没有解决，Claude 直接查了 Quickshell 的源码发现了这个问题并且修正了配置。这个时候我是真正感觉到主流 LLM 的模型能力可能已经超出我的预期了。

AI 字幕翻译插件

这里主要是沉浸式翻译，沉浸式翻译因为之前有过不太好的前科，所以我一直在找替代品，不过用来用去还是沉浸式翻译最好用，也就懒得换了，不过可能在我完成 RSS 服务器的项目之后自己写一个插件来替代掉沉浸式翻译（？），不过这都是后话了。

我这里主要是用来翻译网页和 Youtube 字幕，还有翻译 Discord 消息。

不过用这种插件好像真的可以练英语听力（？），有好几次我视频快看完了才发现插件没有自动打开字幕，可能也是有点用吧，后面可以试试让 LLM 教我外语。

AI 同声传译

在体验了各种同声传译服务之后，我觉得最好用的应该是阿里的千问 APP，在延迟和准确度方面都还不错，到了能用的水平了。不过 Gemini 的音频能力明明非常出色，模型能力也完全足够做翻译任务，为什么谷歌不在谷歌翻译里也用 LLM 做个这样的功能呢，虽然现在的谷歌翻译有类似的功能，但准确度还是差点意思，不知道用上 Gemini 之后会不会比千问更好。

聊天机器人

聊天机器人作为最“远古”的 LLM 用例，现在已经是每个大厂必须有的服务了，今年我用的最多的应该就是 Gemini 和 Claude 了，在 Gemini 3 Pro 发布后 Gemini 变的好用了非常多，我也经常用 Deep Research 功能来辅助我分析公司业务和财报等信息。Claude 则是我的搜索工具，在响应速度和性能上 Claude 4.5 Sonnet 比较平衡。

在移动端我的主力聊天机器人 APP 也是 Gemini，得益于 Gemini 3 Pro 强到离谱的图像性能和知识面，我可以直接截图、分享图片给 Gemini 加上简单的问题就可以获得准确的答案。例如在下面这个用例里 Gemini 凭借这么一点图片信息就能得出便签上的信息是布料清单的结论。

另外最近也有 Siri 要用上 Gemini 作为基座模型的传闻，如果这样确实对于 Siri 来说是一个很大的提升。

在 Gemini 3 Pro 刚出的时候我也给它做过这个测试，结果 Gemini 每次都是 5 轮左右就能得出正确的人物了，并且大部分时候在第 2-3 轮就能猜到正确的作品，Gemini 3 Flash 出的时候我也测试了一下，结果几乎和 Gemini 3 Pro 一致。Gemini 系列的原生多模态确实是一个杀手级功能了。

Chatwise

自从 Chatwise 发布以来我就一直在使用，得益于 Tauri，Chatwise 一直十分轻量快速，是我一直在用的主力 LLM 软件，平时用来概括下网页，做简单脚本编写之类的，不过最近 Chatwise 已经有点疏于维护了。

谷歌

在 2025 年，谷歌的 AI 业务可以说是飞速发展，已经抢占了很多 OpenAI 的市场份额，作为我的第一大仓位也是给我带来了可观的收益（投资披露），谷歌现在开始将各个业务都整合进了 AI。比起微软那种像是用胶水粘在一起的，谷歌的就好用了很多，包括 Gmail 助手、Google Drive 助手等，还有谷歌的另一个杀手级应用——NotebookLM。NotebookLM 绝对是我用过最好用的 AI 知识库应用，现在还多了一键生成 PPT 的功能。Gmail 助手在回复/撰写邮件的时候也非常好用，最近我的 Metamask 的卡被盗刷了，争议需要我自己先去联系那些盗刷的商户退款，我就是用 Gmail 助手帮我撰写的邮件，这在以前是个非常麻烦的事情（等事情完全结束可能也会写个文章）。

总之我认为按照现在的情况来看，谷歌是最有可能成为 AI 应用巨头的。

结尾

2025 年我认为才是 AI 真正爆发的一年，2025 年所有 LLM 的性能都迎来了飞跃，从不好用真正变成了能用，不过边际效应似乎已经开始出现了，后面模型性能的提升可能会越来越慢了。我也认为 LLM 不会变成真正的 AI，而是作为一种提高效率的过渡工具。人类距离真正的 AGI 可能还很遥远。

2026 年，我都在用 AI 做什么

前言

我使用的 AI 服务/工具

Coding CLI

AI 字幕翻译插件

AI 同声传译

聊天机器人

Chatwise

谷歌

结尾

2026 年，我都在用 AI 做什么

作者

发布时间

许可协议

添加新评论取消回复

页面

2026 年，我都在用 AI 做什么

前言

我使用的 AI 服务/工具

Coding CLI

AI 字幕翻译插件

AI 同声传译

聊天机器人

Chatwise

谷歌

结尾

2026 年，我都在用 AI 做什么

作者

发布时间

许可协议

添加新评论 取消回复

2026 年，我都在用 AI 做什么

添加新评论取消回复