让AI更节俭：OpenSquilla的省钱之道

发布时间：2026-05-14 17:51阅读：14

事情是这样的。

我今天刷到一个项目，叫 OpenSquilla。

它给自己的定位很直接：

别再只想着换更贵的模型了，先想想你每一轮对话里，有多少 token 是被白白烧掉的。（Token-Efficient AI Agent）

这个角度我觉得还挺有意思。

因为过去一年，大家聊 Agent，基本都在聊三件事。

更强的模型。

更多的工具。

更长的上下文。

听起来都对，但问题是，这三件事最后都会指向同一个东西：钱。

你让 Agent 多读一点，多想一点，多调几个工具，多跑几轮，账单就开始往上蹿。

而 OpenSquilla 想讲的故事，不是「我又接了一个新模型」。

它想讲的是：

能不能在同样预算下，让 Agent 的有效智力密度更高一点。

同样一块钱，别让 AI 把 7 毛花在废话、重复上下文、错误工具调用和不必要的大模型请求上。

听着很朴素对吧。

但这恰恰是现在 Agent 真正卡人的地方。

很多人第一次用 Agent 都会有一种错觉，觉得它的问题是「不够聪明」。

但你真的拆开一次完整任务会发现，很多时候不是模型不聪明，而是系统太粗糙。

它不知道什么时候该用便宜模型，什么时候该上贵模型。

它不知道哪些历史记忆应该留下，哪些上下文应该丢掉。

它不知道工具能不能并发，还是必须一个一个排队。

它不知道一个聊天入口、一个 CLI 入口、一个网页入口，背后最好应该走同一套运行时。

不然很快就会变成三套系统互相打架。

OpenSquilla 这个项目有意思的地方就在这里。

它没有把自己包装成一个单纯的聊天 UI，而是做成了一个 Python agent runtime。

里面有 gateway，有 provider，有 memory，有 sandbox，有 search，有 MCP，有 skills，有 channels，还有一个叫 SquillaRouter 的路由模块。

说白了，它更像一个 Agent 操作系统的雏形。

不是一个窗口。

是一套管线。

我看它 README 里最核心的描述，是所有入口，Web UI、CLI、chat channels，都会跑进一个共享的 TurnRunner。

这个设计挺关键的。

因为 Agent 一旦认真跑起来，入口会越来越多。

今天你在网页里聊。

明天你想用 CLI 自动化。

后天你又想接飞书、Telegram、Matrix、Teams。

如果每个入口各自维护一套逻辑，最后就会变成那种经典祖传系统：

表面上都是同一个 Agent，实际上每个入口都有自己的脾气。

OpenSquilla 的思路是，把入口都收回来，统一走一套模型循环。

这件事很工程。

也很不性感。

但我现在越来越觉得，真正能让 Agent 变得可靠的东西，往往就是这些不性感的东西。

它还接了很多模型提供商。

OpenRouter、OpenAI、Anthropic、Ollama、DeepSeek、Gemini、Qwen/DashScope 等等。

README 里说大概二十多个 provider。

这也对应它的另一个核心思路：

模型不应该是写死的。

未来的 Agent 不会只靠一个模型打天下。

有些任务适合便宜模型。

有些任务必须上强模型。

有些任务本地模型就够了。

有些任务要走某个特定 provider。

以前我们是人肉判断，复制 prompt，切平台，重新粘贴。

OpenSquilla 想把这件事放进系统里。

你可以把它理解成：

Agent 不只是一个会干活的人，它还带了一个调度员。

这个调度员不一定比模型更聪明，但它知道一件事：

别拿坦克去送外卖。

这就有点像公司里真正省钱的从来不是老板说一句「大家降本增效」。

而是有人把报销流程、采购流程、权限流程、排班流程，一点点理顺。

省下来的不是某一笔大钱。

是每一天都少漏一点。

每一次任务都少烧一点。

AI Agent 也一样。

今天很多 Agent 看起来很猛，但背后其实是把所有问题都丢给最贵的模型。

<4>

你让它查个小东西，它可能先想半天。

你让它调用工具，它串行等到天荒地老。

你让它接多渠道，它又开始复制一堆状态。

最后效果可能还行。

但账单很难看。

OpenSquilla 的0.1.0rc1是 2026 年 5 月 12 日发的，还是一个很早期的 release candidate。

它的 changelog 里有几个点，我觉得比宣传语更能说明问题。

比如 same-turn tool calls 可以安全并发。

比如有 gateway 队列深度、in-flight turns、取消数、队列满错误这些可观测指标。

比如给 channel adapter 加了 in-flight reply cap，避免单个渠道把全局并发吃光。

比如 cross-session fair queueing，让共享 agent_id 的 session 按完成次数轮转可用槽位。

这些东西看起来都很琐碎。

但你如果真的做过 Agent 服务，就会知道，这些才是把玩具变成服务的地方。

一个 Agent demo 可以不用管队列。

一个 Agent 产品不行。

一个 demo 可以不管某个渠道突然涌进来 100 条消息。

一个产品不行。

一个 demo 可以不管两个 gateway 抢同一个状态目录。

一个产品不行。

所以我看 OpenSquilla 的感觉是，它不是在追「Agent 能不能再炫一点」。

它在追：

Agent 能不能更像一个能长期运行的本地服务。

这也是它为什么强调 secure sandbox、persistent memory、built-in web search、local embeddings。

这些词单独拿出来都不新。

但组合在一起，指向的是一个很明确的方向：

Agent 不能只是会说话。

它得能记事，能查资料，能安全地干活，能在本地跑，能接不同渠道，还能让你知道它现在到底健康不健康。

说到这里，如果你想自己上手试一下，我建议先别急着 clone 源码。

OpenSquilla 官方现在给了三条路。

也就是去 GitHub Releases 页面下载预览包，解压到一个可写目录。

Windows 用户可以双击：

它会先带你完成 onboarding。

也就是选择模型 provider，填 API Key，然后再启动本地 gateway。

启动之后，浏览器打开这个地址：

这就是它的本地控制台。

注意，那个启动出来的终端窗口不要关。

关了，gateway 就停了。

这个适合 Mac、Linux，或者你本来就习惯在终端里折腾。

你需要先装 Git、Git LFS，还有 uv。

然后这么来：

装完之后，重新开一个终端，确认命令能找到：

第一次配置，直接跑：

如果你用 OpenRouter，可以这样：

然后启动：

等它显示 gateway 跑起来之后，打开：

如果你想改它的代码、跑测试、调 runtime，那就不要用全局安装的opensquilla命令。

而是用uv run跑源码环境：

这个模式适合贡献代码，不适合普通用户第一次体验。

一个很容易踩的坑

它的 SquillaRouter 模型资产放在 Git LFS 里，所以源码安装时一定要跑：

不然你本地拿到的可能只是 LFS 指针文件，不是真正的模型文件。

这个坑非常典型。

你以为你 clone 了完整仓库。

其实只 clone 到了一张「这里本来应该有东西」的小纸条。

另外，Windows 用户如果遇到onnxruntime或DLL load failed相关报错，官方文档里提到通常是缺 Visual C++ Redistributable。

临时想先跑起来，也可以在 onboarding 时关掉 router：

等运行库修好后，再把 router 切回 recommended。

下面这张表汇总了三种安装路径的适用人群、关键命令和访问入口，方便你快速对照：

⚠️提醒：源码安装用户务必执行git lfs pull --include="src/opensquilla/squilla_router/models/**"，否则路由器无法正常工作。

OpenSquilla 不是一个打开网页就能玩的玩具。

它更像一个本地 Agent 工作台。

你需要给它模型 key，需要启动 gateway，需要配置 router，需要理解一点点 provider 和本地服务。

但换来的东西是，你可以把 Web UI、CLI、聊天渠道、记忆、工具、搜索、沙盒和调度放到同一套运行时里。

这就不是「我打开了一个聊天窗口」。

而是：更像一个给开发者、自动化玩家、Agent 系统爱好者准备的底座。

我觉得这个定位反而真实。

现在开源 Agent 项目最大的问题，不是没人写 demo。

是 demo 太多，底座太少。

大家都在做「你看，它能自动帮我完成一个任务」。

但真正的问题是，如果我每天都让它帮我完成任务，它会不会越来越乱？

记忆会不会污染？

工具会不会失控？

成本会不会爆炸？

通道会不会互相抢资源？

同一套能力能不能从网页、命令行、聊天软件里都稳定调用？

OpenSquilla 试图回答的是这些更脏、更工程、更真实的问题。

它不一定已经完美回答了。

毕竟目前还是早期版本。

但这个方向我挺喜欢。

因为我越来越觉得，AI 行业接下来会有一个很明显的分叉。

一边是继续堆模型。

另一边是开始认真经营模型之外的系统。

前者决定上限。

后者决定你能不能把上限稳定地拿到手。

这就像是一个人很聪明，但如果他没有日程表，没有笔记本，没有工具箱，没有工作台，没有预算意识，他最后也会把自己搞得很狼狈。

Agent 也是一样。

模型是大脑。

但 Agent 真正能不能干活，还要看它有没有手，有没有记忆，有没有规矩，有没有调度，有没有边界。

OpenSquilla 这个项目给我的启发就在这里。

它不是在问，怎么让 AI 变得更像神。

它在问，怎么让 AI 更像一个能上班的人。

能接任务。

能查资料。

能调用工具。

能记住该记的东西。

能在安全边界里干活。

能省钱。

也能在出问题时留下痕迹。

这件事听起来没那么没有那么高大上。

但说真的，挺重要的。

因为等所有人都能买到强模型之后，差距就不会只在模型本身了。

差距会在谁能把模型用得更密。

更稳。

更省。

更像一个真正的系统。

OpenSquilla 现在还早。

但它戳中了一个很现实的问题。

AI Agent 的下一轮竞争，可能不是谁更会聊天。

而是谁更少浪费。

项目地址：

官网：https://opensquilla.ai/

GitHub：https://github.com/opensquilla/opensquilla

← 上一篇：联汇科技Homer AI亮相浙江残疾人运动会，打造视障人士AI视觉中枢下一篇：我校开展人工智能专题培训活动 →