标签

零元打造 AI 视频流:Agnes AI 联手 ArcReel 实战指南

发布时间:2026-06-06 14:40来源:微信阅读:2

近期我在琢磨一个问题:能否完全不掏腰包,将纯文本转化为高质量的短视频?

经过一番摸索,竟然真的被我组合成功了。核心组件仅需三个——Agnes AI 提供无偿 API,O4OpenAI 负责协议转译,ArcReel 充当创作中枢。三者串联,实现了从剧本构思到视频成品的全自动闭环。

接下来分享我的搭建过程,以及途中遇到的那些波折。

Agnes AI(agnes-ai.com)是由 Sapiens AI 推出的 AI 网关平台,通俗来讲,就是免费发放 API Key 供你调用其模型。没错,完全免费。

其旗下涵盖三条产品线:

注册即送额度,日常体验根本用不尽。然而,其 API 格式与 OpenAI 并非完全一致,部分环节自有规范,这也为后续埋下隐患——ArcReel 默认无法识别其接口。

但无需担忧,O4OpenAI 正是为解决此问题而生。

ArcReel 是我在 GitHub 上发掘的一个开源项目,拥有 2.5k 星标,专攻一事:将小说改编为短视频。

听似玄妙,但它确实打通了全流程:

整个流程由 AI Agent 驱动,基于 Claude Agent SDK,构建了编排 Skill 与聚焦 Subagent 的多智能体架构。直白地说:一个主 Agent 负责统筹调度,众多子 Agent 分工协作,完成后统一汇报。

它支持的供应商众多:Gemini、火山方舟、Grok、OpenAI、Vidu,并支持添加自定义供应商。其中“自定义供应商”至关重要——这是接入 Agnes AI 的关键所在。

O4OpenAI 充当全链路的中间件,任务简明:将 Agnes AI 的 API 转译为 OpenAI 兼容格式。

为何需要转译?因为 ArcReel 的自定义供应商遵循 OpenAI 兼容协议,而 Agnes AI 的接口虽相似,但在字段和路径上存在差异。直接对接,无法连通。

O4OpenAI 对外同时提供两套接口:

内部调用 Agnes AI 的 API,外部则向客户端呈现标准的 OpenAI 体验。核心特性如下:

简言之,ArcReel 自以为在调用 OpenAI,实则幕后由 Agnes AI 执行任务。

绘制一张简易架构图便一目了然:

打个比方:Agnes AI 好比发电厂,O4OpenAI 则是变压器,ArcReel 相当于你家中的电器。电厂输出的电力无法直接插入电器,必须经过变压处理。

第一步:获取 Agnes AI 的密钥

前往 agnes-ai.com 注册,进入控制台生成 API Key。全程免费,无需绑定银行卡。

第二步:部署 O4OpenAI

启动后,O4OpenAI 将在本地监听 http://localhost:1241,对外暴露标准 OpenAI 接口。

验证连通性:

若能返回模型列表,即代表一切正常。

第三步:部署 ArcReel

访问 http://localhost:1241(注意 ArcReel 默认端口也是 1241,需调整以防冲突),使用默认账号 admin 登录。

第四步:在 ArcReel 中配置自定义供应商

进入 ArcReel 设置页面,添加自定义供应商:

ArcReel 会自动调用/v1/models 探测可用模型,并依据名称推断是图像模型还是视频模型。

第五步:开始制作

创建新项目,投入一段小说文本,选择刚才配置的自定义供应商,其余工作交由 Agent 自动运行。它将自动完成:角色提取 → 剧本生成 → 角色设计图 → 分镜图 → 视频片段 → 最终合成。

关于 Agnes AI 的图像品质:agnes-image-2.1-flash 出图迅捷,质量中上乘。针对角色设计图等需保持一致性的场景,建议多次生成并挑选最稳定的一张。其图生图能力出色,修改背景、切换风格等操作相当稳健。

关于视频生成:agnes-video-v2.0 采用异步模式,提交任务后需轮询状态。O4OpenAI 已封装好/v1/videos/:id 查询状态及/v1/videos/:id/content 下载功能,ArcReel 端会自动处理,无需人工轮询。

关于一致性:ArcReel 的角色设计图机制确能保障跨镜头的角色一致性,这是其优于手动逐张生图之处。线索追踪功能也能确保道具与场景在多个镜头间保持连贯。

关于成本:Agnes AI 的免费额度足以满足日常娱乐,O4OpenAI 与 ArcReel 均为开源免费,唯一成本仅是运行服务的服务器。若采用 Docker 部署,一台普通云服务器即可胜任。

这三个项目均处于活跃维护状态,遇阻可前往各自社区咨询。ArcReel 设有飞书交流群,O4OpenAI 的 Issue 响应也十分迅速。

搭建这套系统前后耗时约两小时,大部分时间耗费在调整配置上。跑通之后,投入一篇千字小说,等待十余分钟即可产出视频,虽距专业级尚有差距,但作为零成本方案,表现已相当强劲。

感兴趣的朋友不妨一试,若有疑问欢迎评论区交流。