今天用AI发现的三个惊喜
今天在开车下班途中。
广东这边的龙舟雨,从大概四五天前就开始下,一直是大雨、暴雨这种,预报说还有十多天。今天下班的时候还好,没怎么下雨,也是阴天。
本来想着到家了再写这个公众号,但心里憋不住,刚好有想法,就直接用得到大脑一路语音过来了。
然后我今天有三个特别惊喜的发现。
第一个是语音合成接入。
因为我之前一直订阅的是 MiniMax 的 token plan 套餐,49 块钱一个月。这个套餐其实包含了独立的生图、音频额度,但它不包含视频生成,视频要下一级的套餐才有。这个套餐的细节我是最近才 review 清楚的。
我之前就知道 MiniMax 是多模态大模型,比如 M3,可以看图、看视频,处理各种类型的内容。但我自己接入过好多个 agent——hermes agent、OpenClaw、IMA copilot 等等——一直用的都是它的文字生成能力。生图和音频,那是一直没真的用过。
今天 review 完订阅内容之后,我就在想,是不是该把这块接入试一下。
然后呢,昨天我让 IMA 里面的 copilot 把图像模型接入了。今天就想着,那音频是不是也可以试一下?然后我就直接给它指令,让它开干。
结果它干得还挺顺的。它告诉我,MiniMax 的 speech-2.8-hd 音频模型,支持 7 种不同的情绪,4 种不同的音色,而且生成了不同音色的 demo 让我听。
真的,听到那个 demo 的时候,感觉特别惊艳。
因为它不是那种千篇一律的、大家都能听到的 demo。它是结合它对我的了解,结合我当下问它的内容,给我生成的一个针对性 demo。你想想看,一个 AI,知道你在做什么、在想什么,然后给你生成了一段语音,那种感觉很微妙。
怎么说呢,那种感觉就像第一次接触 QQ,你跟一个陌生人可以聊上几个小时。又像第一次接触生成式大模型,你跟它聊到一两点钟,都不想睡觉。这次接入语音合成给我的是同样的感觉。
第二个是路上听 20 分钟音频。
然后在快下班时,我就跟它说,我现在要下班了,能不能在路上生成一个 20 分钟以内的音频给我听。正好我看到有一本书叫《贪婪的多巴胺》,想着让它帮我拆解一下,路上听刚好。
然后它就开始吭哧吭哧干起来了。本来它想自己找这本书的原版内容,后来想了一下,时间太紧,就去找别人拆解的书评——它找到了英文版的,又找了几个中文版的书评。
AI 干活儿的方式你看着还是挺有意思的。它自己估算,20 分钟的音频大概需要 6000 多汉字。一开始它生成的内容不够,又加了一段,最终凑到了接近 5000 多字,然后开始语音合成。
它中间还告诉我,speech-2.8-hd 单次合成的文本不能超过 1 万字,超过了就要分多次。好在它这次内容没超 1 万字,就一次成功了。整个过程几分钟就搞定了。
然后我就在路上听了两遍,再来写这篇文章。当然开车不能看屏幕、不能打字,所以是用得到大脑的录音功能先录下来,再回头整理。
然后还有一件事,是我之前误解了 IMA,要给它加个鸡腿。
我一开始以为,语音合成生成的音频需要下载下来,然后通过其他播放器播放。结果我发现在 IMA copilot 里面,生成的音频文件直接点击就可以在内部播放器里听,根本不用下载。这一点要给腾讯的 IMA 打 call。
我之前对 IMA 是有点误解的,觉得它就是个聊天工具,能做的事情不多。但用了这么久之后,它目前已经成为我的主力 AI 工具之一了。大厂就是大厂,腾讯在 AI 应用层面,做得还是很扎实的。
第三个是上下文截断的修复。
我之前用 IMA 接入 MiniMax 的时候,因为当时 MiniMax 还没在 copilot 的官方支持列表里,所以我用的是自定义配置。自定义配置呢,要填 base url、API key、模型名字,还要填输入和输出的上下文大小。我当时填的是 64K 输入、8K 输出。
我今天一看,64K 也就 6 万多字。MiniMax M3 实际上支持的是 1M 上下文啊。差了 10 倍多。
然后我就想起来,前两天我跟 copilot 聊长任务的时候,有两三次它中间会丢失掉一部分记忆。我当时还让它去 memory recall 里找,给它更多上下文,它再去找,找回来了。
今天我才反应过来——那几次所谓"丢记忆",其实根本不是真的丢,是上下文达到 64K 上限之后被自动截掉了。那些早期对话被压在窗口之外了,AI 当然看不到。
然后我今天去 IMA 配置那里看,发现 MiniMax 已经在下拉列表里了。不用自定义,直接选 MiniMax、填 API key,下面就自动列出所有 MiniMax 的模型,包括 M3、M2.7 这些。选了 M3 之后,它自动用的是 1M 上下文配置。不用我手动填了。
这是一个很小的问题,但是非常影响体验。你会以为这个 AI 不行、容易失忆,其实是配置填错了。这个错误要不是我今天碰巧发现了,估计还得带着这个错误用好长时间。
OK,那说完了今天的三个惊喜发现。我想顺着这个话题,再聊一聊 AI 时代到底什么才是真正的竞争力。
AI 能帮你做的事情越来越多,而且越来越唾手可得。你可以让它写文章、生成图片、生成语音、拆解一本书、帮你做 Excel、分析待产清单、提醒你健康问题、提醒你早报……这些以前需要专业技能的事情,现在都是一个 prompt 的事。
但反过来想,真正稀缺的是什么呢?是你的想法、你的思维、你的创造力。AI 可以生成内容,但它不知道你想要表达什么。AI 可以生成语音,但它不知道你想让谁听、听什么、为什么听。AI 可以帮你做事,但它不知道你的人生目标是什么。
所以我觉得,AI 时代真正的护城河是:你是不是知道自己要什么。你有了清晰的目标、清晰的场景,AI 才能变成你能力的延伸;你要是没有目标,AI 给你的内容你也不知道该用来干嘛。
我看到一个观点挺对的:普通人用 AI 的关键,不在于 AI 多厉害,而在于你有没有一个生产环境能用到它。如果你只是听说 AI 很牛,浅尝辄止用一下,那基本上不会有持续的动力去研究它。但如果你有一个具体的工作场景,比如你的工作、你的副业、你的某个项目,那 AI 对你来说就是一个有实际价值的东西,你就会有动力去深入用。
我自己也是这么走过来的。一开始用 AI 不知道该用啥,后来我就从每天的英语学习、每天的早报这些小工作开始,让 AI 帮我做。在这个过程中,我逐步建立了自己的使用流程,然后慢慢发现更多的场景:让它每天生产一课英语,让它做 IT 排障文档、让它生成图片、让它生成语音、让它拆解一本书……
包括今天让 AI 把《贪婪的多巴胺》拆解成 20 分钟音频在路上听,这种场景也是在使用中才会被激发出来的。如果你不用 AI、不折腾 AI,这种场景你自己是想不到的。
然后说到 AI 行业的进展,今天看新闻说 ChatGPT 5.6 在 20 多号要发布了,这次上下文长度达到了 1.5M。1.5M 是什么概念呢?大概是 M3 的 1.5 倍,是 64K 的 25 倍左右。AI 迭代 AI,各行各业的进化速度只会越来越快。
我在抖音上还刷到一个 AI 歌手,人物、MV、音乐、嘴型全部都是 AI 生成的。而且做得很棒——人物的一致性、MV 里的场景,都没有任何违和感,物理逻辑也都对。但很多画面现实是拍不出来的,那是 AI 创作出来的。AI 时代真的只有想不到,没有做不到。
马斯克说以后都是机器人和 AI 在创造生产力,真的到了那个时候,可能就是按需分配了。人类可以专心做自己喜欢做的事情,其他的东西 AI 都帮你搞定。那真是一个乌托邦。
不过反过来想,要享受这些 AI 时代带来的好处,前提是要有一个健康的身体。
我之前对自己说过——身体健康是所有东西的第一位。我要求自己 11:30 之前必须睡觉,不管工作上有什么事情、其他有什么事情,都不能为了任何东西损害身体。
但我自己也没做到。昨天我又跟 AI 聊到了 11:30 之后。这个其实是很难的事情——有意识是第一步,能不能控制自己遵守自己的想法和规则,这是很考验定力的事情。
OK,又超过11:30了,不好意思,今天就先写到这里吧。
PS:如果你想近距离围观我,欢迎来和我做朋友。