AI生成数学动画视频，挑战传统教学？

发布时间：2026-05-30 10:36阅读：14

我仅耗时不到两小时，就利用AI自动制作了一支关于中考数学题目的讲解短片。

题目内容：

AI生成的演示视频：

我总结出四个典型场景：

学生：面对几何动点、函数图像的动态变化，仅靠想象难以理解，如果能配合动画演示就更好了。

家长：想帮忙辅导功课，却苦于自身知识匮乏。虽然听说有AI讲题工具，却苦于不知如何上手。

老师：备课期间想制作动画来辅助教学，但缺乏技能，只能在黑板上笨拙地手绘。

科普博主：渴望创作3Blue1Brown风格的数学视频，但Manim引擎的学习门槛过高。

核心痛点一致：都希望用动画呈现数学，却受限于技术门槛。

为了打破这一僵局，我开发了一款名为「auto-lecture」的工具，旨在实现AI自动生成数学题讲解视频。

只需输入数学题目，系统便能自动产出讲解视频。除了讲题，它甚至能充当你的私人教师。

待功能完善后，我计划开源此项目，让更多人受益于AI技术带来的教育革新。

若有任何建议，欢迎随时私信交流。

我打算建立AI社群，目前规划是举办Webinar，分享AI制作的「有趣/实用」内容。

从2026年5月起，社群将改为收费制，入群费99元。群内将提供AI资料、变现教程及答疑服务。

我的研究方向：

整个流程主要包含以下几个步骤：

用户输入的题目格式多样，包括图片、Word、PDF或PPT文档。

这一步是将上述格式统一转换为AI可识别的Markdown格式。

市面上虽有许多转Markdown的工具，但我强烈推荐MinerU，它解析精准，图片和表格处理得当，且每日免费额度充足。

（非商业推广，纯粹好用）

此步骤调用多个大模型解题，由主Agent担任裁判，综合各模型答案生成详尽解答。

实际操作中，

接着根据题目、解答及用户指令（如年级限制、特定知识点要求）规划脚本，详细描述画面内容与逐字稿。

文本转语音（TTS）技术已十分成熟。

利用TTS工具生成音频，并记录JSON格式的SentenceBoundary（每句起止时间）。

TTS具体实现细节：

调用3b1b的Manim引擎生成动画，AI依据TTS的时间轴JSON规划动画时间与效果，力求画面与语音同步。

由于Manim依赖代码生成动画，实测发现国内模型在此类任务上表现逊色于国外模型：

因此，若预算允许，建议使用Claude或GPT编写动画代码，其他环节则无需过分在意。

此外，尽管基于时间轴规划，实际中仍可能出现动画先于音频结束的情况（反之则很少见）。

为对齐时长，可冻结动画帧（避开Manim的淡出效果）直至音频结束。

但这种方式易让画面停滞，观众易误以为卡顿，且缺乏动态感，体验不佳。

为解决此问题，可采取几种手段让画面保持动态与“呼吸感”：

最后使用FFmpeg将动画与音频合成最终视频。

尽管使用了skillmanim-best-practice优化代码规范，但模型的空间想象力限制仍导致生成的动画布局不够美观。

推测是因为公开的Manim代码量远少于前端代码，导致模型学习不足。

我想到的方案是造数据：截取动画帧并让视觉模型评估，提炼编码规律。但这方案成本太高，难以实施。

前文提到优先使用国外模型编写动画，但Manim代码通常较长，消耗大量Token。

演示视频制作耗时不到2小时、时长不足2分50秒，就花费约15美元（超100元人民币），仅针对一道题。（AI生成视频应按分钟计费，目前约35元/分钟）。

按时薪50元计算，日薪400元，月薪约8700元（21.75天）。这已超过许多人的日薪，绝非玩具，实为专业动画师！