AI生成数学动画视频,挑战传统教学?
我仅耗时不到两小时,就利用AI自动制作了一支关于中考数学题目的讲解短片。
题目内容:
AI生成的演示视频:
我总结出四个典型场景:
学生:面对几何动点、函数图像的动态变化,仅靠想象难以理解,如果能配合动画演示就更好了。
家长:想帮忙辅导功课,却苦于自身知识匮乏。虽然听说有AI讲题工具,却苦于不知如何上手。
老师:备课期间想制作动画来辅助教学,但缺乏技能,只能在黑板上笨拙地手绘。
科普博主:渴望创作3Blue1Brown风格的数学视频,但Manim引擎的学习门槛过高。
核心痛点一致:都希望用动画呈现数学,却受限于技术门槛。
为了打破这一僵局,我开发了一款名为「auto-lecture」的工具,旨在实现AI自动生成数学题讲解视频。
只需输入数学题目,系统便能自动产出讲解视频。除了讲题,它甚至能充当你的私人教师。
待功能完善后,我计划开源此项目,让更多人受益于AI技术带来的教育革新。
若有任何建议,欢迎随时私信交流。
我打算建立AI社群,目前规划是举办Webinar,分享AI制作的「有趣/实用」内容。
从2026年5月起,社群将改为收费制,入群费99元。群内将提供AI资料、变现教程及答疑服务。
我的研究方向:
整个流程主要包含以下几个步骤:
用户输入的题目格式多样,包括图片、Word、PDF或PPT文档。
这一步是将上述格式统一转换为AI可识别的Markdown格式。
市面上虽有许多转Markdown的工具,但我强烈推荐MinerU,它解析精准,图片和表格处理得当,且每日免费额度充足。
(非商业推广,纯粹好用)
此步骤调用多个大模型解题,由主Agent担任裁判,综合各模型答案生成详尽解答。
实际操作中,
接着根据题目、解答及用户指令(如年级限制、特定知识点要求)规划脚本,详细描述画面内容与逐字稿。
文本转语音(TTS)技术已十分成熟。
利用TTS工具生成音频,并记录JSON格式的SentenceBoundary(每句起止时间)。
TTS具体实现细节:
调用3b1b的Manim引擎生成动画,AI依据TTS的时间轴JSON规划动画时间与效果,力求画面与语音同步。
由于Manim依赖代码生成动画,实测发现国内模型在此类任务上表现逊色于国外模型:
因此,若预算允许,建议使用Claude或GPT编写动画代码,其他环节则无需过分在意。
此外,尽管基于时间轴规划,实际中仍可能出现动画先于音频结束的情况(反之则很少见)。
为对齐时长,可冻结动画帧(避开Manim的淡出效果)直至音频结束。
但这种方式易让画面停滞,观众易误以为卡顿,且缺乏动态感,体验不佳。
为解决此问题,可采取几种手段让画面保持动态与“呼吸感”:
最后使用FFmpeg将动画与音频合成最终视频。
尽管使用了skillmanim-best-practice优化代码规范,但模型的空间想象力限制仍导致生成的动画布局不够美观。
推测是因为公开的Manim代码量远少于前端代码,导致模型学习不足。
我想到的方案是造数据:截取动画帧并让视觉模型评估,提炼编码规律。但这方案成本太高,难以实施。
前文提到优先使用国外模型编写动画,但Manim代码通常较长,消耗大量Token。
演示视频制作耗时不到2小时、时长不足2分50秒,就花费约15美元(超100元人民币),仅针对一道题。(AI生成视频应按分钟计费,目前约35元/分钟)。
按时薪50元计算,日薪400元,月薪约8700元(21.75天)。这已超过许多人的日薪,绝非玩具,实为专业动画师!