人工智能时代的学术创作:一场现场实验交流
五月初九,一场以"人工智能与学术创作:现场实验交流"为主题的研讨会拉开帷幕。朱昊泽同学担任主讲,十六位同学积极参与其中。没有预设议程,无需提前准备,有人带来了待解决的文本资料,有人抱着好奇观望的态度,更多人只是带着日常使用中那些未曾言说的困惑。
当算法以月为单位不断迭代更新,"人工智能威胁论"与"技术狂热"构成了学术创作的两极焦虑。本次研讨会试图回归一个朴素的问题:人文学者并非技术的旁观者——我们构建的理论框架、撰写的每篇论文,本质上都在参与一种"开发"。在这次讨论中,我们不探讨数学原理与伦理困境,只像逛展览般聊聊怎么用、怎么想。最终,技术焦虑并未消散,但某种新的情绪——或许是松弛,或许是共谋的欢愉——在持续的对话中悄然显现。
人工智能与学术创作
朱昊泽 中国艺术研究院研究生院艺术学系2024级硕士研究生
一、当前的人工智能,大家都在怎么用怎么想
这次研讨与其说是交流,不如说很多时候是大家在一起抒发所感所想。
伦理、取代、未来发展等等一直是个沉重而深奥的话题,我觉得这些问题触及很多人类本质、终极哲思。我想象不到这些问题会有一个完美答案,然后人类向着这个目标,摸着石头蹚着河到达终点,所以这次就不深入探讨这些问题了,就简单分享分享我的感受和"胡思乱想"。
关于取代的焦虑、愤懑,其实我有的时候在想:我们是不是也取代了某些东西才成为现在的形态,比如化学家取代了炼金术士,学者们取代了传教士等等,这是开玩笑的不那么恰当的例子。不过我的感受就是技术被阶段性替换了,但是人还是被留在原地,改了传统变了形态换了名字以后,人就是会不知所措。我们人文艺术类学科,自身的"灵韵"aura还是相对充沛的,目前的现象更多的是作为技术初期的迷茫导致的。
不必人工智能羞耻,是我的第二个小想法。使用高效工具是人类的天性,使用人工智能不等于投机取巧,或者百分百扼杀自己的创造力。但我们对人工智能产生的各类现象(尤其指学术)还是感到混乱和不解的,这会不会反而说明,现在基于文献的学术体系可以更新了:我们现在的学术体系中有什么能化简的,有什么是不可替换的,又有什么只是因为西方学术体系的旧制度还没来得及改变而暂时显得必要了。
例如我最近觉得比较有意思的一个项目是GitHub上的Lacan- Chinese- Translation- Project,用人工智能切分了拉康27个研讨班的材料,然后以编程分支维护的方式进行翻译和比较交流,作为一种学习方式还是挺新颖的。不过学术的真实严谨性和知识产权等又该如何保证呢,所以学界现在仍处在一个和人工智能磨合的初级阶段。
以上,提出了几个幼稚不成熟的想法,就是想激发一下大家的兴趣,让这次研讨也多一些放松随性的氛围:不必和科技界较劲,也不去想人工智能革新派和传统保守派之间的拔河。
Day and Night by M.C.Escher, 1938
二、关于使用人工智能,我的内心活动
很感谢这次系里为我提供这次机会,能和同学老师们进行交流和学习。想和大家进行这次研讨,其实更多的是因为我自身的焦虑。每次和老师同学们谈到人工智能,我的心情总是有些矛盾。对于新技术与学术、艺术相交融,我"心向往之";但面对具体的研究和未来的发展,我又感到"如临深渊,如履薄冰":大语言模型可能只是人工智能的一种过渡形态,甚至都无法确定现在的智能研究是否走在一条正确的道路上。而学术研究也受此冲击,我也总怀疑我是否在以一种非常天真的角度看待人工智能和学术问题,割裂了技术的"名"与"实",和人工智能实际的作用与能力边界相比,人工智能的营销属性和作为一种新生异质力量的图腾属性被现在的观念放大太多倍了,这种膨胀的幻象影响着每一个使用者的决策,也让使用者面对现实和预期之间断裂的鸿沟时不知所措。
丢勒(Albrecht Dürer)铜版画《忧郁 I》(Melencolia I)
我在自己使用人工智能工具的过程中,心情也总是过山车一般起伏,一会儿觉得自己无所不能,果真天才;一会儿又发觉自己好像什么都做不好,那么无力而渺小。人工智能技术会放大使用者的自负,也会营造知识的幻象,尤其是我在使用人工智能时感到能如此清晰的触摸到客体小a的轮廓——一个无法企及的"完美"预想目标,越是使用越是意识到自身能力和人工智能能力边界的缺失。工具焦虑的种子也就此种下,不把每一个准备工作做好就没资格开展工作,这种强迫症会在我使用人工智能时让我强迫自己对新技术投入时间精力,打磨好技术工具再按最优路径前进,其实是本末倒置的。看的书太少而想的太多,难免让我浮躁,我也受大环境下技术乐观主义(科技总会带来美好生活)的影响不浅,觉得有了人工智能至少可以省时省力做到相对完美,但静下心来想,我们学科就是捕捉了直觉又加入了反思才诞生的。和同学们的交流中我总能学习到技术触及不到的反面,雍老师也鼓励我说如果人工智能分析的艺术理论头头是道你还会有兴趣去学习吗,游泳不一定要学习所有的知识才能游泳,只管先下水就好。
作者在分享平时的使用经验
研讨会最后不巧惠新晚上停电,大家在昏暗教室里依然有说有笑交流学习,让我感到安心。不过现场演示的实验和处理自己文本的环节就得移至线上了,线上可能也更方便电脑上的操作。这次的研讨会主题在发起时我就写下了"什么都不解决,只是希望大家在使用、思考甚至是玩新技术时多一种新的情绪和感觉(除了焦虑以外)"。我希望此次研讨达到了这个小目标,我也在之后活用人工智能工具的同时,多给自己一些丢掉人工智能脚手架的机会自己钻研文本,希望在这个混沌的技术初级阶段,争取成为一个乐观的技术悲观主义者。
【德】格哈德利希特 绘
三、浅述原理
如果不开发、不编程而是在其他领域使用,是不用对技术原理有太多研究的,对人工智能用到刚刚好顺手就可以了。而人类对人工智能实际的把握也不是百分之百,很多工作过程处于一个黑箱,我对人工智能的理解也处于一个模糊的阶段。但我在实际使用过程中有感:其实现在技术迭代太快,没学到反而是赚到,为自己在其他领域节省了很大的时间精力。至于数学原理、取代与否、伦理问题、哲思等等都和具体的使用方法其实关系不大。
从提示词工程Prompt Engineering 到 Agent、Skill等等,我认为本质都是 提示词prompt 和 函数调用function calling 的不同组织形式。提示词prompt 负责让模型理解"我要你怎么想、怎么说";函数调用function calling 负责让模型在需要时调用外部工具、资料库、程序或系统动作。
算法模型是人类思维某种程度上的缩影:
1.预测下一词,同时也学习语言(语法)
2.语言类似于真实世界投影,所以可以理解世界(所以也都在推崇世界模型)
3.模型在压缩语言的过程中,能捕获其中规律进行学习
区别语义Semantics和语法Syntax(语言学中叫句法学)是理解大语言模型LLM的关键:LLM只通过运算处理语法,实则不理解语义(无法感受外部世界真实经验),所以只能人类看到语法结果后再自己处理为语义。(但不绝对,无法验证或预测 LLM 是不是永远不懂语义)
3.1 人工智能原理解释
大语言模型LLM:
将输入的每个字词转换为 词元token,并放入语义空间转化为一种坐标,进行计算。
语义距离:意思离得远的则距离越远,所以需要大量人类的真实价值观数据做训练。因为很难决定每个坐标间的距离(例如"你好"中"你"和"好"之间距离多远),所以需要将离散的数据转换为高维空间的连续坐标(这个过程就是embedding),也就是一种向量。而这种向量可以粗略地举个例子:"国王"在空间的一个向量上减去"男性"加入"女性",计算出的范围与"皇后"、"女王"等的范围空间类似。
由GPT-Image-2生成
Transformer:
Transformer 是现代大语言模型的核心架构,有翻译为变压器也有翻译为"变形金刚"(因为其中一个作者真的喜欢变形金刚才采用Transformer这个名称),不多赘述,后文都统称transformer。它的关键突破是:不再像早期模型那样主要沿着线性顺序一步步读句子,而是让模型同时考察句子中各个 token 之间的关系,即这个词在整体语境中和哪些词发生联系。
举个例子,让人工智能"写一首关于春天的绝句",LLM给出了答案:春色满园花满枝,轻风拂面入诗来。
"春"这个字的意义不只是由后面的"色"决定,也会被"满园""花""轻风""诗"共同塑造。Transformer 的底层思路,就是让这些位置之间可以发生关系,而不是只能一步步线性传递。
由GPT-Image-2生成
Attention 是 Transformer 的核心机制:
Attention 是模型判断"当前 token 应该重点参考哪些其他 token"的机制。
它不是普通意义上的"注意力",而是一个相关性分配机制。例如你问人工智能:
分析"作者性"在人工智能艺术中的变化。
模型需要判断哪些词更重要(重要程度由高到低):
"作者性"、"人工智能艺术"、"变化"、"分析"。
在生成回答时,它会不断判断当前输出应当参考哪些输入信息、上下文信息、已生成内容。某些关系权重高,某些关系权重低。
3.2 一些其他概念
我认为之后的人工智能运用都会从chatbot逐步转到Agent,而我后续想跟大家分享的也多是基于Agent使用的工作流。
智能体Agent 可以理解为:一个能根据目标进行多步规划、调用工具、观察结果、修正行动,并持续推进任务的人工智能系统。普通聊天是:你问一句,人工智能答一句。
技能Skill 可以理解为:一套被预先写好的操作说明、流程规范或专门能力包,让人人工智能在特定任务上表现得更稳定。
3.3人文学科与人工智能原理
人文社科艺术从业者和研究者的任务从来就不只是寻回人文关怀,因为人文学科的知识体系(如语言学)构成了技术研发的底层逻辑与语料基础,我们人文学术写作其实也参与了人工智能的一种开发与维护。大模型训练时免费采用了人文学界的文本作为语料和训练集(所以版权也是饱受争议的话题)。而现在学界也对人工智能写作与评审抱有复杂的态度,也会反过来影响了技术被怎样理解和使用。
写作者使用人工智能写作,评阅者使用人工智能评审,再用人工智能提出意见返回让人工智能修改,最后再让人工智能自己降人工智能率,完成了一个闭环。不过现在人工智能做不到完全自动化,还是需要人类在其中作为主体参与。
因为人工智能训练就是一种蒸馏世界,人工智能在学习人工智能自己生成的语料时会发生劣化,需要我们持续产生新语料,即模型坍缩(Model Collapse):人工智能学习自己输出的内容,导致风格分布消失。无论是人类还是人工智能总归还是需要人类自主生产的语料的,人文社科的文艺工作者,肩上可能已经担负着比想象中更大的责任了。
【英】布里奇特·赖利 绘
四、我自己使用方法
我很难想象存在一个真正正确完美的用法,所以对于技术只能不断试错,这里只分享我一些踩过的坑和我认为得心应手的部分。
我一直觉得模块化自己的思维或者数据化自己的知觉,对于人文的学习者来说是一件凶险的事。所以最重要的就是:不要在 prompt 调试上浪费时间,把精力留给真正的学术。
作者在分享使用人工智能的一些好习惯
4.1 提示词撰写
提示词撰写没有固定模板,也无法寻找某种万能咒语自动搞学术。提示词是把模糊的表达细分。拆成概念、指称、语境、隐含前提、解释边界和使用目的等等。很多时候,人工智能 输出不稳定,不是因为模型不够聪明,而是因为我们本身输入的语义本身不稳定。
比如"帮我分析这篇文章的美学意义"至少包含几个模糊点:分析是概括、批评、阐释还是理论化;文章是作为文本、学术史事件还是论证结构;美学意义是形式美学、艺术理论、感知经验还是制度层面的审美生产;帮我是要笔记、论文段落、框架还是批判性意见。提示词真正要处理的,就是这些模糊点。
所以更有用的不是"写得学术一点",而是把学术一点拆开:概念是否更精确,逻辑是否更严密,语气是否更克制,术语密度是否更高,目标读者是谁,输出是段落、提纲还是完整文章。
一些简单的语义学知识对人工智能使用最直接的帮助有三类:
指称:这个词到底指向什么。比如"现代性"是历史阶段、社会结构、审美经验、哲学概念,还是作者自己的术语。
预设:问题里偷偷带入了什么前提。比如"人工智能是否会取代艺术家"已经预设了艺术家的功能可以被取代、人工智能和艺术家处在同一竞争层级、艺术价值可以用产出效率比较。
语境:同一句话在不同语境中意义不同。比如"图像不再属于作者",放在版权法、艺术理论、传播学、技术链条、平台经济里,讨论方向完全不同。
这意味着,要使用人工智能参与概念界定、论证组织、文献解释等复杂学术任务,都高度依赖提示词语义精度。
我在跟老师同学们的讨论中,认为可以固定保持一个好习惯,即"提问式提示词":复杂任务里,最好先要求人工智能不要急着输出。而是在任务模糊、复杂,或者明确需要先讨论时,先进入需求校准阶段。下面是我自己在用的前置指令Instructions:
"当任务模糊、复杂,或我明确提出需要先讨论时,先进入需求校准阶段,不要立刻给方案、结论或成品。只要仍有关键缺口,就继续追问。
追问采用轮次式:先整合当前轮浮现出的关键问题,高度耦合的合并成一个问题,再分条列出让我逐条回答,然后根据回答进入下一轮评估。你可以直接指出我回答中的假设冲突、逻辑漏洞、信息缺口、边界遗漏和潜在风险,不必只会提问,但这些指出应服务于澄清,不要影响你后续独立判断。
在最低限度关键缺口补齐前,禁止进入正式方案设计或实质性输出。只有当任务目标、背景、关键边界和主要假设已足够清晰,且没有更高优先级的问题必须继续追问时,才停止追问。进入执行前,先用一两句话复述已确认的核心需求,再正式执行。
对于清晰且低歧义的任务,可以直接执行。执行时不必额外给计划,除非我明确要求。语言保持中立、简洁、直接,避免不必要修辞。"
其实总结下来就是在利用人工智能输出时,要先和它多进行讨论,一来让人工智能更清楚需要做什么,二来就是让自己更明确自己真正的需求是什么。
4.2 两种思维方式 agency / taste
使用人工智能不是只让它生成文本,排除人类的机器全自动化学术不存在。
所以我把作为使用者、把关人最核心的能力总结出以下这两种:
主观能动性agency:一种组织任务路径的能力,更是一种叙事能力,建立自己的一套叙事,有自己的主观意见 / 直觉 / 态度 / 立场,能不被人工智能完全左右。
判断力taste:人工智能不会完全可靠,对生成出的每一个点保持判断 / 审核 / 品味的态度。在人工智能面前你就是评委导师,挑越多的问题出来越好。
人工智能生成的东西有以下特点:整体圆滑,但细节全是问题瑕疵。所以它仅作为一种未加工的生鲜材料,有些逻辑推理 / 对象分析 / 埋下预设 / 态度表达只能我们自己来写。人工智能像写教材,全是定型,我们自己要补齐推理,尤其是推理时的斟酌和遇到阻力时的情绪,最好给输出的每一条都注释上自己的意见。
人工智能谄媚是无可避免的,因为大模型就是对齐人类价值观训练的,它一定会顺着你的话说,它诞生的意义就是在一个范围内最大程度应付你的问题。所以谄媚是知识传递中的必然阻力,人类自己也会不可避免的谄媚。因此叙事能力和品味的能力不要外包和放弃,抵抗谄媚和幻觉只能靠自己来对抗思维的惰性。
4.3 人工智能味
LLM只输出语法,根据规律推断概率,实际上不理解语义。所以会产生幻觉(而且幻觉有很多方面的成因),也会产生人工智能味。下面是产生人工智能味的两个具体原因:
RLHF:Reinforcement Learning from Human Feedback,基于人类反馈的强化学习。通过收集人类偏好数据,使其更加符合人类价值观。
RLVR:Reinforcement Learning with Verifiable Rewards,可验证的奖励强化学习。模型进行作答,系统验证对不对,奖励正确答案,导致 LLM 趋同化"背答案"。
所以人工智能味的表现其实也是得分最高、效率最高、最能假装体现思考的形式。人工智能味的几个例子:首先其次、不是而是、过度圆滑、强行总结、段尾宣判等等。从本质上讲这样的语法逻辑圆滑安全,但缺乏实质的思考或者情绪,总给人一种作者不在场的感觉。
去人工智能味理论上可以靠人工智能处理,但实践下来,还是人为删除、修改、复述更加可靠。
4.4 我自己的工作流
为什么一口气生成效果差(因为黑箱,输出过程不可控),所以我会尽可能拆解,多添加我能参与互动的环节。
我目前的工作流写成了两个Skill:Academic Partner 和 Research Desk。能在调用中尽可能多地加入我自己主导的部分:
1.Prepare:调研、搜集各类材料和文献。输出初步报告
2.Reading:针对性拆解、细读。输出可用材料和想法条目
3.Brainstorm:问题意识、不同人格和角度头脑风暴,收束题目。输出摘要与写作路径清单
4.Writing:根据清单进行块状写作(每次只输出一小段文字)。输出大部分未加工内容
5.Review:自己修改后的成品 / 定稿再输入。输出评审意见和修改路径
其中1、3、5封装为Research Desk:做前端研究和评审。/prepare 用来从主题、关键词、摘要或本地材料推进到初步报告、综述判断和研究问题;/brainstorm 用来把 idea、摘要、提纲或小稿收束成研究包;/review 只对成稿给评审意见和修改路径。
2、4封装为Academic Partner:做阅读、写作和改稿。阅读时拆概念、论证、证据和 insight;写作时根据已有写作任务单生成骨架、段落任务或局部文本;改稿时压空话、修结构和人工智能味,但不编造引用,不替我直接定稿。
(实践步骤完成后我上传)
4.5 人文学术写作和 coding 的异同点
我目前个人感觉网络上绝大部分关于人工智能的使用和思考还是针对编程等信息运算处理的学科的,而我们学术写作类学科很难像其他学科一样复刻一种百分百适合的使用方法,人工智能的辅助对于我们学科实则非常有限(远不比编程、医学、法律更与人工智能契合)。往好了想其实我们学科就不必比其他学科更加担心冲击和取代问题。
我认为人文写作和coding(包括编程、产品制作、项目工程等)的异同点:
最大相同点是都在处理"结构化表达",二者都不是线性完成的,而是循环式推进,但这个说法也是我在经受过长时间需要模块化自己思维这一过程后(例如学习编程)得出的,其实也不对,后文会提到同学对我这个观点的反驳。
最大差异点是coding面对的是相对确定的系统和唯一确定的结果。而人文学术写作面对的是解释性文本,我们不追求唯一正确答案或者说一个形而上的真理,我们追求的是有证据、有温度、有生命力的"我思故我在"。
乔治·德·拉·图尔(Georges de La Tour)《油灯前的抹大拉的玛利亚》(Magdalene with the Smoking Flame)
五、讨论环节
Q1:如果人工智能必须参与生产,哪一个功能最该普及?如果只能保留一个你会选哪个?
A:我认为搜集信息是值得普及的,它的效率确实比搜索引擎还要高很多很多,但要我保留还是会保留chat功能,毕竟人工智能涌现出的智能是革命性的,我还是会和它聊我的想法可以怎么外延或深化,我有哪些盲区等等。
Q2:面对恰到好处的谄媚,比如我手头的文章有哪些哪些点符合《十月》等顶级刊物的标准了,怎么解决呢?
A:可能它所有的输出都是谄媚,但可以判断它哪些话有价值,比如和人工智能达成共识写得好的可以保留,至于剩下的可以让它从反面辩驳,比如这篇文章不能中刊会有哪些原因,再进行修改。
Q3:关于和其他学科学术上的相同点,我认为结构化表达其实不完全是我们学科的全部写作方法,发源于内心的思考以及在写作中积累的经验是不能够被结构限制的。
A:我也觉得结构化表达有些欠考虑,我们人文艺术类的学术写作和其他学科的共同点可能比我想象中的还要难捕捉或者是用言语简单表达。我的基础本身就有所欠缺,我也想在更多的阅读和写作中矫正一下模块化思维对我造成影响,在学习过程中再比对我们学科的独特性、本真性和灵韵吧。
(部分)同学们的讨论与经验分享
伦勃朗(Rembrandt van Rijn)《哲学家冥想》(Philosopher in Meditation,1632)