生成式AI技术解析
请关注公众号, 点击上边蓝字——皮皮蝦。
生成式人工智能模型导论
(所有发表于本公众号的刘以栋的文章均经作者授权)
人工智能会像互联网一样越来越普及。抵抗和逃避是无效的。正确的态度是接受和使用人工智能的功能。 这里编译一篇人工智能基础概念文章供大家参考。后续会有更多的人工智能文章跟大家见面。 生成式人工智能(Generative AI,GenAI)是近年来人工智能领域最重要的发展之一。它指的是一类能够根据用户输入生成新内容的人工智能系统,内容形式可以包括文本、图像、视频、音频、代码、设计方案,甚至药物分子结构。与传统软件不同,生成式人工智能并不是简单地按照固定规则执行任务;与普通搜索引擎也不同,它不是只返回已有网页或资料。它的核心能力在于从大规模数据中学习模式,并基于这些模式生成新的、复杂的输出。 对于受过大学教育的读者来说,理解生成式人工智能的第一步,是把它放在更广义的人工智能框架中看待。人工智能并不是单一技术,而是由多种不同范式组成。常见的四类范式包括决策(deciding)、预测或分类(predicting or classifying)、优化(optimizing)和生成(generating)。这四类系统解决的问题不同,使用的数据不同,评估方式不同,风险也不同。如果企业或个人把所有人工智能都理解为同一种工具,就容易在应用场景、技术采购和治理方式上做出错误判断。
决策型人工智能(deciding)主要依据明确规则采取行动。它适合规则稳定、边界清楚、结果可以被审计的场景。例如,税务软件可以根据收入、家庭状况和法律条款判断用户是否符合某项扣除资格;银行合规系统可以根据预设规则判断一笔交易是否需要进一步审查;企业审批流程也可以根据金额、部门、部门和权限自动决定是否进入下一环节。IBM的国际象棋系统深蓝(Deep Blue)也是典型例子。它在明确的棋盘规则内搜索大量可能走法,并选择最有利的行动。决策型系统的优势是透明、稳定、可解释,但它们通常缺乏灵活性。当问题需要理解语境、处理模糊信息或面对不断变化的现实环境时,单纯的规则系统就会受到限制。
预测或分类型人工智能(predicting or classifying)则通过历史数据学习统计关系,并把这种关系应用到新的案例中。分类任务的目标是判断某个输入属于哪一类,例如人脸识别系统FaceID判断一张脸是否属于授权用户;医学影像系统判断皮肤病变图片是否具有高风险;垃圾邮件过滤器判断邮件是否为垃圾邮件。预测任务则关注未来结果,例如供应链模型预测下个月的产品需求,金融模型预测贷款违约概率,航空公司预测航班延误风险。这类系统的前提是训练数据能够代表未来应用环境。如果环境发生变化,例如疫情冲击、消费者行为改变、政策调整或新型欺诈方式出现,模型可能出现性能下降。这种训练环境与部署环境之间的差异,是许多人工智能失败的根本原因。
优化型人工智能(optimizing)关注的是在约束条件下寻找最佳方案。它通常通过反复试验、反馈和奖励信号改进表现。AlphaGo是著名案例,它通过大量自我对弈学习围棋策略,最终击败顶尖人类棋手。自动驾驶模拟、仓库机器人路径规划、物流配送路线设计和能源调度系统,也都可以使用优化方法。例如,物流公司需要在车辆数量、燃油成本、交通状况、客户时限和仓库位置之间寻找最优配送方案。优化系统的价值在于,它可能发现人类难以直觉想到的策略。然而,如果奖励函数设计不当,系统也可能只追求表面指标。例如,如果只奖励配送速度,而忽视安全、员工负担和客户体验,系统就可能产生不符合组织长期目标的结果。
生成型人工智能(generating)是GenAI的核心。它与分类系统之间存在一个重要的“反向关系”。分类系统通常把复杂输入压缩成简单输出,例如把一张包含数百万像素的图片压缩成“汽车”这个标签;生成系统则把简单输入扩展成复杂输出,例如根据“雨中的红色汽车”生成一张高清图片、一段广告文案、一段视频脚本或一首歌曲。也就是说,分类任务通常有有限答案空间,可以用准确率、精确率和召回率等指标评估;而生成任务的答案空间几乎无限,没有唯一正确答案。因此,评估生成式人工智能不能只依赖传统准确率,而要关注忠实性(faithfulness)、有根据性(groundedness)、幻觉率(hallucination rate)、一致性和实际可用性。 现代生成式人工智能的发展经历了较长历史。早期系统ELIZA通过关键词匹配模仿心理咨询对话,虽然并不真正理解语言,却展示了一个重要现象:人类很容易把理解能力投射到机器上。后来,N-gram模型和循环神经网络(Recurrent Neural Network,RNN)能够学习词语之间的局部概率关系,但在处理长距离语义结构方面能力有限。真正推动现代GenAI爆发的是变换器(Transformer)架构、互联网规模训练和大型语言模型(Large Language Model,LLM)。GPT-3以1750亿参数展示了少样本学习(few-shot learning)能力,而ChatGPT、GPT-4o、Claude和Gemini等系统进一步把大型语言模型带入大众日常工作和学习场景。
支撑现代GenAI的关键技术主要包括变换器(Transformer)、扩散模型(Diffusion Model)、基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)和检索增强生成(Retrieval-Augmented Generation,RAG)。
变换器(Transformer)是现代大型语言模型的基础。它的核心机制是自注意力(self-attention),可以让模型在处理文本时同时关注不同位置的词语、句子和概念之间的关系。比如,当用户要求模型总结一份复杂合同时,模型需要理解文件前部定义的术语、后部列出的义务、例外条款和附录中的补充说明。早期RNN往往难以稳定捕捉这种长距离关系,而Transformer能够更有效地进行并并行处理和大规模训练。因此,它使互联网规模语料训练成为可能,也让模型能够生成较连贯的文章、代码、摘要、翻译和对话。
扩散模型(Diffusion Model)是图像生成领域的重要架构。它的基本思想可以理解为两个过程。训练阶段,系统把真实图像逐步加入高斯噪声(Gaussian noise),直到图像接近纯噪声;模型则学习如何在每一步预测并去除噪声。生成阶段,系统从随机噪声开始,通过多次反向去噪逐渐形成清晰图像。文本条件控制(text conditioning)让用户可以用自然语言影响图像内容和风格。例如,输入“日落时分的未来城市,水彩风格”,模型就会把文字描述转化为视觉结构、色彩、光线和艺术风格。DALL-E、Stable Diffusion、Midjourney、Adobe Firefly和Imagen等系统都体现了这一技术路线。扩散模型也逐渐扩展到视频生成,使机器能够生成连续帧和更复杂的动态场景。
基于人类反馈的强化学习(RLHF)则帮助语言模型更接近人类期待的助手行为。一个原始语言模型的目标通常只是预测下一个词,因此它可能生成流畅但不一定有帮助的内容。RLHF通过让人类评价不同回答的质量,再训练奖励模型(reward model),引导系统更倾向于生成礼貌、相关、清晰和安全的回答。这也是为什么现代聊天机器人往往能够遵循指令、改写文本和避免部分有害内容。不过,RLHF并不意味着模型真正理解人类价值。它更像是一种行为塑形(behavioral shaping):模型学会了哪些回答更可能被人类评价为好,但仍然可能迎合用户、继承评价者偏见,或生成听起来合理却事实错误的内容。
检索增强生成(RAG)是专业和企业应用中非常重要的方法。RAG会把生成模型连接到外部文档、数据库或知识库。系统先根据用户问题检索相关资料,再基于这些资料生成回答。例如,公司可以建立内部知识库,让员工询问人力资源政策、产品手册、合规要求、合同条款或客户支持流程。相比只依赖模型训练参数,RAG的优势是可以让回答更有依据,也能在一定程度上减少幻觉(hallucination)。然而,RAG并不能完全消除错误。它的效果高度依赖检索质量。如果检索到的是过时文件、错误片段或不完整上下文,模型仍然可能生成误导性答案。因此,RAG系统需要良好的文档管理、权限控制、版本更新和人工监督。 生成式人工智能已经在多个行业展现出应用价值。在航空领域,GenAI可以总结航班运行信息,为运营团队提供快速的情境概览,帮助工作人员理解延误、调度和客户服务问题。在医疗健康领域,图像模型可以辅助皮肤病诊断,追踪治疗进展,并为医生提供更多候选方案。在工业领域,GenAI可以根据产品规格自动生成技术手册,缩短原本需要数周的技术写作周期。在时尚领域,系统可以生成个性化设计方案,支持颜色、材料偏好和虚拟试穿。在建筑领域,生成式设计可以帮助优化采光、空间利用和结构布局。在制药领域,AI可以辅助分子生成、靶点识别和药物发现。需要强调的是,在这些场景中,GenAI的最佳角色通常不是完全替代专业人员,而是提高信息处理速度、扩大设计空间,并为专家提供更多候选方案。
尽管GenAI很强大,它也存在三类核心风险:偏见(bias)、幻觉(hallusion)和对抗负面输入的脆弱性(adversarial vulnerability)。 偏见(bias)是指模型从训练数据中学习并放大不公平或扭曲的模式。例如,一个招聘模型如果基于历史招聘数据训练,而历史数据中长期偏好某些学校、性别、地区或职业背景,那么模型可能继续推荐类似候选人,削弱其他群体的机会。医疗模型如果主要使用某一族群或年龄段的数据训练,可能对其他人群的诊断准确性较低。信用评估模型如果使用带有历史不平等痕迹的数据,也可能对某些社区产生不利影响。偏见的危险在于,机器输出往往被误认为客观中立,实际上却可能把历史不公平包装成技术判断。应对偏见不能只说“我们会确保公平”,而要明确具体风险群体、检测指标、纠正流程和人工申诉机制。幻觉(hallucination)是指模型生成自信但错误的内容。学生可能让模型推荐学术文献,却得到不存在的论文标题和作者;律师可能询问判例,却得到虚假的案例引用;经理可能要求总结公司政策,却得到听起来正式但与原文不符的内容。幻觉的后果不只是事实错误,更是信任错位。生成式模型的语言往往流畅、完整、有逻辑,因此用户容易把表达质量误认为事实可靠。在教育、法律、金融和企业决策中,这种误判可能造成学术违规、法律风险、错误诊断、财务损失或声誉损害。降低幻觉风险需要