AI治理:技术发展的道德边界
历经19章的技术探究与产品实战,我们终须直面AI的"暗面"——伦理规范、安全防护与体系治理。这绝非可选项,而是每位AI从业者的核心必修课。
概念界定:AI模型输出的内容表面通顺合理,实则存在错误、捏造或与真实情况相悖的问题。
形象类比:
AI幻觉如同"擅长虚构的叙述者"——其表达流畅且自信满满,但所述内容可能纯属杜撰。更为严峻的是,它自身并未意识到正在编造信息。
真实案例:
实例一:伪造学术文献
实例二:虚构司法判例
实例三:捏造统计数据
类别一:事实型幻觉(Factual Hallucination)
AI产出与客观实际不相符的信息。
类别二:一致性幻觉(Faithfulness Hallucination)
AI生成结果与给定输入或上下文背景产生偏差。
类别三:逻辑型幻觉(Reasoning Hallucination)
AI在推理过程中出现偏差,即便前提无误,结论仍可能出错。
除上述三类幻觉外,大语言模型还存在其他需警惕的失效模式:
任务偏离(Task Deviation)
AI未能遵照指令完成指定操作。此现象非幻觉范畴,实为指令遵从性缺陷。
任务偏离的应对策略与幻觉存在差异: - 幻觉问题:借助RAG技术、来源追溯等手段缓解 - 偏离问题:依赖Prompt优化、指令微调等方法改善
成因一:训练数据缺陷
成因二:模型结构局限
成因三:解码机制影响
成因四:上下文窗口制约
检测手段一:自我一致性校验(Self-Consistency)
检测手段二:事实性核验(Fact Verification)
检测手段三:不确定性量化(Uncertainty Estimation)
检测手段四:引用来源验证(Citation Verification)
应对策略一:RAG技术(检索增强生成)
应对策略二:自我一致性机制
应对策略三:来源引用标注
应对策略四:人工复核流程
应对策略五:局限性透明声明
何谓数据偏见?
训练数据内嵌的系统性偏颇会被模型习得并进一步放大。
偏见