LLM评_标签-酷阅新闻

AI Agent项目如何做用户验收？真实项目经验总结

全文约 3600 字，预计阅读 7 分钟。AI Agent的产出是概率性的，传统UAT的"对/错"二元判断失效了。本文分享一个三层评估架构（自动完整性检查 → LLM-as-Judge → 业务抽样验收），以及工程与业务协作的三个认知陷阱。"AI项目还需要做UAT（User Acceptance Testing）吗？"这个问题是在我们的AI Agent系统即将交付业务用户时，工程团队内部提出的。表面上看这是一个简单的流程问题，但深入想下去，你会发现它触及了AI项目与传统软件项目之间的一个差异:传统软件的产

2026-05-12 20:05:19 | 22 阅读

AI催化未来：港科大（广州）联动MIT共探医疗与教育创新

人工智能正以前所未见的速度进入医疗、教育以及公共生活的关键环节。它不仅在改变知识获取与决策方式，也迫使我们认真思考：AI究竟该怎样被构建？我们又要如何去衡量它？它又应该朝向怎样的方向前进？2026年5月12日，主题为AI as Catalyst: Explore AI in Healthcare and Education的全日工作坊将在香港科技大学（广州）举办。本次活动由麻省理工学院与香港科技大学（广州）主办，MIT Critical Data、香港科技大学（广州）计算媒体与艺术学域（CMA）、以及香港

2026-05-09 19:48:37 | 20 阅读