幻觉率_标签-酷阅新闻

百川M4登顶HealthBench，AI问诊能力首次超越GPT

百川M4问鼎HealthBench：当AI不再局限于答题，而是学会了“问诊” 我上周看到一则新闻，差点笑喷——百川智能携手清华推出的Baichuan-M4，在OpenAI主导的医疗基准HealthBench上，包揽三个子榜的冠军，完胜GPT-5.5与Claude Opus 4.7。诚然，“第一”在国内AI界屡见不鲜，但此次数据颇为亮眼：综合分68.6，甩开GPT-5.5近10分；在最具挑战性的Hard子榜中，优势更是拉大到15.9分。这绝非小胜，而是绝对压制。值得注意的是其幻觉率仅3.3%，对比之下G

2026-06-24 12:15:52 | 23 阅读

AI入门必读：重塑认知与避坑指南

1为何要踏上AI学习之路促使我下定决心系统钻研AI，并开启此全新专栏的，源于四个极其现实的动因：（1）胡彦斌的“彦火”带来的震撼前不久，音乐人胡彦斌借助Vibe Coding打造出了一款名为《彦火》的应用。一个非IT领域的艺人，竟能凭借AI跨界抢了程序员的饭碗。这种跨越行业壁垒的冲击力实在惊人。（2）职场上的“精简”与“裁员潮”审视当下的职场风向，大量传统职位正在锐减，而那些掌握AI、能借助AI提升效率的新型岗位却在不断招兵买马。（3）实打实的效率跃升不管是在职场中撰写报告、编写代码，还是在日常生活里规划

2026-06-23 23:42:32 | 21 阅读

AI 懂得何时沉默

上周发生了一件事，在朋友圈引发了热议——并非某款新模型亮相，也非哪家企业再次斩获数百亿融资。而是 Anthropic 推出的 Claude Opus 4.8，做了一件以往 AI 不敢做的事：面对不确定的问题，它会坦言“我不知道”。或许你会觉得这有何难能可贵？我每天用 ChatGPT 让它解答疑问，体验不也蛮好吗？但请深思——你敢于将一位“无所不知”的 AI，部署到公司的财务审批、合规审核或客户报价环节吗？近期与几位从事企业数字化转型的朋友交谈，他们道出了一句大实话：“我们并非不愿拥抱 AI，而是不敢贸然使

2026-05-31 16:04:45 | 20 阅读

AI智能体测试方法

探究AI智能体（AI Agent）与传统确定性软件测试的本质差异。传统测试关注“输入A，必然输出B”；而AI智能体具备自主规划、工具调用、长期记忆和非确定性生成能力，这使其测试维度更广、复杂度更高。构建一个成熟的AI智能体测试体系，需从核心能力评测、工程链路监控及安全护栏测试三个维度入手。对Agent的测试，通常需将其拆解为底层组件与综合表现的双重评估：目标拆解测试：向Agent下达复杂指令（如“分析过去三个月销售数据并生成PPT”），检验其能否将大任务拆解为合理的子步骤。反思与纠错：当工具调用出错（如A

2026-05-18 14:33:48 | 10 阅读

GPT-5.5全量开放：AI不再“胡说”

📅 2026年5月6日5月5日，OpenAI正式推出GPT-5.5双模型（Ultra+Instant），并在今天面向全球进行全量开放，带来AI能力的又一次明显跃升！此次升级的亮点主要有三方面：幻觉问题大幅降低，下降幅度达到52.5%；在医疗、金融、法律等高风险场景中，答复更为干净利落，真正走出"AI胡说"带来的困扰；同时推理、编程与数学能力对GPT-4实现全面超越，支持百万字级长上下文，可一键拆解整本书与全量代码库；另外响应速度也显著加快，提升40%，复杂任务能够一次性给出结果。52.5%

2026-05-06 17:47:21 | 17 阅读

海外评测解析DeepSeek-V4：开源智能体任务夺魁，幻觉增加，Token耗费较高

每经编辑｜兰素英 4月24日，DeepSeek-V4预览版正式发布并开源，声称在代理能力、世界知识和推理性能三大维度达到国内及开源领域的领先水平。 DeepSeek-V4提供Pro和Flash两个版本，均支持百万（1M）Token超长上下文。两个版本均显著降低了对计算和显存的要求，将每个标记的推理FLOP削减73%，并将KV缓存内存占用减少90%。 4月24日，全球最大AI模型API聚合平台OpenRouter的数据显示，V4-Flash的调用量达270亿Token，V4-Pro为47.9亿Token，

2026-04-25 14:20:15 | 41 阅读

GPT六代发布，AI智能开启新纪元

二零二六年四月十四日，对于全球人工智能领域而言，无疑是一个将被刻入史册的重要日子。就在这一天，美国开放人工智能公司正式发布了其第六代大型语言模型，代号土豆。这款模型的问世，不仅仅是一次常规的技术迭代升级，更被业界普遍视为通向通用人工智能道路上的一次关键跨越，标志着人工智能技术正式迈入了一个全新的发展阶段。回顾人工智能的发展历程，从二零二二年底的聊天生成预训练转换器横空出世，到如今第六代模型震撼发布，短短数年之间，人工智能技术经历了爆发式的飞跃发展。每一次重大版本的更新，都伴随着算力需求的指数级增长和应用

2026-04-17 09:41:55 | 11 阅读

AI记忆力首超人类：幻觉率降至0.5%，长对话告别瞎编

若AI不再拥有“金鱼脑”，能回忆起三天前我们聊过的每一个细节，这究竟预示着什么？近期，一项开创性的研究发现，新型AI模型在长对话记忆测试中，核心事实的幻觉率已降至惊人的0.5%，并在特定指标上首次超越了人类平均水平。这不仅仅意味着AI能进行更流畅、更精准的深度交流，更有可能彻底重塑客服、教育、医疗咨询及个人助理等行业的交互模式。本文将深入剖析这一技术突破的内核、运作机理，以及它对未来的深远影响。你是否有过这样的经历：正与某个AI助手聊得火热，从工作谈到生活，从电影聊到哲学，可当你兴致勃勃地提起“我们昨天讨

2026-04-17 02:18:58 | 7 阅读

AI产品体验关键指标全解析：定义、测算与实战应用

AI产品面临独特的困境：同一套模型，今日能够正确解答的问题，明日或许因数据分布偏移而失误。同一项功能，对某些用户而言是得力助手，对另一些用户却可能酿成问题。这说明了什么？AI产品要求长期追踪，而非单次检测即可。AI产品正迎来深刻的模式变革：由"功能实现"迈向"意图实现"。用户不再纠结"按钮位置在哪"，而是直白地提出"我想要什么成果"。产品设计的核心议题，也从"怎样打造更优界面"转变为"如何令AI精准领会并落实用户需求"。微软Copilot Studio的近期更新正验证了这一走向——"评测支持"成为产品主线

2026-04-10 00:33:38 | 137 阅读