标签

AI能力评估的关键要素

评估能力的强弱,直接决定了AI实力的高低。对于无法准确衡量的事物,你将难以进行有效的管理。企业真正的评估核心在于:衡量"AI系统执行任务的准确性"。供应商提供的基准测试如同入学测试;而企业自身的评估才是日常运营的关键。多数企业AI项目失败的根源都源于此类问题。多数企业AI系统的优化也都是在此领域投入的结果。大部分企业在这两个方面都缺乏系统性的规划。成熟企业则会定期执行"外部视角"检查,并在出现异常时进行"内部审视"。供应商基准帮助你判断"哪些模型值得

2026-05-19 16:04:51  |  5 阅读

AI EVAL:人工智能评估全解析

AI EVAL 即人工智能评估(AI Evaluation)的简称,意指对各类 AI 系统(涵盖大语言模型、视觉模型等)在性能、安全、可靠及适用性方面进行系统化测度与衡量的流程。具体可从以下核心维度加以解读:1. 核心目标:旨在判定某 AI 模型或系统“优劣如何”、“可靠程度”及“是否契合特定场景”。其不仅需回答“准确率几何”,更需关注“未知数据表现”、“是否存在偏见”、“是否安全可控”等深层问题。2. 关键评估维度:- 性能指标:涵盖分类任务的准确率、召回率、F1 值;生成任务的 BLEU、ROUGE、

2026-05-18 14:41:03  |  6 阅读

AI界本周核心动态

过去一周人工智能领域热闹非凡,我们精选了9条最重磅的消息。OpenAI 推出重磅新品,Anthropic 连发多项研究成果,而 xAI 则宣告解散。下面逐一盘点。1.OpenAI 推出 GPT-Realtime-2 语音模型(5月7日)这是首个能够投入生产环境的端到端语音 Agent 模型,具备实时推理能力并涵盖70种语言翻译。经过众多开发者的实际测试,反馈极佳。语音 AI 技术已跨越"听懂"迈向"执行任务"的新台阶。2.Anthropic 携手 SpaceX 扩充算力(5

2026-05-10 20:35:18  |  8 阅读

AI幻觉五因剖析与风险治理

摘要:AI大模型真正走向落地时,幻觉问题就变成行业绕不开的核心难题。相关研究对AI幻觉背后的五类关键成因进行了系统梳理:一是统计式生成驱动的补全机制,二是知识边界处出现的专业断层,三是提示环节的设计不足,四是组织层面对速度的过度追求,五是检索与生成环节之间的衔接错位;同时可以看到,幻觉风险在专业边界区域往往会明显上升。研究还强调,实验室里的基准评测与真实世界之间存在较为突出的测量偏差。在公共服务、医疗、网络安全等业务场景中,幻觉产生的错误可能越过界面限制,直接渗入业务流程,从而带来较为严重的影响。研究进一

2026-05-07 14:27:03  |  6 阅读

人工智能测度新框架

人工智能测度新法及其应用一种面向人工智能测度与应用分析的新方法■作者简介李晓宇,武汉大学经济与管理学院博士研究生叶初升,武汉大学经济与管理学院教授、经济发展研究中心联席主任■研究内容人工智能对经济活动的影响,主要取决于其被应用的广度以及自身的智能强度。如何准确衡量人工智能水平,是相关研究中的基础性与关键性问题。本文结合人工智能在不同基准测试中的表现及其横向对比,优化了智能水平的测度思路,并据此构建出一个同时包含智能水平的人工智能应用指标。在新一轮科技革命和产业变革快速推进的背景下,人工智能正成为重塑全球产

2026-04-27 10:40:04  |  4 阅读

国产顶尖AI模型对决:DeepSeek-V4与GLM-5.1的科研应用深度剖析

智谱AI旗下Z.AI研究部门低调推出了新一代面向长周期智能体任务的旗舰模型GLM-5.1,该模型拥有7540亿参数。就在不久前,DeepSeek正式发布了其第四代旗舰系列DeepSeek-V4,其参数量达到1.6万亿,并将百万级超大上下文窗口设定为所有官方服务的标准配置。从科学研究的角度审视,不能仅凭其在标准化对话中的主观感受来评判,必须将其置于严苛的跨学科基准测试环境中。科研任务的复杂性要求模型必须同时具备处理高维偏微分方程的数理逻辑推演能力、在海量基因序列或学术文献中进行无损信息提取的检索能力,以及在

2026-04-26 11:46:10  |  7 阅读

OpenAI生命科学研究利器GPT-Rosalind问世

2026年4月16日,OpenAI正式发布其专为生命科学研究设计的推理模型GPT-Rosalind。该系列模型针对科研工作流进行了深度优化,融合了对化学、蛋白质工程及基因组学等领域的深刻认知,并强化了工具使用能力。在美国,一款新药从靶点发现到获批上市往往需要10至15年漫长周期。生命科学的进展不仅受制于基础学科的挑战,更因研究流程的繁琐而受阻。科研人员需在海量文献、专业数据库、实验数据及持续演化的假设间穿梭,以生成并评估创新思路。这类工作流普遍存在耗时长、碎片化且难以规模化的问题。OpenAI坚信,先进的

2026-04-24 17:31:58  |  7 阅读

强化智能优先:企业为何仍需依赖人类智慧?

如果你并非从事软件开发,在会议或董事会上,你或许曾被问及:“我们要如何落地 AI?如何真正实现投资回报?”全球都在寻找答案,但答案依旧难以捉摸。近期 AI 工程学的突破与往昔的经验教训,有助于我们构建切实可行的方案。在探讨方案前,必须正视现状。迄今为止,多数 AI 基准测试对该领域而言是一种尴尬的沉默。模型在标准化考试、法考及学术数据集上常能取得近乎完美的成绩,却在真实的专业场景中表现欠佳。缘由很简单:基准测试考查的是模型记忆了什么,而非它能做什么——这被称为“数据污染”,即模型在训练阶段已看过答案。Me

2026-04-23 07:53:34  |  5 阅读

我国发布具身智能首份行业标准 助推AI技术产业化进程

2026年4月1日,工业和信息化部正式批准并发布了《YD/T 6770—2026 人工智能 关键基础技术 具身智能基准测试方法》。这份标准是具身智能领域的首份行业规范,计划于同年6月1日起实施,并将同步推动国际标准的立项工作。具身智能是人工智能的一个重要分支,指的是智能体通过物理实体与环境进行实时互动,从而实现感知、认知、决策与行动一体化的智能系统,其应用形态包括智能机器人、自动驾驶汽车、无人机等。该标准旨在建立一个统一的测试框架,对仿真环境和真实环境中的测试条件、任务集合、操作流程以及指标计算方式进行规

2026-04-18 12:12:08  |  6 阅读

斯坦福2026人工智能发展态势解析

【长三角人工智能联盟】公众号持续更新AI科普内容,欢迎关注!2026年4月13日,斯坦福大学以人为本人工智能研究所(Stanford HAI)正式发布了第九版《人工智能指数报告》。这份长达423页的全面报告揭示了全球AI发展的整体图景,其核心结论可以概括为:技术迭代速度迅猛,而相应的治理体系正面临巨大挑战。以下为该报告提炼出的关键要点。2025年,在全球具有重大影响力的AI模型产出中,产业界贡献了超过90%的份额。这一数据表明学术界的影响力正在持续减弱。人工智能训练所需的算力资源正以年均3.3倍的速率扩张

2026-04-18 08:23:58  |  6 阅读

AI测评神话破灭:不解题也能登顶排行榜

2026年4月,UC Berkeley研究组向科技圈投下一枚重磅炸弹。他们开发了一套自动化检测系统,对8个顶级AI Agent评测体系展开了全方位审查。结论令人震惊:全部评测体系均存在可被"劫持"的缺陷——即便不处理任何真实任务,依然能够获得近乎完美的评分。SWE-bench:100%可劫持率。WebArena:近100%。FieldWorkArena:100%。GAIA:98%。这并非纸上谈兵。研究组真实构建了可运作的漏洞利用代码,并向这些评测平台正式提交了结果。这也不是学术演练。它动摇了规模达2000

2026-04-14 06:10:51  |  7 阅读

具身智能评测标准正式出台

日前,中国信通院携手四十多家机构联合制定的具身智能首份行业规范正式面世。该规范为具身智能产业建立了统一的评估测试体系,意味着具身智能测评进入标准化时代。 据悉,此标准重点围绕AI核心技术与具身智能测评方法,清晰界定了系统架构与能力指标,预定于6月1日起正式施行。 “具身智能正经历从科研到商用的重要转折期。”中国信通院人工智能所负责人魏凯表示。 统计数据表明,2025年我国整机厂商已突破140家,人形机器人新品发布数量超过330款。 不过,魏凯指出当前产业发展遭遇双重困境。首先是“手工作坊”式的开发方式。模

2026-04-13 08:59:04  |  7 阅读

智谱GLM提价10%股价飙升,国产大模型告别价格战

4月8日早间,随着智谱推出GLM-5.1,OpenRouter平台披露智谱GLM价格上调10%。调价后,其Coding场景Token缓存价格已对标Anthropic的Claude Sonnet,这标志着国产大模型在核心领域首次实现与国际顶尖厂商的定价接轨。回溯一年,国产大模型厂商曾通过降价超90%来抢夺市场。如今这一转变意味着国产模型不再单纯依赖低价竞争,而是通过性能优势来锚定国际标准。 数据显示,GLM-5.1在代表专业软件开发能力的SWE-bench Pro基准测试中刷新了全球纪录,超越了Claude

2026-04-08 12:16:11  |  5 阅读