标签

Nature重磅:ADeLe精准预判AI模型成败

瓦伦西亚理工大学(Universitat Politècnica de València)的一支研究团队,来自瓦伦西亚大学人工智能研究所(VRAIN)及ValgrAI,成功研发了ADeLe。这一创新方法可精准预判大型语言模型(LLM)在未曾执行过的全新任务中的成功率,并清晰界定特定模型的推理边界。该研究刊登于《自然》期刊,堪称重大进展。传统手段仅能反映AI模型在既定测试中的成效,而ADeLe运用更具认知深度的评测方式,可预先解析并预判模型行为,使企业在发布新型AI系统前便能洞察潜在失误。如此一来,我们便能

2026-04-07 13:05:58  |  7 阅读

AI写作工具评测:谁才是中文写作的最佳选择

上周同事让我帮忙撰写一份月度总结报告。为了省事,我用AI生成了一个初稿。结果领导看完后皱着眉头问:"这该不会是AI写的吧?"确实如此,AI写作的痕迹太过明显。我花了两天时间,测试了市面上主流的五款AI写作工具,用同一个主题来比较谁写得更像人类。结果令人意外。第一名:DeepSeek — 92分这个结果让我感到惊讶,但DeepSeek确实表现最佳。优点如下: - 中文理解能力突出,提供的方案具体实用。例如“每天15分钟站会代替1小时周会”、“用飞书文档代替微信群聊”——这些建议显然来自实际使

2026-04-04 08:05:46  |  5 阅读

最新医疗AI技术突破

中试基地 5 大核心成果(医疗 AI 全栈突破) 1.自主可控算力底座 构建全国一流医疗 AI 算力平台,实现 “国模用国芯”,性能比肩国际一流。 2.6 大医疗垂直大模型 全栈自主可控多模态矩阵,覆盖影像、病理、中医药、科研等,多款达国际领先。 3.医疗 AI 数据基础设施 全国示范性高质量三医(医、药、械)数据平台,为模型训练提供核心支撑。 4.权威评测标准 MedBench 4.0 全球领先中文医疗大模型测试平台,建立统一、权威的行业测评标准。 5.9 款临床级智能应用 从 200 余款应用中精选,

2026-04-03 18:08:35  |  6 阅读

2025年国产AI大变革

中文大模型的「期末考场」:深度解读SuperCLUE评测基准与2025年度变局近日,随着人工智能技术在各行各业的深度渗透,对于大模型能力的评估已成为行业发展的风向标。据三个皮匠报告发布的最新行业资讯显示,2026年2月4日,《SuperCLUE:中文大模型基准测评2025年年度报告》正式披露,这份长达74页的深度文件不仅是对过去一年中文大模型发展的总结,更是对未来技术趋势的权威预判。在当前人工智能技术呈指数级爆发的背景下,如何从数百个模型中筛选出真正具备落地能力的「明珠」?SuperCLUE作为独立、领先

2026-04-03 06:21:39  |  5 阅读

具身智能领域首份行业标准6月1日生效

近日,工业和信息化部批准发布《YD/T 6770—2026人工智能关键基础技术具身智能基准测试方法》行业标准,作为该领域的首个行业标准,将于6月1日正式实施,标志着具身智能评测进入‘有标可依’的新阶段。 据介绍,该标准为具身智能领域构建了统一的基准测试框架,规范了在仿真环境和真实环境下面向具身智能系统的基准测试框架、指标和方法,包括基准测试的环境设置、任务库构建、测试过程和指标计算方法。该标准适用于对技术提供方提供的单个具身智能系统开展‘感知—决策—执行’全链路能力的基准测试。目前,该标准已同步在ITU

2026-04-01 08:58:05  |  5 阅读