标签

威尔·史密斯吃面:AI视频评测的意外标尺

故事源于Reddit上一段AI制作的"威尔・史密斯吃意面"视频突然走红。画面中人物面容扭曲、手指变形、面条飞行轨迹离奇,却意外地为AI领域提供了统一的评判标准。不用繁琐的参数,单凭威尔・史密斯吃面的自然程度,便能衡量AI视频模型的优劣。意面形态随机、结构复杂,成为检验AI物理模拟与细节重现的"终极挑战";威尔・史密斯辨识度极高的五官特征,更能凸显模型缺陷,两者结合使这项测试成为AI视频领域的"图灵测试"。从最初荒诞猎奇的影像,到2026年Seedance 2.0产出近乎真实的画面,短短三年间,威尔・史密斯

2026-05-08 12:19:03  |  6 阅读

新基准测试出炉:大模型视频理解能力遭“打脸”,专家90分遥遥领先

日常生活中,当人们依赖多模态大模型处理视频时,往往感觉它似乎无所不知,但仔细一问又显得支支吾吾。尽管各大视频理解榜单上排名靠前,实际体验却往往不尽如人意,这究竟是为何?Video-MME-v2引入了一种全新的非线性关联评分机制,将大模型拉回了现实。2024年,Video-MME团队推出了Video-MME,主要测试模型在不同时长下的跨模态视频理解水平,目前已成为Gemini和GPT等众多大模型的重要评测标准之一。经过近一年的打磨,该团队发布了新一代评估体系,通过严苛的分组连贯性测试,彻底杜绝了模型靠碎片化

2026-04-20 07:21:48  |  4 阅读

2025年国产AI大变革

中文大模型的「期末考场」:深度解读SuperCLUE评测基准与2025年度变局近日,随着人工智能技术在各行各业的深度渗透,对于大模型能力的评估已成为行业发展的风向标。据三个皮匠报告发布的最新行业资讯显示,2026年2月4日,《SuperCLUE:中文大模型基准测评2025年年度报告》正式披露,这份长达74页的深度文件不仅是对过去一年中文大模型发展的总结,更是对未来技术趋势的权威预判。在当前人工智能技术呈指数级爆发的背景下,如何从数百个模型中筛选出真正具备落地能力的「明珠」?SuperCLUE作为独立、领先

2026-04-03 06:21:39  |  5 阅读