标签

AI测试转型困局:管理认知不升级,工具便是昂贵的摆设

软件测试迈向AI驱动模式时,真正的拦路虎并非技术本身,而是管理层的思维定势以及传统考核机制的惯性。老贺通过一个实际案例,揭示了转型中的典型矛盾:尽管AI工具将回归测试耗时从3天缩减至4小时,但管理层的核心考核指标依然锚定在“用例执行数”(占40%),致使工程师不敢削减手工用例,AI工具反倒变成了徒增负担的“昂贵摆设”。老贺运用“五层追问”深入剖析了管理者阻碍转型的根源:“无法被量化的价值,终将被算法定义为零”mabl《Testing in DevOps Report 2025》显示,70%的测试团队已应用

2026-05-20 14:03:00  |  4 阅读

AI六十年歧途:封闭规则的幻梦

第 三 章AI 圈走了 70 年的弯路— 文字即智能 · 系列 03 —一1956 年夏天,美国新罕布什尔州,达特茅斯学院。一栋老式的红砖教学楼里,一间不大的会议室。窗户开着,外面是新英格兰的夏天,树叶很厚,知了在叫。十个男人围着一张长桌坐下来。他们当中年纪最大的 41 岁,最小的 28 岁。有数学家,有逻辑学家,有信息论的开山祖师,有刚拿到博士学位的年轻学者。其中几个名字,后来都成了一个新领域的开山人物——John McCarthy、Marvin Minsky、Claude Shannon、Herber

2026-05-20 07:55:37  |  8 阅读

Anthropic神话模型引发监管重视

Anthropic将向金融稳定委员会汇报其"Mythos"网络能力,包括Cloudflare和苹果(297.125, -0.71, -0.24%)合作伙伴在内的部分企业正在试用该模型,该模型可串联漏洞利用并识别软件缺陷。该模型展现了大型语言模型可能被用于制作网络攻击代码和突破安全防护的全新风险。监管部门密切关注,担心AI技术的不当使用可能影响金融系统稳定。Anthropic表示将积极与政策制定者协作,推进制定行业安全规范。这是科技企业与监管部门就AI安全问题进行的最高层级对话之一。 责任编辑:张俊 SF0

2026-05-19 22:44:35  |  7 阅读
特斯拉北上广等九城急招智驾实车测试员

特斯拉北上广等九城急招智驾实车测试员

IT 之家 5 月 19 日讯,据招聘官网最新信息显示,特斯拉正面向北京、上海、天津、重庆、广州、深圳、成都、苏州及武汉这九座核心城市,招募智能驾驶测试(实车方向)技师。早在今年 4 月,特斯拉便已发布公告,明确表示正全力推进智能辅助驾驶功能在中国市场的落地进程。经 IT 之家核实,该岗位隶属于研发体系下的自动驾驶 Autopilot 部门。职位说明中指出,任职者需适应国内外灵活出差的工作节奏,负责在公共道路、专业测试跑道及各类验证场地执行车辆实地测试任务。具体任职门槛如下:

2026-05-19 21:20:48  |  4 阅读

AI大模型调用稳定性保障

在企业大规模应用 AI 大模型时,调用的稳定性直接影响业务的连续性与成本控制。云服务商、To B 企业及 AI 服务提供方在推动项目落地前,通常对批量调用的稳定性、链路兼容性及故障响应能力存在担忧,害怕出现波动影响实际业务,带来不必要的时间和试错成本。真实场景下的测试数据是选型与决策的重要依据。我们针对三类决策者的核心使用场景,完成多轮 AI 大模型批量调用实测,提供可执行的解决方案。在商业应用中,稳定比速度更受关注,可靠性比功能更关键。✅️Feature(特性)支持高并发批量调用,采用多节点冗余链路,常

2026-05-19 18:35:47  |  7 阅读

AI引爆测试设备需求,存储扩产加速,国产材料替代浪潮来袭

一手调研纪要和研报资讯日均更新300+投研资料请扫描下方二维码获取请联系文末客服半导体后道测试设备:AI推动市场翻倍,国产品牌加速替代#AI驱动半导体设备需求激增,后道测试设备量价齐升。据SEMI数据,2025年全球半导体制造设备销售额将达1351亿美元,同比增15%,创历史新高,增长主要源于先进逻辑、存储器及AI相关产能扩张。细分领域看,前段晶圆制程设备增12%,后道测试设备猛增55%;区域上,中国大陆、中国台湾地区、韩国合计占全球79%;爱德万预估2026年SOC市场规模达85-95亿美元,较2024

2026-05-19 18:07:55  |  5 阅读

AI能力评估的关键要素

评估能力的强弱,直接决定了AI实力的高低。对于无法准确衡量的事物,你将难以进行有效的管理。企业真正的评估核心在于:衡量"AI系统执行任务的准确性"。供应商提供的基准测试如同入学测试;而企业自身的评估才是日常运营的关键。多数企业AI项目失败的根源都源于此类问题。多数企业AI系统的优化也都是在此领域投入的结果。大部分企业在这两个方面都缺乏系统性的规划。成熟企业则会定期执行"外部视角"检查,并在出现异常时进行"内部审视"。供应商基准帮助你判断"哪些模型值得

2026-05-19 16:04:51  |  5 阅读

AI起源:图灵的提问与达特茅斯的梦想,开启机器智能时代

硅基漫谈录·AI进化史 | 第一篇这是一个讲述人类亲手打造“另一个自我”的历程。从1950年图灵提出疑问,到2025年AI融入日常——70年的起伏,6篇文章带你领略AI的完整进化。1950年,英国曼彻斯特大学校园内。38岁的艾伦·图灵伏案疾书,面对那台占据整屋的庞然大物,在纸上写下了一个看似简单的命题:机器具备思维能力吗?这道题后来登上了英国50英镑纸币。但在当时,许多人觉得荒谬——机器只会算术,何谈思考?图灵却不以为然。他构思了一个方案:让人通过打字机与两个隐身对象交流,一人一机。若人类无法分辨,则视为

2026-05-19 02:24:54  |  9 阅读

自动驾驶出租车在伦敦启动路测

Alphabet子公司Waymo正在伦敦拓展高精度地图绘制及试运营范围。伴随着AI技术驱动的车队逐步迈向商业化应用,无人驾驶汽车与传统黑色出租车的市场竞争日趋白热化。伦敦交通管理部门正密切跟踪测试动态,并积极构建自动驾驶出租车的运营标准体系。黑色出租车从业者组织对就业岗位受到冲击表示忧虑,要求政府对无人驾驶车辆在核心城区的运营加以限制。Waymo强调其技术有助于增强道路安全性并减少出行开支,预计在获得监管部门批准后将于2027年之前推出商业付费服务。

2026-05-18 22:42:13  |  9 阅读
特斯拉展示座椅防夹技术,马斯克与陶琳同步转发

特斯拉展示座椅防夹技术,马斯克与陶琳同步转发

新浪科技讯 5月18日下午消息,特斯拉官方账号今日发布一段关于座椅防夹功能的演示视频,指出在检测到障碍物时,座椅会立即自动回弹。 特斯拉全球副总裁陶琳在其个人微博上转发了这段视频,并评论道:“特斯拉的安全,体现在每一个容易被忽视的细节中”。据了解,特斯拉CEO马斯克也在海外社交平台上转发了该视频。 部分网友猜测,此视频可能暗指享界S9此前发生的座椅夹人事件。近日,一段展示“享界S9零重力座椅”的视频在社交平台上广泛传播:一名家长带着孩子在展厅体验该座椅,当他通过语音指令启动功能后,副驾座椅开始向前折叠并下

2026-05-18 16:23:54  |  5 阅读

AI EVAL:人工智能评估全解析

AI EVAL 即人工智能评估(AI Evaluation)的简称,意指对各类 AI 系统(涵盖大语言模型、视觉模型等)在性能、安全、可靠及适用性方面进行系统化测度与衡量的流程。具体可从以下核心维度加以解读:1. 核心目标:旨在判定某 AI 模型或系统“优劣如何”、“可靠程度”及“是否契合特定场景”。其不仅需回答“准确率几何”,更需关注“未知数据表现”、“是否存在偏见”、“是否安全可控”等深层问题。2. 关键评估维度:- 性能指标:涵盖分类任务的准确率、召回率、F1 值;生成任务的 BLEU、ROUGE、

2026-05-18 14:41:03  |  6 阅读

AI智能体测试方法

探究AI智能体(AI Agent)与传统确定性软件测试的本质差异。传统测试关注“输入A,必然输出B”;而AI智能体具备自主规划、工具调用、长期记忆和非确定性生成能力,这使其测试维度更广、复杂度更高。构建一个成熟的AI智能体测试体系,需从核心能力评测、工程链路监控及安全护栏测试三个维度入手。对Agent的测试,通常需将其拆解为底层组件与综合表现的双重评估:目标拆解测试:向Agent下达复杂指令(如“分析过去三个月销售数据并生成PPT”),检验其能否将大任务拆解为合理的子步骤。反思与纠错:当工具调用出错(如A

2026-05-18 14:33:48  |  5 阅读

人工智能的诞生与首次发展低谷

【开篇语】在开始正式内容之前,先聊聊为什么要写这个系列文章虽然当前网络上关于AI的讨论铺天盖地,但不难发现许多人对人工智能仍然缺乏基本认知:老一辈可能只是听说过这个名词,年轻人也往往停留在表面理解,“知其然而不知其所以然”。九成的人都会有这样的心态:反正不是计算机从业者,深入了解有什么用?平时用用智能助手查查资料就够了。这种认知导致对AI始终处于模糊状态。需要认识到,这次AI革命与工业革命、互联网革命有着本质区别。前两次变革主要改变社会生产方式,而AI则可能重塑整个人类社会结构。作为个体,要么主动适应,要

2026-05-18 08:49:43  |  7 阅读

佰维存储二度冲刺港交所,AI赋能驱动业绩高速增长

日前,佰维存储披露公告称,公司已向港交所再次递交了H股公开发行并在主板上市的申请,同期在港交所官方网站发布了相关上市申报材料。公司核心业务涵盖多场景存储应用:(i)移动终端与AI应用领域;(ii)个人电脑及企业级存储;(iii)车联网及其他细分市场。同时,公司为半导体行业战略合作伙伴提供先进封装测试服务。公司的存储产品线主要包括:DRAM芯片方案(如LPDDR及DDR)、NAND Flash芯片方案(如eMMC、UFS及SSD)以及多芯片封装方案(如uMCP、eMCP及ePOP)。从营收结构分析,智能移动

2026-05-18 08:41:11  |  8 阅读

微软推多模型安全系统,基准测试拔得头筹

AI对抗AI,已成为网络安全领域最务实的路径。5月12日,微软推出了一款多模型代理安全系统,据称其在行业基准测试中表现优异,优于所有主流方案。微软安全博客指出,该系统的核心理念是让多个AI模型协同运作,各自负责特定的安全环节。01 架构设计:协同而非单一决策旧式安全系统通常依赖单一AI模型进行全局判断,这在面对复杂攻击时易出现误判。微软的新方案采用了多代理架构:由独立模型分别负责攻击检测、事件分析及响应决策,最后进行综合决策。这种“分工协作”的模式,是当前AI落地应用中备受推崇的方向。示意图(配图与文章内

2026-05-18 08:40:48  |  7 阅读