标签

OpenAI发布三大语音新模型,升级实时人机交互体验

OpenAI于本周四正式宣布,其API接口新增多项语音智能功能。旨在赋能开发者构建应用,达成与用户的语音交流、语音转文字及即时对话翻译。全新的GPT-Realtime-2作为新一代语音模型,能产出极度逼真的人声,达成顺畅的人机即时对话。对比前代GPT-Realtime-1.5,此模型拥有GPT-5层级的推理水准,能处理用户更繁杂的指令与需求。OpenAI同时发布了GPT-Realtime-Translate即时翻译模型。该模型能紧贴对话步调,提供同步的会话翻译服务。涵盖超过70种输入识别语言及13种语音输

2026-05-08 10:57:08  |  5 阅读

OpenAI革新语音交互:低延迟与强推理并举

硅基工具人OpenAI正以前所未有的速度推进其语音技术的边界。OpenAI于2026年5月7日隆重推出其最新的语音模型及Realtime API功能,其战略意图十分明确:为开发者和产品团队提供低延迟的语音交互、推理、翻译及转写能力。对于一个已将文本对话确立为主要入口的公司而言,语音并非附加功能,而是其下一代人机交互入口的关键战场。本次发布的亮点在于“三款全新语音模型”的同步亮相。官方并未将此次更新包装成单一性能的提升,而是将实时语音能力、语音理解能力与文本化能力置于同等重要的讨论层面。语音助手、客服以及多

2026-05-08 10:16:05  |  6 阅读

OpenAI连推三款音频模型,语音交互实现零延迟突破

2026年5月8日,人工智能行业迎来了又一个历史性时刻!OpenAI正式向全球开发者推出了三款全新的实时音频API模型,彻底颠覆了传统语音AI“先转录、后处理、再回复”的滞后流程,实现了实时推理、实时翻译与实时转录的三大能力升级,从根本上重塑了人机语音交互的逻辑。这三款模型发布后,迅速成为了开发者和企业级应用关注的焦点,下面为您深度解析其核心亮点👇GPT-Realtime-2具备GPT-5级推理能力,首款真正理解对话的语音模型作为本次发布的旗舰产品,它是OpenAI首个集成GPT-5级别推理能力的语音模型

2026-05-08 08:40:03  |  7 阅读

OpenAI发布三款实时音频模型

美东时间5月7日,OpenAI正式上线三款实时音频模型:GPT‑Realtime‑2、GPT‑Realtime‑Translate和GPT‑Realtime‑Whisper,主要面向语音互动、即时翻译与语音转录等场景。GPT‑Realtime‑2拥有接近GPT‑5级的推理能力,可应对较为复杂的指令,支持工具调用,并能在较长对话中保持语境连贯;Translate可覆盖70+种输入语言,实时翻译为其中13种输出语言,无需用户提供完整句子;Whisper提供低延迟的流式语音转文字能力,适用于会议字幕呈现与现场实

2026-05-08 07:24:12  |  3 阅读

苹果AI耳机:视觉交互新篇章临近

据彭博社消息,知名爆料人马克·古尔曼透露,苹果公司首款集成红外摄像头的AI视觉TWS耳机(可能命名为AirPods Ultra)已迈入开发后期DVT(设计验证测试)阶段。其原型机的外观设计和核心功能已非常接近最终成品。这款耳机的摄像头主要用于AI捕捉低分辨率的环境视觉信息,而非进行传统意义上的拍照功能,旨在与iOS 27中升级的Siri实现更智能、更精准的人机互动。此项目已研发约四年时间,原计划的上市时间因新版Siri的开发进度有所推迟。目前,硬件方面已基本就绪,预计将于今年秋季随iOS 27一同正式发布

2026-05-08 07:02:41  |  15 阅读

构建可信智能体生态:中国信通院联合巨头发布ATH协议与开源社区

IT之家 5 月 7 日报道,中国信通院今日宣布,为弥补产业互联安全方面的不足,打破开源智能体生态的信任隔阂,并营造一个开放、标准、安全的产业发展环境,中国信息通信研究院(简称“中国信通院”)通过云计算开源产业联盟,联合业内众多参与者共同启动了“智能体开源社区”。该社区将专注于智能体开源生态的构建以及可信交互标准体系的建立,其核心在于汇聚产业各方的力量,整合行业企业、研究机构等多元主体的资源,共同致力于解决开源智能体在协同交互过程中面临的信任与安全挑战,从而全面促进开源智能体技术的安全发展、合规应用和大规

2026-05-07 22:49:23  |  6 阅读

头部厂商AI原型机泄露:8000mAh电池配超窄边框,新形态呼之欲出?

在“豆包手机”通过应用生态试水AI交互模式之后,传统手机制造商开始尝试从硬件根基重塑终端形态。据数码闲聊站披露,某排名前五的厂商实验室内正在测试一款AI Agent概念机型,其设计思路与硬件参数均带有鲜明的探索属性。硬件层面存在若干引人注目的特性。屏幕尺寸为6.5英寸,采用LIPO工艺实现了0.5mm四边等宽超窄边框。影像系统仅配置单颗主摄,搭载1/1.12英寸2亿像素大底传感器,完全舍弃了长焦与超广角镜头。这一取向与当下行业普遍堆砌多摄模组的做法背道而驰——多焦段覆盖需求依赖AI算法解决,而非增加物理镜

2026-05-07 19:30:15  |  6 阅读

AI主播上岗后才懂汪涵那句:人仍有优势

近日,湖南广电又抛出一条“重磅消息”:AI主播“声声”“双双”已正式入驻《经视新闻》黄金档,与真人主持在同一画面中完成播报;而在屏幕右上角,还细心标明了“AI生成”。老实说,第一次看到那种画面,我直接愣住了。五官精细、吐字自然,声音的流畅度很高,仿真感极强,乍一看甚至像是某位新入职的毕业生。以前总觉得AI抢饭碗只能在科幻里发生,但《新闻女王2》里那种“数字人继续播报”的情节,如今竟在现实中冒了出来。更值得玩味的是,汪涵之前就讲过类似的观点:AI不用化妆、不太容易出现失误,还能做到24小时连续工作;可观众是

2026-05-07 18:02:58  |  2 阅读

告别繁琐按键,智能客服如何学会“听懂”人心?

大家是否曾遭遇过这样的窘境:面对冰冷的系统菜单与语音指引,心中虽有万千疑惑,却纠结于该“按1还是按2”而无所适从?本期节目将目光投向技术层面,呈现科技为服务领域带来的全新变革:摒弃了僵化的关键词匹配方式,现有系统已能借助深度语义分析精准捕捉用户的完整意图,推动服务交互模式由“人迁就机器逻辑”跨越至“机器主动理解人类”的崭新纪元。在你看来,当下的服务系统是否真的变得更加“智慧”了呢?

2026-05-07 11:28:32  |  5 阅读

奇瑞全域拥抱AI:热AI更“落地”

参加2026北京国际车展的奇瑞汽车,将以31项前沿重磅科技亮相,展示其全域拥抱AI的能力,并把“热AI”带入真实用车体验。从可实现原地掉头并支持横向行驶的飞鱼底盘i,到针刺不起火的犀牛电池,再到600Wh/kg级别的固态电池,以及8分钟补能500公里的迅龙秒充;同时还有不依赖高精地图即可实现全国自主行驶的猎鹰Robocar。更进一步,依托共算法、共海量数据和共AI工具链打造的智驾系统等黑科技,也让人目不暇接。“销量饭、技术饭、品牌饭”一直是奇瑞持续追求与加速进阶的目标。随着2026北京国际车展的召开,技术

2026-05-07 09:12:54  |  3 阅读

AI驱动高仿真数字人实现实时智能交互

多模态生成式高自然度数字人实时互动关键技术研究及应用广州趣丸网络科技有限公司该项目“多模态生成式高自然度数字人实时互动关键技术研究及应用”面向直播电商、客服、文旅、政务、医疗、教育、交通、金融等场景,聚焦数字人从“被动应答”向“主动感知与智能共情”升级。项目提出“环境感知一认知决策一情感表达”技术路线,突破多模态意图与情绪识别、视频大模型动作生成、LLM跨模态编排、低延迟实时渲染与口型驱动等关键技术,核心指标表现优异:语音识别CER1.08%、WER1.03%,意图识别96.5%,情绪识别97%,端到端响

2026-05-06 08:21:31  |  7 阅读

AI的两种形态:通用智能与具身智能大比拼

许多人对通用人工智能与具身人工智能的概念感到困惑,本文将尝试以通俗易懂的方式进行阐述,帮助大家理解这两者的区别。简单来说,通用人工智能可以被理解为“无所不能的大脑”,而具身人工智能则更像是“拥有身体的执行者”。接下来,我们将分别进行详细介绍。一、通用人工智能(AGI)通用人工智能指的是拥有与人类相当的“通用性智慧”的AI大脑。它不局限于某个特定任务,能够触类旁通、自主学习,并理解各类指令。此外,它还能像人类一样进行思考、推理,并解决前所未遇的新问题。举例说明- 当前的ChatGPT、语音助手、内容推荐系统

2026-05-05 18:29:29  |  4 阅读

AI眼镜与智能眼镜:并非同类,区别巨大

别再混为一谈!AI眼镜和智能眼镜,不是一个物种早上出门,你戴上一副眼镜,边走边随口问:“今天3场会议的重点帮我理好了吗?”“对面这家日料店的口碑和不踩雷菜品”“老外说的话实时翻成中文”。很多人会下意识说“这智能眼镜真方便”。但说错了。能做到这些的是AI眼镜。躺床上看巨幕、开车抬眼导航、运动看心率的,才是智能眼镜。AI 眼镜和智能眼镜,这两个名字相似,却隔着代际鸿沟。它们不是“加不加AI”的区别,而是功能机与智能手机、马车与汽车的区别,是完全不同的两个物种。智能眼镜的故事始于2012年谷歌眼镜的横空出世。彼

2026-05-05 11:33:54  |  6 阅读

帕姆AI:垂直领域的颠覆者

随着《崩坏:星穹铁道》4.2版本的更新,「帕姆帮帮(测试版)」正式登场,这象征着米哈游在游戏内部署大语言模型(LLM)方面取得了关键性进展。该系统以列车长帕姆为核心形象,深度融合了游戏的完整数据、用户操作记录以及社区PUGC素材,打造出一位极度专业的智能助手。尽管目前尚在测试期,但它在定制化培养建议、剧情资料查询及情感互动等层面的表现,已经显露出了超越当前通用AI模型的明显优势。下文将从技术契合度、用户留存率、迭代闭环机制及生态发展潜力这四个方面,深入剖析帕姆AI如何在特定情境下,实现对市场主流AI的部分

2026-05-05 07:20:57  |  6 阅读

AI创新对话启幕 | 5月6日聚焦情境智能:开启强交互大模型新纪元

AI创新行动菁英对话上科大青年学者对话 2026年首期 | 总第1期01活动概览为贯彻学校AI创新战略,促进人工智能领域“教育—科研—产业”深度融合,深化与科技界和产业界的顶尖协作,构建长效化学术产业互动平台,上海科技大学全新启动并常态化举办AI创新行动 菁英对话(ShanghaiTech Dialogues with Emerging Scholars)系列学术研讨活动。02组织方式活动采取“主题分享+圆桌研讨”模式。主讲人涵盖互联网科技领袖、顶级科研专家、跨界科创人才及高潜力独角兽企业创始人,聚焦AI

2026-05-04 21:50:28  |  5 阅读