科大讯飞推出全新智能AI眼镜
近期,科大讯飞于澳门隆重推出了全新的讯飞AI眼镜,向大众呈现了该款产品在全方位同传、智慧提词、GlassClaw智能助手以及仅40克的极致轻盈设计等方面的突出优势。这款AI眼镜具备122种语言的同步传译能力,融合了语音通话翻译、当面交谈翻译以及图像视觉翻译等多种应用模式。设备配备了多重麦克风组合与底层算法相配合的深度降噪模块,并开创性地加入了视觉降噪机制。在人声鼎沸的复杂场景中,借助唇语动作识别技术,能够实现高精度的声音捕捉,完美解决诸如展会、商业街区、社交宴会等喧闹场所的交流障碍。此外,该产品还自带智慧
科技前沿:OpenAI 造机器人,苹果联姻 Gemini,阿里 Qwen 牵手欧足联
OpenAI 正式组建机器人部门,将具身智能重归核心战略;苹果备战 WWDC,拟通过 Gemini 蒸馏模型升级 Siri,兼顾端侧隐私与云端算力;Google 将 Nano Banana 图像系列投入生产,推动生成能力从演示转向 API 服务;OpenAI 发布实时翻译模型并适配智能眼镜,语音交互迈向随身化;阿里云携 Qwen 成为欧足联官方伙伴,AI 技术深入全球体育运营体系。OpenAI 重兵布局机器人赛道OpenAI 已正式成立 Robotics 团队,广泛招募涵盖硬件、系统及机器学习的全栈工程师
AI日报速递|5月30日|OpenAI进军实时翻译,专用模型成新趋势
各位好,欢迎来到StarAI资讯站。今日AI圈相当精彩,OpenAI放出了大招,直接切入实时翻译领域。与此同时,国内这边,阶跃星辰也开源了一款性价比超高的Agent模型。接下来我们逐一了解。先快速浏览一下今日要点。第一,OpenAI推出了实时翻译模型,支持70种语言输入,翻译成13种输出语言。我认为这个信号比产品本身更值得关注,因为OpenAI正在走专用模型路线。第二,阶跃星辰开源了Step 3.7 Flash模型,近2000亿参数,但实际只激活110亿。在Agent评测中位居榜首,还能在Mac上本地运行
AI简报 | 5月30日:OpenAI发布多语言实时翻译系统
2026年05月30日 星期六 有料哥每日精选 · 不废话,只给干货2026年05月30日 星期六有料哥每日精选 · 不废话,只给干货👊 有料哥日报:OpenAI的翻译模型、小米的音效生成、阶跃星辰的智能体——今天AI圈集体“卷”效率,但最炸的是Codex终于学会自己管线程了。别吹什么“理解世界”,先让AI别在并行任务里卡死再说。👊 有料哥日报:OpenAI的翻译模型、小米的音效生成、阶跃星辰的智能体——今天AI圈集体“卷”效率,但最炸的是Codex终于学会自己管线程了。别吹什么“理解世界”,先让AI别在
科大讯飞推出超轻AI眼镜,4299元开启预约
新浪科技讯 5月29日下午消息,BEYOND Expo 2026上,科大讯飞(47.900, -1.23, -2.50%)推出了讯飞AI眼镜。据透露,这款眼镜整机重量仅40克,比同类竞品轻约两成,定价为4299元,目前全平台已开放预约优惠,并将于6月15日正式启动预售。 功能方面,讯飞AI眼镜具备122种语言的实时互译能力,翻译字幕可直接显示在镜片上,同时通过扬声器同步播报译文,使跨语言交流如同母语对话般顺畅自然。在发布会现场,主讲人借助眼镜与一位西班牙语用户进行了远程通话,全程无需依赖手机或任何第三方设
腾讯会议AI同传功能正式发布
有朋自远方来,不亦乐乎?今日,腾讯会议AI同传功能正式登场,首批支持中文与英文的双向翻译。每位参会者,都将拥有一位专属的AI同传译员。无论是跨国商务谈判、跨洋团队协作还是跨国社交往来,在“听”与“说”方面都将变得更加轻松:无需会前临时抱佛脚背单词、无需紧急联系翻译人员、无需听不明白还装作若无其事地点头。传统的同传模式如同接力赛——发言人完整说完一句后,译员才能开始翻译,对话节奏被迫分割成两部分。腾讯会议将AI同传的延迟控制在3秒以内,发言与翻译几乎同步进行,无需等待、无需憋屈,跨语言交流可以像母语对话般自
2026年AI穿戴设备实测:眼镜、戒指、挂件究竟值不值得入手?
2026年如果你还在犹豫要不要入手一台AI手机,可能已经out了。因为今年真正火起来的赛道是——AI可穿戴设备。Era这家公司刚拿到1100万美元融资,做的就是AI小工具的操作系统。Meta的Ray-Ban智能眼镜已经卖出几百万副。就连我一直觉得有点鸡肋的AI戒指,也有不少创业公司在深耕了。作为一个数码发烧友,我基本把市面上能买到的AI可穿戴设备都体验了一遍。今天聊聊真实感受。AI可穿戴设备 — 眼镜、戒指、挂件正在成为新潮流先说最成熟的品类——AI眼镜。Meta和Ray-Ban联合推出的智能眼镜,到20
OpenAI 推出语音模型新系列,同传行业受冲击?
语音技术的迅猛发展,正逐渐改变翻译行业的未来走向。5月7日,OpenAI 推出了全新的语音模型系列,其官方博客将其定义为「专为实时语音场景打造的新一代模型」。该系列包含三个子模型,分别针对推理、翻译和转写任务进行了专项优化,目前 API 已开放调用。01 三款模型各司其职此次发布的三款模型分别为:实时推理模型(主打低延迟对话)、翻译模型(实现多语言即时互译)、转写模型(追求高准确率语音转文字)。OpenAI 在博客中强调,翻译模型的延迟已降至「用户几乎无法察觉」的程度。这种分工明确的架构设计,取代了以往「
苹果AI耳机亮相:AirPods能否成为下一代智能入口
今年2月Tim Cook曾暗示苹果正在研发由AI驱动的“全新品类”产品,当时多数人猜测是智能眼镜——然而率先登场的却是AI耳机。苹果计划将AirPods从单纯的“音乐播放设备”转变为“环境感知助手”:实时翻译、会议记录、场景识别等功能一应俱全,你的耳朵或许会比眼睛更早迈入AI时代。📅 发布时间:2026年5月15日⏱️ 阅读时长:约4分钟🏷️ 文章分类:#硅基觉醒 #苹果AI #可穿戴设备1. AI耳机具备哪些功能环境感知:能够识别所处环境(如餐厅、办公室、户外),自动调节降噪模式并提供个性化推荐;实时翻
OpenAI发布三款全新音频处理模型
01三款新模型分别是什么?首先是GPT-Realtime-2,这是OpenAI首款具备GPT-5级别推理能力的语音模型。它专为实时语音交互设计,能在处理请求的同时保持对话流畅。其核心升级包括:上下文窗口从32K扩展至128K,支持更长的对话和更复杂的任务流;支持并行工具调用,可同时处理多个后台请求;具备更强的错误恢复能力,遇到问题时能主动告知而非直接中断。该模型还提供minimal、low、medium、high、xhigh五档推理强度调节,开发者可以在延迟和推理深度之间灵活平衡。其次是GPT-Realt
AI语音能力飞跃:实时交互与翻译颠覆行业格局
当许多人仍认为AI语音仅限于“你问我答”的Siri水平时,OpenAI已发布了令人瞩目的突破性成果。5月8日,OpenAI一次性推出了三款实时语音模型。其中一款具备边对话边推理的能力,另一款能够实时翻译超过70种语言,还有一款则支持实时语音转写。这三大模型的结合,相当于一次性构建了语音AI领域的基础设施。这三款模型中,GPT-Realtime-2无疑是最具影响力的。作为首个拥有GPT-5级别推理能力的语音模型,它打破了以往语音助手“一问一答”的模式,能够在对话过程中实现实时推理、工具调用以及处理用户打断。
OpenAI推出三款革新语音模型,AI沟通能力迈上新台阶
在昨日的凌晨时分,OpenAI公布了三款全新的音频处理模型:GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper。根据OpenAI官方的介绍,这些新模型将赋能开发者,使其能够创造出在用户进行语音交流时,能够实时进行“推理、语言转换和文字转录”的语音应用。目前,这三款模型已向开发者群体开放了测试申请。此次更新的核心亮点在于三款模型针对不同应用场景的明确分工。GPT-Realtime-2专为实时语音代理(Agent)场景设计,堪称OpenAI首
OpenAI发布三大语音新模型,升级实时人机交互体验
OpenAI于本周四正式宣布,其API接口新增多项语音智能功能。旨在赋能开发者构建应用,达成与用户的语音交流、语音转文字及即时对话翻译。全新的GPT-Realtime-2作为新一代语音模型,能产出极度逼真的人声,达成顺畅的人机即时对话。对比前代GPT-Realtime-1.5,此模型拥有GPT-5层级的推理水准,能处理用户更繁杂的指令与需求。OpenAI同时发布了GPT-Realtime-Translate即时翻译模型。该模型能紧贴对话步调,提供同步的会话翻译服务。涵盖超过70种输入识别语言及13种语音输
OpenAI 推出三款实时语音模型:翻译转写对话升级
5 月 7 日,OpenAI 一次性发布了三款全新语音 AI 模型,并向开发者开放 API 接入。与以往的渐进式改进不同,这次升级覆盖了从推理能力到底层机制,并重点强化实时翻译与流式转写等能力。对终端用户而言,这意味着你开口与 AI 交流时,它不仅能"听懂"你的意思,还能在语音场景下"完成任务",同时跨越语言差异——让语音真正成为人与软件之间更顺畅的沟通入口。其中 GPT-Realtime-2 被视为本轮的关键产品,也是 OpenAI 首款具备 GPT-5 级别推理能力的实
OpenAI发布三款实时音频模型
美东时间5月7日,OpenAI正式上线三款实时音频模型:GPT‑Realtime‑2、GPT‑Realtime‑Translate和GPT‑Realtime‑Whisper,主要面向语音互动、即时翻译与语音转录等场景。GPT‑Realtime‑2拥有接近GPT‑5级的推理能力,可应对较为复杂的指令,支持工具调用,并能在较长对话中保持语境连贯;Translate可覆盖70+种输入语言,实时翻译为其中13种输出语言,无需用户提供完整句子;Whisper提供低延迟的流式语音转文字能力,适用于会议字幕呈现与现场实