标签

重庆AI高薪招聘汇总(五险一金包住)0508期

算法工程师1万-1.5万元/月岗位职责:1.负责图像类算法研发,涵盖图像分类、目标检测、语义分割以及大模型相关方向;2.承担算法测试、分析与验证工作,形成并交付实验报告;3.负责深度学习算法在指定硬件平台上的部署落地;4.围绕业务相关技术难点开展攻关,推动问题解决与前瞻研究;5.开展技术分享、专利申报与学术论文撰写,增强公司技术影响力。 任职资格:1.硕士及以上学历,生物医学工程、计算机、模式识别、信号处理、自动化等相关专业,数学基础扎实,211/985院校背景优先;有深度学习、图像处理、视频处理经验者更

2026-05-08 15:11:49  |  6 阅读

OpenAI推出三款革新语音模型,AI沟通能力迈上新台阶

在昨日的凌晨时分,OpenAI公布了三款全新的音频处理模型:GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper。根据OpenAI官方的介绍,这些新模型将赋能开发者,使其能够创造出在用户进行语音交流时,能够实时进行“推理、语言转换和文字转录”的语音应用。目前,这三款模型已向开发者群体开放了测试申请。此次更新的核心亮点在于三款模型针对不同应用场景的明确分工。GPT-Realtime-2专为实时语音代理(Agent)场景设计,堪称OpenAI首

2026-05-08 14:50:34  |  7 阅读

OpenAI发布三款新语音模型 AI实现实时“边听边思考”

5月8日,OpenAI在Realtime API中一次性发布了三款前沿智能语音模型——GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,分别聚焦于语音交互对话、实时多语种翻译以及实时语音转写。这预示着智能语音技术已突破“仅能听懂”的局限,迈向了“边听边思考、边分析边执行”的全新境界。GPT-Realtime-2:AI终于掌握了边“听”边“想”的技能此次发布的“核心”无疑是GPT-Realtime-2。作为一个真正具备“人性化表达与执行力”

2026-05-08 12:18:29  |  6 阅读

OpenAI发布三大语音新模型,升级实时人机交互体验

OpenAI于本周四正式宣布,其API接口新增多项语音智能功能。旨在赋能开发者构建应用,达成与用户的语音交流、语音转文字及即时对话翻译。全新的GPT-Realtime-2作为新一代语音模型,能产出极度逼真的人声,达成顺畅的人机即时对话。对比前代GPT-Realtime-1.5,此模型拥有GPT-5层级的推理水准,能处理用户更繁杂的指令与需求。OpenAI同时发布了GPT-Realtime-Translate即时翻译模型。该模型能紧贴对话步调,提供同步的会话翻译服务。涵盖超过70种输入识别语言及13种语音输

2026-05-08 10:57:08  |  5 阅读

AI每日速递:苹果新款AirPods集成摄像头,OpenAI发布三款语音模型

多语言语音克隆 TTS 模型 OmniVoice01一款集成了摄像头的 AirPods 正处于产品开发的后期验证阶段,最快可能在今年九月伴随升级后的 Siri 版本一同面市。这款 AirPods 的摄像头并非传统意义上的拍照或录像设备,而是作为 AI 版 Siri 的视觉输入端。两侧耳塞均配备了低分辨率摄像头,用于捕捉用户周遭环境的视觉信息,并实时传输给 Siri 进行分析。此举旨在让用户无需依赖手机,即可通过语音指令与环境进行互动,例如在冰箱前咨询食谱建议,或询问陌生物品的用途,Siri 都能依据摄像头

2026-05-08 10:51:09  |  6 阅读

OpenAI革新语音交互:低延迟与强推理并举

硅基工具人OpenAI正以前所未有的速度推进其语音技术的边界。OpenAI于2026年5月7日隆重推出其最新的语音模型及Realtime API功能,其战略意图十分明确:为开发者和产品团队提供低延迟的语音交互、推理、翻译及转写能力。对于一个已将文本对话确立为主要入口的公司而言,语音并非附加功能,而是其下一代人机交互入口的关键战场。本次发布的亮点在于“三款全新语音模型”的同步亮相。官方并未将此次更新包装成单一性能的提升,而是将实时语音能力、语音理解能力与文本化能力置于同等重要的讨论层面。语音助手、客服以及多

2026-05-08 10:16:05  |  6 阅读

OpenAI发布三款实时音频模型

美东时间5月7日,OpenAI正式上线三款实时音频模型:GPT‑Realtime‑2、GPT‑Realtime‑Translate和GPT‑Realtime‑Whisper,主要面向语音互动、即时翻译与语音转录等场景。GPT‑Realtime‑2拥有接近GPT‑5级的推理能力,可应对较为复杂的指令,支持工具调用,并能在较长对话中保持语境连贯;Translate可覆盖70+种输入语言,实时翻译为其中13种输出语言,无需用户提供完整句子;Whisper提供低延迟的流式语音转文字能力,适用于会议字幕呈现与现场实

2026-05-08 07:24:12  |  4 阅读

AI日报:DeepSeek首轮融资估值达450亿美元,Google内测智能体Remy挑战OpenClaw

5月7日·瞰AI1. Anthropic 与 SpaceX 达成算力协议,获超 22 万块英伟达 GPU 2. ChatGPT 广告平台扩容:自助投放上线,按点击付费正式引入 3. DeepSeek 首轮融资曝光,估值 450 亿美元 4. 苹果因 AI Siri 延迟赔偿 2.5 亿美元,每台 iPhone 最高可获赔 95 美元 5. AI 游戏平台 Astrocade 完成 5600 万美元融资,红杉领投、李飞飞任首席科学官 6. 曝 Google 内部测试 AI 智能体「Remy」对标 OpenC

2026-05-07 11:40:43  |  7 阅读

AI日报:AI正从“炫技”转向“实战交付”

今日最关键的信号十分明确:AI agent 的角逐核心,已由“能否实现”变为“能否在现实场景中稳定完成”。企业端正在完善流程、权限、上下文及变更管理;基础模型与工具链则持续强化多模态、语音、长上下文、结构化输出及安全自动化。真正拉开差距的,不再仅是模型本身,而是谁能将 agent 可靠地融入工作流。简而言之:AI 的主战场,正由“展示智慧”转变为“稳定办事”。Aaron Levie 的观点十分直白:Anthropic 和 OpenAI 均在推动企业内部部署 AI agents,但痛点已非“模型是否足够聪明

2026-05-07 10:21:10  |  6 阅读

AI边界在哪?从影视飓风工作流看用法

影视飓风最近更新了一期内容,重点讲的是他们团队如何在日常流程里运用 AI。看完你会明显感到:最值得借鉴的不是“用不用AI”,而是他们把 AI 的边界划得很清晰。哪些任务适合交给 AI,哪些必须谨慎甚至不使用,他们都拿捏得相当到位。在选题阶段,他们会借助 OpenClaw 来完成素材搜集与信息梳理,因此效率确实提升了不少。一个选题往往要查很多资料:几十个网页、文档和视频里分散着关键信息。过去需要人工一条条打开、复制、归纳总结;现在 AI 能在几分钟内先把材料整理成初稿。但真正决定拍什么、内容往哪个方向走,最

2026-04-29 12:14:11  |  6 阅读

AI日报:特斯拉接入豆包,美团试水万亿大模型

哈喽大家好,我是玖玖学长~本期给大家汇总最新一轮 AI 行业日报,内容覆盖大模型发布、车载智能升级、语音技术突破、数字人开源、电商风控 AI 等多个热点,帮助你快速看懂 AI 圈重点进展!DeepSeek-V4 预览版已正式上线并开源,率先把 1M 超长上下文能力做成标准配置。依托结构层面的创新与 Agent 生态适配,模型的推理表现和落地效率都得到了明显提升。该模型同时推出 Pro 与 Flash 两个版本,其中 Pro 版性能已经逼近全球头部闭源模型,Flash 版则强调更高性价比,可适配不同使用需求

2026-04-27 14:30:10  |  5 阅读

4月10日AI动态汇总

智谱AI正式推出新一代开源旗舰模型GLM-5.1,采用744B参数MoE架构(单次激活40B),并以MIT协议全面开源。该模型在SWE-Bench Pro基准中取得58.4%的成绩,超过GPT-5.4和Claude Opus 4.6,成为首个在核心编程能力上领先主流闭源旗舰的开源模型。GLM-5.1还支持长达8小时的持续自主运行,一周内刷新105项SOTA成绩,并可在无需人工干预的情况下交付完整Linux桌面系统。2026-04-08 · 智谱AI/界面新闻/少数派4月10日,由中国人工智能学会主办的第三

2026-04-10 20:03:04  |  6 阅读

AI快讯:公众号整治洗稿,字节上线实时语音,腾讯云上调价格

2026 年 4 月 10 日 | 作者:阿紫闲谈坦白说,今天的 AI 行业有种"冷暖交织"的味道——一边是大厂密集推出新产品,另一边则是平台开始整顿那些过度依赖 AI 的"省事派"。实话讲,看完今天这一圈资讯,我最强烈的感受只有三个字:风向变了。先说一个重磅消息。微信公众平台近日公布新规,明确叫停"非真人自动化创作行为"。什么意思?也就是不能让 AI 代替真人写稿、批量群发内容。已有不少创作者表示,后台文章因被系统认定为自动生成,结果直接遭到批量清除。新规

2026-04-10 07:25:26  |  15 阅读
字节Seeduplex全双工语音模型发布,豆包通话实现双向实时交互

字节Seeduplex全双工语音模型发布,豆包通话实现双向实时交互

字节于今日正式揭晓其原生全双工语音大模型Seeduplex。相较此前的半双工豆包端到端语音方案,Seeduplex采用“同步听说”的创新架构,使得交互的流畅性与真实感获得显著增强。官方表示,Seeduplex主要达成了两大技术突破:多项综合测评表明,Seeduplex在对话流畅性与节奏把控方面,明显超越传统半双工模式及市面主流应用的语音通话能力;在停顿判断精准度上,较半双工方案提高8%,呈现出更贴近真人对话的时机把握能力。同时,大规模A/B测试结果揭示,相较于先前上线的半双工版本,Seeduplex使用户

2026-04-09 23:33:48  |  5 阅读

AI资讯速览:视频生成、智能体与大模型迎来新进展

🔔1、超越 Seedance 2.0!AI 视频领域又现神秘黑马 Happy Horse💡核心要点:在AI视频生成赛道中,新模型Happy Horse整体表现已超过Seedance 2.0,在文生视频的画面稳定性、细节呈现以及动作流畅度方面更具优势,还可结合音频生成实现多模态创作。其背景尚未明朗,外界猜测或出自亚洲某AI实验室,被认为有望成为Seedance的重要竞争者,并在全球AI社区引发广泛讨论,成为行业升级的重要信号。🔔2、15秒1080P音画同步!爱诗科技 PixVerse C1 亮相:影视级大模

2026-04-09 10:14:48  |  7 阅读