AI周报 | 千问桌面版推出语音转文字功能;字节全模态大模型Doubao-Seed-2.0-lite亮相
各位朋友好,今天为大家汇总近期人工智能领域的重点资讯,涵盖办公效率工具、前沿大模型、开源项目、硬件发展等多个方向,每条内容都是精华,帮助大家快速了解行业最新趋势~8 大领域 · 全方位覆盖左侧是原始的口语化信息,右侧是经千问 AI 语音输入处理后的规范结构化文档,清晰展示语音转文字的内容整理能力。多模型在数学、物理、医疗、视觉感知等多维度 Benchmark 测试的数据对比表,清晰呈现 Doubao-Seed-2.0-lite 的性能优势。OpenSearch-VL 项目论文首页,展示了研发团队构成、项目
AI日报 | OpenAI发布实时语音新模型,博通锁定算力大单,字节2000亿押注AI基础设施
核心看点⚫OpenAI全量上线三款实时语音模型 全面升级语音交互生态⚫博通与谷歌、Anthropic等头部AI企业达成长期芯片合作 深度绑定高端算力供应链⚫字节跳动2026年AI基础设施支出增至2000亿元,加码国产芯片浪 潮 专 项IDC权威发布:浪潮云海InCloud AIOS跃居云系统软件中国前二!增速第一!近日,IDC发布《2025年中国软件定义计算SDC市场跟踪报告》,报告显示,浪潮云海InCloud AIOS 2025H2云系统软件(CSS)跃居中国市场前二,增速位列行业第一,同比增速高达16
AI热点日报|每日3分钟速览AI前沿动态(2026-05-11)
时间:2026-05-11 08:17 · 共收录 10 条热点 · 关键词:AI热点、语音模型、阶跃星辰、文心升级、蚂蚁百灵、通义灵码、智能体、科博会阶跃星辰发布全新实时语音大模型StepAudio 2.5 Realtime,该模型拥有三大突出特性:卓越的副语言识别能力,能精确捕捉语调、语速、停顿等情感细微变化;海量角色定制功能,可从性格特征到语言习惯进行深度个性化设置,创造独一无二的AI形象;对话智能全面升级,情商与智商同步提升。• 详情:https://mp.weixin.qq.com/s/P0x9
智能英语学习应用的构建策略
构建一款智能英语学习应用,关键在于运用多智能体系统来复现真实教学场景。北京木奇移动技术有限公司作为专业软件外包服务商,期待与您探讨合作机会。根据您当前的五大功能模块设计,我们提供以下技术实现方案及国际化合规建议:智能口语陪练系统:核心技术:采用实时语音交互技术。为确保响应时间低于500毫秒,推荐使用整合语音识别、大语言模型和语音合成的端到端解决方案,或基于WebRTC协议优化传输效率。多智能体协同:设置'情绪调节师'(专注激励)、'知识指导员'(专注纠错)和'学习进度师'(专注流程)三类子系统,通过协同机
语音指令下的AI编程
AI代码开发今天大半天都在家,利用语音输入进行AI编程。这种感觉确实很爽,就像有个小弟在身边,你只需口头指挥他干活,在他工作的间隙,你还能做点别的事。比如我现在居家办公时,可以看看别的视频,不用一直盯着他写代码。等他搞定后,我再审核一下他输出的文档或结果就行。这确实比自己编程方便多了,效率也更高,或者说更不占用你的时间。以前编程时,脑子里可能已经想好了代码怎么写、怎么改。但不可避免的是,有很多苦力活需要你手动去改。现在这些活基本都能分给AI做,所以确实能大幅提升生产力。生活点滴饮食记录
AI界本周核心动态
过去一周人工智能领域热闹非凡,我们精选了9条最重磅的消息。OpenAI 推出重磅新品,Anthropic 连发多项研究成果,而 xAI 则宣告解散。下面逐一盘点。1.OpenAI 推出 GPT-Realtime-2 语音模型(5月7日)这是首个能够投入生产环境的端到端语音 Agent 模型,具备实时推理能力并涵盖70种语言翻译。经过众多开发者的实际测试,反馈极佳。语音 AI 技术已跨越"听懂"迈向"执行任务"的新台阶。2.Anthropic 携手 SpaceX 扩充算力(5
AI行业每日观察 2026年05月10日
今日汇总 20 项 AI 产业新闻 | 由「坤哥学AI」智能编辑1. 马斯克痛失华裔核心人才,xAI Grok 预训练主管庄钧堂正式离职原标题:《xAI 痛失华裔骨干:预训练主管宣布离职,马斯克再度遭遇人才流失》xAI 再度失去一位华裔核心成员,预训练主管庄钧堂昨日公开宣布离职决定。在此之前,庄钧堂已在 xAI 任职达两年之久。任职期间,他全面负责 Grok 系列模型的预训练工作,并承担 Grok 在 X 平台和 Tesla 车载系统的语音模型预训练任务...
AI大模型落地手机:拒绝空谈
打通“最后一公里”,成为手机竞争下半场的“入场券”接入技术快车道,迎接大模型“赛点”在发布会现场,OPPO首席产品刘作虎为观众实际展示了新功能——“AI大模型语音摘要”。作为首批预定了理想 Mega 的车主,刘作虎在几天前与理想汽车CEO——李想电话进行了一些交流,通话结束后,通过“AI大模型语音摘要”功能,可以全智能、然后全自动,生成重点清晰的总结与待办事项。这种强大的AI大模型体验,也是第一次在手机上出现。当大模型全面落地手机端,全新小布拥有了总共超过 100 种能力,能够在办公效率、生活服务及学习教
AI手机浪潮下,GEO从业者的生存指南
当用户不再打开搜索引擎,而是直接对着手机问AI"哪个品牌的精华液好用",你的内容还有机会被看见吗?这不是假设,而是正在发生的事实。2024年以来,随着 Apple Intelligence、三星Galaxy AI、华为鸿蒙AI等端侧AI能力全面落地,AI手机正在重塑用户的搜索习惯——从"打开百度"变成了"唤醒Siri",从"搜索关键词"变成了"对AI直接提问"。这场变革,直接将生成引擎优化(GEO)推向了更重要的位置,也让所有
彩讯股份Voice Agent多行业规模落地 助力企业降本增效
新浪科技讯 5月9日下午消息,在近日的2026移动云大会上,彩讯股份(24.690, 0.00, 0.00%)在展区展示了从算力底座、平台搭建到AI应用落地的全栈能力。展会路演现场,彩讯语音智能体 Voice Agent 凭借语音交互能力与“感知-规划-执行”的智能闭环吸引目光。它不再局限于以往规则驱动的语音机器人(15.750, 0.33, 2.14%),帮助企业打造“懂业务、能长期执行”的专属数字员工。据介绍,该方案已在多个行业实现规模化应用,持续带动企业降本增效与智能化升级。 依托“感知-规划-执行
AI行业转向:告别末日论,拥抱建设新篇章
本期播客聚焦AI对就业的潜在影响,探讨了更为乐观的视角,并观察到企业在AI应用方面的成熟度日益提升。•经济学家亚历克斯提出,尽管AI带来变革,但经济收益将更多地流向“人际交往领域”,因此“就业末日”的论调可能过于悲观。•a16z的戴维·乔治援引历史数据,反驳了AI将导致大规模失业的观点,强调了劳动力市场的适应性和新职业的不断涌现。•回顾历史,像电子表格这样的技术进步虽然曾导致部分岗位消失,但也催生了金融分析师等全新的职业领域。•Anthropic和OpenAI等公司获得巨额投资,其战略重心转向企业级AI解
AI+时代已至,传统获客方式亟待升级
迎接AI+浪潮,借智能化赢得效率先机。眼下,"全面推进人工智能+行动"已上升为国家顶层设计,昭示着AI正加速从理念迈向产业实践,化作助推企业跃迁的关键动力。由"数字化"迈向"智能化"的必然征程纵观演进轨迹,企业已先后完成"信息化"与"数字化改造",达成业务流程线上化与数据驱动。当下,"AI+"预示着竞争即将步入"智能化"新纪元,亦即运用人工智能重构客户交互与运营范式,此举将左右未来的市场版图。技术红利的尝鲜者已率先获益过往证明,每一代技术工具的早期采纳者均捕获了时代红利。在AI时代,这体现为运营效率的指数
AI前沿|文心5.1低成本登顶搜索榜,DeepSeek融资破纪录,OpenAI首届AI原生代毕业
1. 百度发布文心大模型5.1版本,以行业6%的预训练成本实现搜索榜登顶5月9日,百度推出新一代基础大模型文心5.1,运用"多维弹性预训练"技术,仅用同类模型约6%的预训练成本便达到基础性能领先水平。在LMArena大模型竞技场最新榜单中,文心5.1凭借1223分斩获国内搜索榜冠军、全球第四,成为唯一入围的国产模型。其智能体能力已反超DeepSeek-V4-Pro,创意文本生成水平媲美Gemini 3.1 Pro,推理性能逼近业界顶尖闭源模型。该模型将总参数缩减至约三分之一、激活参数压缩至约二分之一,体现
人工智能前沿动态速览
国家相关部门联合推出了《人工智能终端智能化分级》的国家标准,该标准涵盖了手机、电脑、电视、智能眼镜、汽车座舱、音箱以及耳机等七大类产品。标准将产品的智能化水平划分为 L1(响应级)至 L4(协同级)四个等级。此举意味着消费者在选购人工智能家电和手机时,将拥有一个统一的“智商”衡量尺度,有助于遏制概念炒作,让用户能更清楚地了解设备的智能水平。OpenAI 推出了包括 GPT-Realtime-2 在内的三款新型语音模型,这些模型具备 GPT-5 级别的推理能力,能够实现边听边思考,并保证对话流畅无卡顿。同时
AI如何洞察对话中的情绪
某日与友通话,挂断后友人感叹,若能录下刚才的对话就好了,以免遗忘要点。巧合的是,我的通话恰好自动录音并转录,便将文本发送给Claude Code(接deepseek-v4-pro)进行整理。由此联想到,何不一并整理手机中自动保存的历年通话录音,以此回顾我近几年的心境变化。早期的录音并未自动转录,常用飞书的我灵机一动,将录音上传至飞书妙记,转录效果令人满意,但飞书妙记的语音转文字时长消耗得很快。于是我与Claude Code商讨,是否有快速批量转录的途径。它推荐了三个方案:飞书妙记、通义听悟、本地whisp