标签

AI日报速览:语音输入上新,全模态与AI搜索升级

1.千问PC端上线AI语音输入功能,用户可通过快捷键在各类桌面应用中直接使用,具备出色的语义理解能力,能把口语内容整理成结构化信息,同时还能用语音指令完成多种办公操作,显著提升日常效率。亮点提要:🗣️ 千问语音输入可对口语内容进行去语气词、纠错与格式化整理,并能结合上下文进行更贴合的回应。📝 用户能够用语音指令直接在多种应用里调用千问,实现创作、问答、翻译等常见任务。📧 千问还能自动生成邮件回复,覆盖钉钉、微信或邮件等办公场景,帮助用户更快处理沟通。2.字节跳动发布全模态大模型Doubao-Seed-2.

2026-05-07 16:32:09  |  4 阅读

SUS读书节|第十七讲:Qwen-Image文字渲染与高保真图像生成

SUS“AI+素养·同城共学”系列课堂本周预告(5月7日)第十七讲Qwen-Image最新模型的文字渲染与高保真图像生成5月7日 14:00张军(上海健康医学院)开源AI作图工具Qwen-Image模型,能够将图片内容中的文字精准“还原”,尤其对中文表现突出,针对AI图片里常见的文字错乱问题给出更有效的解决。无论是做海报还是日常修图,都能更快更稳地提升效果,并通过更细致的方式提升图片生成质量的可控性,从而显著降低AI生图带来的生硬感。讲座将从便捷的在线体验讲起,进一步延伸到生图模型的本地部署与参数调校,带

2026-05-06 10:46:49  |  6 阅读

AI资讯早报 · 2026年5月5日

每天9点,带你挑选昨日最值得关注的AI动态。本期共精选12条新闻,覆盖大模型、军事AI、资本走向与政策监管四大板块。重点信息包括:斯坦福AI报告指出中美差距仅2.7%、五角大楼签约7家AI巨头、Anthropic拟按9000亿美元估值推进融资。硅星人深度分析指出,GPT Image 2 的出色表现源于架构层面的核心调整——系统先由LLM负责语义规划,最后再由扩散组件完成像素生成。图像生成正在从"画出来"转向"理解后呈现出来"。

2026-05-06 04:19:19  |  7 阅读

精选全球顶尖AI应用指南

国内外主流 AI 工具: 文本生成 / 对话助手:用于把想法、资料、语音整理成文字。 国外:ChatGPT、Claude、Gemini;语音输入:Typeless 国内:豆包、Kimi、DeepSeek;语音输入:闪电说、豆包输入法 知识管理:用于收集、消化和沉淀资料。 国外:NotebookLM、Notion、Obsidian 国内:腾讯 ima、Get 笔记、飞书知识库 图像生成:用于生成、修改和延展图片。 国外:Nano Banana、ChatGPT 图像、Midjourney 国内:即梦 AI、通

2026-05-05 23:59:08  |  5 阅读

AI素养同城共学系列课堂预告(5.6-5.9)

“AI+素养・同城共学”系列课程下周安排(5月7日)1第十七讲Qwen-Image最新模型:文本渲染与高保真图像生成5月7日 14:00张军(上海健康医学院)开源绘图利器Qwen-Image能够把图片中的文字“精准写出”,尤其在中文场景表现突出,针对AI出图时易出现文字错乱的问题提供了有效方案。借助它制作海报或进行修图更高效,生成效果更稳,且能更细致地把控图像生成质量,从而显著降低AI生图带来的生硬感。讲座将从在线体验出发,进一步讲解生图模型的本地部署流程,以及相关参数调校方法,帮助大家把AI绘图能力提升

2026-05-05 11:31:43  |  3 阅读

AI影像视频革新:虚假信息时代加速来临

近期,人工智能(AI)在视频生成领域的进展异常迅猛。首先,OpenAI推出了GPT Image 2,其全新的多图像生成功能一次可输出8张连贯的图像,分辨率最高可达2K,适用于漫画、影视剧照等多种场景。紧随其后,阿里巴巴自主研发的HappyHorse 1.0已启动内测。该工具允许创作者仅通过文字描述,便能在几分钟内生成一段3至15秒的高清视频,支持多镜头切换、剧情连贯性和自动运镜。这款名为“快乐小马”的产品在权威AI视频盲测平台AI Video Arena上曾一度位居榜首,其Elo积分超越了同级别模型,表现

2026-05-04 20:30:34  |  5 阅读

AI幻觉的真正根源?技术周报聚焦行业新动态

She Nicest 技术周报每周日发布,旨在梳理和回顾本周国内外的重要技术进展、产业亮点以及科研领域的创新成果。我们一同探索算法的浪潮,进行跨界思考,She 构筑未来,与您一同感受技术脉搏,审视创新前沿。2026/05/0301技术更新|图像生成迈入新纪元,GPT增强视觉创作力Image-2四月下旬,OpenAI发布了一系列更新,显著提升了其新一代图像生成能力(Image-2),并将其与GPT-5.5的智能体(Agent)能力相结合。相较于以往侧重于风格化输出的模型,Image-2更注重“高精度复现与强

2026-05-03 21:43:38  |  6 阅读

AI 押注创意工作台:ChatGPT 图像走热、Claude 直连设计链

过去我们谈 chatgpt、claude code 以及更广泛的人工智能时,往往先联想到两类用法:一类是聊天式问答,另一类是代码层面的辅助。但在最近几天,真正更值得关注的变化是,头部平台把竞争的前沿明显向“创意生产”环节推近。它们不再只满足于做一个“擅长回答的人”,而是希望成为能把视觉稿、原型、脚本、素材乃至最终成品一起产出的工作台。看上去这像是产品形态调整,实质上却指向 AI 行业竞争重心的切换:谁能更顺畅地衔接设计、图像、内容生成,以及跨多个软件协同的流程,谁就更容易获得更高频的使用,并在付费层面形成

2026-05-02 18:28:58  |  6 阅读

GPT-5.5震撼发布:告别碎片化AI,这才是真正的生产力工具

老实说,回想上周五下午那3个小时,我感到非常后悔。事情是这样的——我需要让AI帮我生成一个数据分析报告。先问ChatGPT写代码,然后切换到Claude检查错误,再把代码上传到Colab运行……结果报错了,回头找ChatGPT修复,来回折腾了4个工具,最后发现最初的提示词理解有误。3个多小时,4个工具,一杯凉透的咖啡,一个没完成的结果。那一刻我坐在椅子上,真的感到崩溃。使用AI一年多,我最大的感受其实只有一句话:不是AI能力弱,而是AI工具链太分裂了。你必须充当“AI调度员”——什么时候切换工具、A的输出

2026-04-26 20:59:54  |  7 阅读

AI前沿播报|每日三分钟行业动态追踪(2026-04-23)

时间:2026-04-23 08:43 · 共收录 10 条热点 · 关键词:OpenAI图像生成模型、AI、科技OpenAI正式推出 ChatGPT Images 2.0(GPT-Image-2 ),是其首个具备思考能力的图像生成模型。模型在准确性、时效性、一致性和视觉连贯性上表现突出,仅凭简单提示词可生成以假乱真的App截图、TikTok视频界面、商品广告及论文海报等复杂图像,中文文字渲染能力显著提升。• 详情:https://mp.weixin.qq.com/s/uE92m52scoaWbEIjF5

2026-04-23 08:45:33  |  3 阅读

AI前沿快讯 | 智能体与具身智能引爆2026年4月22日

今日AI领域迎来OpenAI图像生成技术革新、国务院推行智能体采购、特斯拉启动AI5流片、具身智能落地家庭、各地政策密集出台,全面引爆行业!ChatGPT Images 2.0引入推理机制、智能体纳入政府集采、特斯拉机器人芯片问世、家用机器人即将入户、多地加码脑机与具身智能,行业正式步入智能体普及、家庭应用、政策强力驱动、算力大规模升级时代!今日核心脉络:AI图像生成模式迭代、智能体成为政府采购对象、具身智能走进家庭、国产算力版图扩张、全球芯片竞赛白热化,AI从单纯的技术创新全面转向政策落实、商业普及、物

2026-04-22 20:05:01  |  5 阅读

多模态大模型:内容创造与智能认知的融合应用

多模态大模型已经逐渐成为推动人机交互、信息理解和生成的重要力量。多模态大模型正以其强大的能力在多个领域展现出令人瞩目的应用前景。多模态内容生成多模态内容生成是指利用多模态大模型将一种或多种模态的数据(如文本、图像、音频、视频等)转化为另一种或多种模态的数据,或者融合多种模态的数据以生成新的、更丰富的信息表达。这种能力使得多模态大模型在多个领域中都能发挥重要作用。在图像生成领域,多模态大模型的应用尤为突出。给定一段描述性的文本,如一段风景、人物或事件的描述,模型能够生成与之匹配的图像。这一过程中,模型不仅需

2026-04-22 18:11:17  |  5 阅读

OpenAI图像2.0震撼发布!首个具备思考能力的视觉模型

今日凌晨,OpenAI正式推出了其首个具备思考能力的文本到图像生成模型ChatGPTImages2.0。熟悉AI绘画的朋友们可能都经历过这样的困扰:为了绘制一张细节丰富的图片,需要输入大量的提示词,但最终生成的图像往往文字扭曲、物体比例失调,在多语言设计方面更是表现不佳。即便勉强可用,也常常需要花费大量时间进行后期修正。此次的2.0版本针对这些长期存在的问题逐一进行了改进,尤其在连续图像生成和中文理解能力方面表现突出。内置思考模式,一键生成8张连贯图像这是2.0版本最为核心的重大升级。开启思考模式后,用户

2026-04-22 06:17:48  |  5 阅读

AI行业观察:人形机器人双雄争霸,DeepSeek融资突破,七大热点看懂未来走向

今日焦点:AI领域热闹非凡,具身智能两大巨头路线之争激烈,大模型公司融资与技术取得新突破,同时AI伦理、学术评审、图像生成等领域也涌现出多项新动态,全方位揭示了AI行业技术演进与现实的碰撞。导读一方重规模化盈利,一方重生态构建,人形机器人领域的首场较量已拉开帷幕?宇树科技递交科创板招股书,数据显示2025年营收17.08亿元,净利润6亿元,人形机器人销量超5500台,毛利率62.9%,凭借自研电机减速器率先实现盈利,成为业内首个盈利的厂商。智元机器人同期宣布2025年营收10.5亿元,目标2030年营收千

2026-04-19 11:58:33  |  7 阅读

AI日报:2026年4月11日行业速览

本期日报重点关注AI赛道的三大核心方向:编程工具、图像生成工具与视频生成工具,持续跟进每日行业新变化。核心要点:市场影响分析:核心要点:市场影响分析:核心要点:市场影响分析:核心要点:市场影响分析:当前暂无重要更新核心要点:市场影响分析:核心要点:市场影响分析:核心要点:市场影响分析:2026年4月,AI行业正处于深度调整与升级阶段:编程工具正由“代码补齐”迈向“全流程自主智能体”;视频生成领域则进入架构效率竞争的新阶段——HappyHorse-1.0 采用 15B 参数的一体化 Transformer

2026-04-11 16:05:02  |  7 阅读