标签

AI画面为何总显散乱?先掌握这8种电影构图技巧

许多人在制作AI图像或AI视频时,往往将提示词的重点放在人物、风格、光线和画质等方面:“电影感、超清、精致、赛博朋克、柔和光线、浅景深”但画面仍然容易显得松散。根本原因在于:风格决定画面质感,构图决定画面语言。同一个人物、同一个场景,采用三分法构图会显得自然、有空间感;采用中心构图会变得强势、仪式化;采用留白构图,孤独感会被放大;采用对角线构图,画面瞬间变得不稳定、充满冲突。因此,AI创作不能仅仅写“好看的画面”,还要明确“画面如何组织”。构图并非简单地把主体放进画面。构图语言要解决三个核心问题:观众首先

2026-06-04 10:00:11  |  2 阅读
越疆科技推出空弈DobotWAM具身大模型 LIBERO评测99.25%成功率夺冠

越疆科技推出空弈DobotWAM具身大模型 LIBERO评测99.25%成功率夺冠

新浪科技讯 6月1日下午消息,深圳具身智能企业越疆发布自研世界动作模型空弈DobotWAM具身大模型,该模型在具身智能标准评测基准LIBERO上分别完成LIBERO-Spatial、LIBERO-Object、LIBERO-Goal和LIBERO-10四个标准任务套件,覆盖空间关系理解、物体泛化、目标指令理解以及长时序任务执行等关键能力维度,平均成功率达99.25%,领先于π0.5、π0、GR00T-N1.5、π0+FAST等公开模型,以及业内已有数据公布的其他模型。 其中,空弈DobotWAM具身大模型

2026-06-01 18:21:14  |  4 阅读

CVPR 2026 医学影像AI新风向:从图像识别迈向科研流程自动化

过去很长一段时间,医学AI领域都在探索一个核心问题:算法能否比人类医生看得更精准?因此,大量研究聚焦于病灶检测、器官分割、影像归类和报告撰写等任务,目标是在标准评测集上刷出更高的性能指标。但现在,这个问题已经不再足够。真实的医学与生命科学研究场景并非一个整洁、统一、标注完善的基准测试环境,而是由各式设备、不同协议、参差不齐的数据质量、多样的研究目标和专业背景共同构成的复杂生态。于是,研究重心开始转变。一个模型的价值不再仅仅取决于它在某个数据集上的评分,而在于它能否在新实验室的数据上迅速适应,能否仅用少量标

2026-05-27 10:20:31  |  3 阅读

AI绘图不再碰运气:掌握视觉语言核心,让创作有的放矢

大家好,我是梅姐AI学习营。最近一直在体验各类AI 图像工具,比如豆包、即梦、文心一格、Midjourney等用得越久我越发现一个有趣的现象很多人刚上手 AI 图像工具,第一反应就是到处找提示词模板。好像有了模板就能解决所有问题。但是真正的高手,从来不依赖于模板。他们手中掌握的是一套可复用的创作方法论今天我想和大家聊聊,AI图像创作的底层逻辑到底是什么。一、跳出"提示词依赖症"AI 图像工具虽然在快速进化,但是有些东西是不会变的。比如说,我们对美的追求、对内容的思考、对用户的理解,始终没变

2026-05-21 23:11:42  |  6 阅读

中文操控 AI 展现战略优势,清华研究揭示工程新视角

无论是优化飞机机翼还是进行各类工程设计,人工智能(AI)究竟该听中文还是英文?清华大学航天航空学院陈海昕教授团队的最新成果为此提供了答案。据《南华早报》披露,这项于 4 月底被《航空学报》收录的研究指出,相比英文指令,中文在特定情境下表现更佳,尽管目前这种优势还不够显著。报道指出,该团队构建了一个高性能智能体,并选取超临界翼型减阻作为测试案例,展开了深入实验。据悉,这是一种基于视觉语言模型(VLM)的知识驱动型气动设计智能体框架。它通过融合气动学专业知识与历史设计数据,引导 VLM 综合理解并推理翼型几何

2026-05-19 22:30:38  |  3 阅读

模速×追梦 AI 开放麦:揭秘视觉语言模型的注意力迷失

模速 × 追梦 AI网络直播视觉语言模型在注意力机制里的迷失之谜本次直播将深入探讨视觉语言模型(LVLM)面临的关键瓶颈——为何高性能模型会在注意力机制中“迷失方向”?奚工理将进行全方位解析,从注意力余诊断入手,搭建统一的解释架构,并展望多模态模型的未来演进路线。1直播亮点LVLM 的主要难点:跨模态对齐的现实困境注意力余诊断: pinpoint 模型“分心”的根源统一解释架构:重塑对注意力机制的认知未来走向:构建更高效、更具可解释性的多模态架构2直播详情受众群体:AI 科研人员、算法工程师、多模态行业专

2026-05-12 09:18:06  |  3 阅读

arXiv AI论文精选 2026-05-10

1. 人机交互新基准:AI智能体何时应主动求助? 原文标题: HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help? 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09408v1 当前前沿编码智能体虽能在信息完备时处理复杂任务,但在面对信息残缺或语义模糊的场景时往往失效。问题根源并非能力欠缺,而是判断力的缺失:无法准确识别应独立决策还是应寻求外部支持。现有评测体系对

2026-05-11 07:18:17  |  5 阅读

斯坦福3D大模型Merlin:AI读片写报告,精准预判风险

研究速览放射科医生资源短缺与CT扫描量持续攀升的矛盾愈发严峻,尤其腹部CT切片数量庞大,解读过程耗时费力。当前AI模型多局限于二维图像或简短文本,难以有效处理真实的临床三维CT数据。为此,斯坦福大学的研究团队开发了Merlin,一个专门针对腹部CT的三维视觉语言基础模型。Merlin的创新之处在于,它打破了传统“单一模态、单一任务”的局限,能够同时从海量的三维CT扫描、电子健康记录(EHR)诊断代码以及长篇放射学报告中进行联合学习。研究团队在一个A6000 GPU上,利用超过15000例CT数据完成了模型

2026-05-02 19:37:50  |  6 阅读

AI赋能眼科超声诊断|npj Digit. Med.(IF=15.1)浙大二院突破:病灶识别与报告生成一键搞定

研究速览眼科超声影像解析是视网膜脱离、玻璃体出血等眼底疾病诊断的核心环节,但长期以来需要资深专科医师亲自把关,不仅耗时而且对专业经验要求极高。随着超声检查数据呈爆发式增长,传统人工智能方案仅能完成疾病初筛,难以同步实现病灶精确定位与诊断报告自动撰写,临床应用价值受到明显制约。浙江大学医学院附属第二医院金凯研究团队携手多家医疗机构,在国际权威期刊《NPJ Digital Medicine》发布重磅成果,创新性地研发出视觉-语言分割模型——通过融合视觉-语言模型与Segment Anything Model技

2026-04-16 00:34:09  |  7 阅读
DeepSeek连续三日出现服务故障

DeepSeek连续三日出现服务故障

DeepSeek在过去三天里遭遇了服务异常。 3月31日17时,话题“DeepSeek崩溃”再次登上热搜。DeepSeek的官方网站显示,3月29日至31日期间,DeepSeek的服务出现了不同程度的问题,包括网页对话、应用程序和API等。这些问题分别持续了约1小时48分钟、10小时13分钟和1小时3分钟。根据官方状态页面的记录,三次故障均已解决,所有服务现已恢复正常。 据经济观察报报道,一位模型技术社区的负责人透露,自2026年2月以来,尽管经历了多个预期发布窗口,DeepSeek仍未正式推出V4版本。

2026-03-31 21:55:09  |  3 阅读