OpenAI:评价体系成AI“胡编”诱因 | Nature
大语言模型常会输出自信且看似合理的谬误(即“幻觉”),这严重制约了模型的可靠性。尽管学界已提出多种解释及缓解手段,如检索增强、一致性自验证和基于人类反馈的强化学习等,但在最先进的模型中,这一问题依然难以根除。为何模型明明不懂,却总爱一本正经地胡乱作答?OpenAI近期在《Nature》发表文章,指出核心原因:问题并非仅限于模型能力不足或数据存在噪声,而是当前主流的训练目标(预测下一词)和评估方式(基于准确率),在无形中系统性鼓励了毫无根据的“瞎猜”。这可细分为两个层面:一是预训练阶段。只要核心目标仍是“预
AI辅助手术器械识别研究:IF 3.7的《多模态人工智能》应用
这是文献阅读选题思路的第202篇文章。该文献标题为《Use of Multimodal Artificial Intelligence in Surgical Instrument Recognition》/《多模态人工智能在手术器械识别中的应用》,发表于2025年的《Bioengineering》,影响因子为3.7。研究测试了ChatGPT-4、ChatGPT-4o、Gemini三种通用大模型以及专业软件SID 2.0对手术器械的识别能力。结果指出,ChatGPT-4o在器械大类识别上表现最佳(准确率8
手机咳嗽声可辨7种肺病!瑞金医院AI模型准确率达96%
咳嗽,几乎是每个人都经历过的症状。感冒会咳,过敏会咳,慢阻肺、哮喘、支气管炎也会咳。但同样是咳嗽,不同疾病发出的“声音”其实存在微妙差异。过去,医生通过听诊器判断肺部问题,靠的是多年临床经验。如今,人工智能正在尝试“听懂”咳嗽背后的疾病信号。2026年2月,上海交通大学医学院附属瑞金医院瞿介明教授、周敏教授团队在国际知名学术期刊《npj Digital Medicine》(影响因子15.1,JCR Q1区)在线发表了一项重要研究成果“A device-invariant multi-modal learn
AI医疗初具规模,部分疾病快速诊断,准确率超95%
AI医疗助手在特定领域已相当可靠,但目前无法完全取代人类医生的全面判断。目前,AI在分析医学影像、辅助诊断和数据处理方面表现出色,一些系统的准确率超过95%。甚至在复杂病例的初步诊断中,AI的准确率是人类医生的数倍。例如,浙江大学的AI病理助手能在1到3秒内锁定癌症病灶,准确率超过95%。然而,AI的可靠性受到输入信息完整性和临床推理能力的限制。哈佛医学院的最新研究表明,AI在“鉴别诊断”阶段表现不佳,超过80%的病例未能将正确的诊断列入初步名单。这意味着,当患者仅提供模糊症状时,AI很容易误诊,其建议只
AI赋能眼科超声诊断|npj Digit. Med.(IF=15.1)浙大二院突破:病灶识别与报告生成一键搞定
研究速览眼科超声影像解析是视网膜脱离、玻璃体出血等眼底疾病诊断的核心环节,但长期以来需要资深专科医师亲自把关,不仅耗时而且对专业经验要求极高。随着超声检查数据呈爆发式增长,传统人工智能方案仅能完成疾病初筛,难以同步实现病灶精确定位与诊断报告自动撰写,临床应用价值受到明显制约。浙江大学医学院附属第二医院金凯研究团队携手多家医疗机构,在国际权威期刊《NPJ Digital Medicine》发布重磅成果,创新性地研发出视觉-语言分割模型——通过融合视觉-语言模型与Segment Anything Model技
AI赋能核电:文件密级智能识别系统应用实践
点击右上角关注我们1. 项目背景本项目依托YOLOv8目标检测算法,融合集成学习与OCR技术,搭建了一套端到端的核电文件密级标识智能识别体系。借助人工智能技术的革新,系统能够精准识别并定位文件中的加密章、解密章等密级标记,涵盖多种背景与尺寸的印章变化,大幅提升了密级标识识别的精准度与效率,削减了人工审核开支,为核电行业的文档安全管理提供了坚实的技术保障。2. 典型应用场景核电文档密级管控:该案例服务于核电工程管理中各类文档的密级标识自动识别与管控,同样适用于需要对印章类内容进行识别与管理的业务场景。3.
国产多模态大模型星河V3开源发布
🎉 国内最新科研成果!2026年4月4日,中国科学院自动化研究所与多家高校合作开发的国产多模态大模型‘星河V3’正式开源上线。不同于以往仅限于文本或静态图像处理的AI系统,星河V3实现了对实时视频流的端到端语义解析,能够处理1080P@30fps的视频流,延迟低于80ms,并且在主要测试数据集上的准确率超过了GPT-4.5 Vision 2.3个百分点。✨ 实用功能三大亮点,立即可用:免费商用级API(日调用量不超过5000次无需授权)、提供Python/JS轻量级SDK,10分钟即可集成到小程序或物联网