推理训练_标签-酷阅新闻

AI+DB 资讯速递 · 2026-05-16

AI+DB 资讯速递 2026年05月16日 · AI+DB 资讯速递 19 条2026年05月16日 · AI+DB 资讯速递 19 条1.SU-01 模型问鼎国际奥赛金牌：30B-A3B 推理架构采用统一扩展策略攻克难题上海AI Lab等团队推出SU-01模型，运用逆困惑度课程SFT结合双阶段强化学习(验证奖励→证明级RL)及推理时扩展技术，在30B-A3B基座上通过34万条轨迹与200步RL训练达成IMO 2025/USAMO 2026/IPhO 2024/2025金牌级别表现，推理链条可超10万

2026-05-16 14:19:31 | 26 阅读

Pramana：借助印度古逻辑让LLM实现更扎实推理

AI Paper Daily｜ 🔥 论文速递Pramana：借助2500年传承的印度逻辑，让LLM学会“真正地思考”📄 论文信息论文：Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya作者：Sharath Sathish（英国约克大学）发布时间：2026年4月8日（arXiv）arXiv：2604.04937🎯 核心概述当AI碰上东方思想！约克大学研究团队引入拥有2500年历史的印度N

2026-04-10 12:47:33 | 24 阅读