AI前沿速递:可解释原型模型突破
📊 本次任务消耗Token统计:总消耗 44,968 tokens,其中输入35,214 tokens,输出9,754 tokens 涵盖近2天AI领域最新学术论文、热门开源项目、行业动态资讯,每日更新。摘要:哈佛大学团队提出PRISM(Prototypes for Interpretable Sequence Modeling)架构,通过稀疏非负的学习原型混合生成每个预测,聚类训练目标将每个原型锚定到连贯的训练数据邻域。在130M到1.6B参数规模、50B tokens训练量下,原型语言模型性能超过或与