AI应用论文精选|数据密集场景下代码智能体的能力边界评估
2026年06月17日星期三CODA-BENCH: 代码智能体能否应对数据密集型任务?🤗 11现有评估体系将代码能力与数据处理能力分开考量,与实际开发环境存在显著差异。本文推出首个在数据密集型环境中综合评估代码与数据智能的基准测试CODA-BENCH。它基于Kaggle平台构建Linux沙箱环境,包含1,009个任务案例,每个环境平均配置980个文件,重现真实数据规模与噪声特征。评估结果显示,即使是最先进的智能体也难以高效融合数据发现与代码执行,成功率仅为61.1%,揭示了当前智能体在数据密集型任务处理方