斯坦福团队发布亿级图片数据集 免费商用能否改变AI生图格局
美国斯坦福大学李飞飞、吴佳俊研究团队近日正式推出了一款名为 GPIC 的图像数据集,其中收录了高达一亿张图片素材,总像素数逼近 28 万亿级别。每张图片都附带详尽的文字注释,形式从简短的关键词到五六句话的段落描述均有涵盖。
该数据集的核心亮点在于全部图片均开放商业和研究用途,使用者无需担忧任何版权纠纷。同时,团队还制定了一套标准化的评估方案,便于各大企业的人工智能模型在同一条件下展开图像生成能力的较量。
GPIC 有效破解了 AI 图像生成领域长期存在的两大困境:
首先解决了版权隐患,此前各大企业在模型训练阶段所使用的图像素材来源模糊,多次陷入法律纠纷。而 GPIC 中的每张图片都具备明确的授权协议,完全满足商业化应用需求;
其次消除了复现障碍,以往许多数据集仅提供原始链接,久而久之便会失效,导致其他研究者无法重现实验结果。GPIC 采用压缩包形式存储于 Hugging Face 平台,确保每次下载的内容完全一致。
这意味着无论是智能手机端的图像编辑应用、游戏开发中的场景构建工具,还是影视制作里的特效渲染系统都将受益于更加智能的 AI 图像生成技术。模型训练需要海量图像素材,传统做法是在互联网上广泛采集,但其中大量内容受版权保护,使用风险较高。
对于依赖图像数据的研究人员而言,不同数据集采用的评估标准各异,导致各模型自报成绩时难以进行客观公正的横向对比。
李飞飞团队此次专门构建了一套完整的解决方案,从 Flickr 和 Wikimedia 两个平台共计采集超过 1.1 亿张原始图片,并严格筛选其中标注可商业用途的作品。采集到的图片并不能直接投入应用,部分图片分辨率过低导致模糊,部分几乎为空白画面,还有些内容不适合使用。
为此,团队调用 Qwen3 VL 4B 模型实施自动化筛选,将质量低劣或存在安全隐患的图片排除在外,淘汰率约在百分之一左右。剩余的一亿张图片中仍存在大量重复内容,包括连拍照片、已广泛传播的转载照片以及经过修改的版本,这些都需要进行去重处理。
团队采用名为 SSCD 的复制检测技术,为每张图片生成唯一的特征标识,对于高度相似的图片仅保留其中一张。经过这整套处理流程后,最终得到纯净可用的数据集。
图片准备就绪后,下一步便是添加文字描述。同一张图片可以采用多种不同的描述角度。针对同一画面,李飞飞团队设计了四种描述层次。
第一种是标签式,通过几个关键词对图片进行标注,便于快速检索定位。
第二种是简述式,用一两句话概括核心内容,便于普通用户快速理解。
第三种是详述式,用两三句话描述细节信息和空间布局关系。
第四种是全述式,用五到七句话将背景环境、物体位置、文字信息等全部交代清楚。
团队累计为一亿张图片添加了描述文字,其中简述式和详述式各占百分之四十五,标签式占百分之之一,全述式占百分之九。面对如此庞大的工作量,显然无法依赖人工完成。团队使用 Qwen3 VL 4B 模型进行批量生成,整个处理过程动用了约 500 张 H100 显卡,耗时一个多月。
为评估 AI 生成描述的质量,团队随机抽取了 1520 张图片,由人工重新撰写描述内容,随后将 AI 版本与人工版本进行对照分析。
评估维度涵盖五个方面:整体概括的准确性、数量描述的精确性、空间关系的清晰度、颜色材质等属性的绑定正确性,以及图片中文字的识别准确率。
测试结果表明 Qwen3 VL 4B 模型在处理速度和准确率之间实现了最优平衡,相比参数量更大的 Qwen3 VL 30B 模型,处理速度差距并不明显,但生成质量十分接近。
为充分发挥该数据集的价值,团队设计了一套完整的评估框架,将一亿张图片划分为三个部分:绝大部分用于模型训练,20 万张用于参数调优,100 万张作为基准测试集。在训练 AI 图像生成模型时,仅允许使用 100 万张测试集中随机抽取的 5 万条描述来生成图像,随后与 100 万张真实图片进行比对,评估各模型的生成效果。
采用的评估指标为 FD DINOv2,该指标利用 DINOv2 视觉模型提取图片特征,随后计算生成图片与真实图片之间的统计距离。
团队还训练了一个基准参考模型,采用 JiT 架构,这是一款直接在像素空间进行流匹配的模型,拥有 1.1 亿参数。在 GPIC 数据集上完成一个训练周期约需 40 小时,使用 8 张 H100 显卡。最佳结果的 FD DINOv2 得分为 76.25,该分数并不算高,但从论文来看,团队的目标并非追求高分,而是为后续研究者提供一个可参考的基准线。该论文的第一作者为李飞飞团队的博士生 Keshigeyan Chandrasegaran。
对于 AI 图像生成领域而言,GPIC 如同提供了一本权威教材,不仅免费、开源、标准统一,还配套了完整的评估体系,有望为 AI 企业创造一个公平竞争的环境。