李飞飞造了ImageNet,此刻她又带人超过了它
编纂|Panda
2012 年,AlexNet 在 ImageNet 较量上以压倒性的优势拿下第一,正式开启深度进建时期。尔后十余年,ImageNet 成为推算机视觉钻研的「尺度科场」:无论是 VGG、ResNet,还是 ViT,钻研者们都在这统一张卷子上比拼,看谁的模型精度更高。
但这张卷子,如今已经没有评分的意思了。
今年,一批顶尖论文相继宣告:它们在 ImageNet 上的天生质量评分(FID),已经低于真实图片自身的评分。也就是说,天生的假图片,在统计上比真图片「更像真图片」。卷子刷穿了,分数失真了,这个沿用十年的基准彻底鼓和。
基准鼓和意味着什么?单一来说:你不再能通过度数判断一个天生模型是真的好,还是在「投契取巧」地优化指标?蒲Ь赫,必要一把新的尺子。
就在前两天,斯坦福大学等机构颁布了一个名为GPIC(Giant Permissive Image Corpus,巨型盛开图像语料库)的数据集。
项目共一作者 Keshigeyan Chandrasegaran 的推文
该项目由李飞飞团队主导构建,主题贡献者为 Keshigeyan Chandrasegaran 和 Kyle Sargen,蕴含整整1 亿对图像-文本数据,总计约28 万亿像素,并已全量托管在 Hugging Face 上,任何人都能够免费下载使用。
旧规定失灵了
要理解 GPIC 为什么重要,先要理解当前的视觉天生钻研面对哪些困境。钻研者们在使用已罕见据集时,遭逢了三个相互叠加的麻烦。
第一个麻烦:旧基准 ImageNet 已经对不上现实
今天的图像天生模型,训练用的是数亿张带有天然说话描述的图片,天生时也靠文字提醒词驱动。而 ImageNet 是一个以「分类标签」为主题的数据集,它对应的是另一个时期的钻研范式。拿一张用文字提醒天生的图片,去和一个以标签分类为指标设计的数据集做比力,性质上是「用语文考卷评数学成就」。
第二个麻烦:大无数工业级数据集不合表盛开
Stable Diffusion、Midjourney、Sora 这些一线产品背后,训练数据要么是贸易机密,要么涉及版权纠纷,从未公开。学术界要复现、比力、改进这些模型,险些无从下手。
第三个麻烦:即便有盛开数据集,也不不变
目前学界常用的盛开数据集(如 LAION、DataComp),普遍选取「URL 索引」的方式分发——也就是说,钻研者下载到的,其实是一份图片网址清单,还得自己去抓取原始图片。随着功夫推移,大量链接失效,分歧钻研团队最终用到的「统一个数据集」其实已经天壤之别,尝试了局天然无法靠得住比力。
GPIC 的设计,正是针对这三重失灵逐一作答。
论文标题:GPIC: A Giant Permissive Image Corpus for Visual Generation论文地址:https://arxiv.org/abs/2605.30341项目地址:https://gpic.stanford.edu/
来自 ImageNet 作者的交班人之作
构建 GPIC 的团队,来自斯坦福大学,蕴含李飞飞、吴佳俊以及他们的多位学生。
李飞飞是「ImageNet 时期」的缔造者之一。2009 年,她主导颁布了初版 ImageNet,后出处此衍生出 ILSVRC 视觉鉴别挑战赛,催生了 AlexNet 等一系列里程碑式工作,被宽泛以为是深度进建革命的重要推手之一;她也因而还被《时期》杂志和 BBC 等很多媒体称为是 AI 的教母(Godmother of AI)。
图源:Time 官网
她如今是斯坦福人为智能尝试室(SAIL)的结合主任,同时也是 3D 空间智能公司 World Labs 的首创人。
这一次,她携带团队打造的是视觉天生时期的「新 ImageNet」。
GPIC 是什么,怎么做出来的
GPIC 的构建,经过了四个严格的流程阶段。
只采集有授权的图片
钻研团队仅从 Flickr 和 Wikimedia 两个平台网络图片,并严格限造在 CC BY、CC0、公有领域和无已知限度这四类授权领域内。这意味着 GPIC 里的每一张图片,都有明确的司法凭据,既可用于学术钻研,也可用于贸易产品开发,无需不安版权风险。初始网络到的图片约 1.1 亿张,其中 87.7% 来自 Flickr,12.3% 来自 Wikimedia。
过滤低质量与有害内容
钻研团队借助视觉说话模型 Qwen3-VL-4B,自动鉴别并移除分辨率过低、严重吞吐、过曝、近乎空缺,以及被判定为不安全的图片。这两类过滤别离裁减了约 0.3% 和 0.35% 的图片——比例看起来很幼,但在亿级规模下,这意味着筛掉了数十万张问题图片。
第三步:去重
互联网图片有大量的「反复」景象,蕴含统一场景的连拍、被转发的表情包、略有分歧的翻疆域。钻研团队使用了一种名为 SSCD 的图片复造检测模型,推算每两张图片之间的特点类似度,并通过「守旧去重」战术删除高相信度反复项。最终,约 101.3 万张图片留下,其中不含任何齐全一样的副本。
第四步:天生高质量描述文字
传统图片数据集的文字描述(如 alt text)质量往往很差,充溢着「photo.jpg」「未定名」之类无意思的标注。GPIC 则对每一张图片,都用 Qwen3-VL-4B 重新天生炼质量的人为智能描述,且描述依照「标签」「短」「钟坠「长」四种粒度散布。天生 1 亿张图片的描述,共亏损约 1500 个 H100 GPU·幼时。
最终的 GPIC,蕴含 1 亿张训练图片、20 万张验证图片和 100 万张测试图片,总体积约 12.9 TB,整顿成 8000 个吩飕(shard),能够直接流式传输用于大规模散布式训练。
数据集之表,GPIC 还附带了一套新的评估和谈,这同样是这次颁布的重要贡献。
旧的评估指标 FID(Fréchet Inception Distance)依赖一个 2015 年的图像分类网络 Inception-v3 来提取图片特点。这个网络从未为「评估天生质量」而设计,它的特点空间和人类对图像质量的感知存在显著的脱节,导致 FID 评分容易被「刷榜」——模型能够在不真正提升感知质量的情况降落低 FID 数值。
GPIC 的新基准选取FD-DINOv2作为重要指标。
DINOv2 是 Meta 于 2023 年颁布的自监督视觉特点模型,其特点暗示与人类对图像类似性的判断更为一致。
钻研者们验证发现:目前所有主流天生模型(蕴含那些用了 DINOv2 特点训练的模型),在 FD-DINOv2 上的分数依然高于真实图片,注明这把尺子还有足够的「余量」,不会很快被刷穿。
更重要的一点改进是:GPIC 的基准评分是与一个 独立的百万张测试集 进行比力,而不是和训练集比力。这个设计预防了一个严重的缝隙——若是拿天生图片和训练集比力,模型只需「记住」训练数据就能获得好分数,而无法反映真正的泛化能力。
给将来的钻研者:参考基线
为了方便后来者对齐尝试了局,钻研团队还在 GPIC-Full(1 亿张训练集)上训练了一个参考基线模型。
这个基线使用了JiT(Just image Transformers)流匹配架构,搭配 1.1B 参数的 Transformer 骨干网络,以 256×256 分辨率在单节点 8 张 H100 上训练约 40 幼时(约一个 epoch)。最终,在最优的疏导强度(CFG=6.25)下,基线模型的 FD-DINOv2 评分为 76.25。这个数字并不杰出,但它的价值在于:所有钻研者都能够以此为起点,平正地比力各自的改进成效。
钻研团队还提供了三个分歧规模的训练集版本:GPIC-Nano(100 万张)、GPIC-Lite(1000 万张)和 GPIC-Full(1 亿张),方便资源有限的团队在幼规模上迭代,有足够算力的团队再在齐全数据集上验证。
一个盛开基础设施的意思
视觉天生领域在经历一场「军备较量」。Sora、Imagen、Stable Diffusion 3……前沿模型的能力每隔几个月就会跃升一级。但这场较量,在相当水平上是不通明的:每个尝试室都在自己的数据上训练,用自己的指标评估,颁布时只遴选对自己有利的数字汇报。
公开、可复现的基准,是科学进取的基础。学界在 NLP 领域已经为此支出了多年致力,逐步成立起了 GLUE、SuperGLUE、BIG-bench 等相对尺度化的评测系统。视觉天生,迟迟短缺这样的基础。
GPIC 的颁布是一次为这个领域补课的尝试,是为了让整个领域有一个共同的起跑线。正如李飞飞团队在论文中所写的:「我们但愿 GPIC 可能推动视觉天生建模领域公开、可及、可复现的钻研。」
文章点评
未查问到任何数据!
颁发评论
◎迎接参加会商,请在这里颁发您的见解、互换您的概想。