ICLR 2024 | 鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练（鸡生蛋还是蛋生鸡是悖论吗）

AIGC动态欢迎阅读

原标题：ICLR 2024 | 鸡生蛋蛋生鸡？再论生成数据能否帮助模型

训练

关键字：数据,模型,对比,强度,样本

文章来源：机器之心

内容字数：7733字

内容摘要：

机器之心专栏

机器之心编辑部随着生成模型（如ChatGPT

、扩散模型）飞速发展，一方面，生成数据质量越来越高，到了以假乱真的程度；另一方面，随着模型越来越大，也使得人类世界的真实数据即将枯竭。

面对这一处境，一个近期的研究热度是，能否利用生成模型生成的假数据来辅助学习？学界对此也产生了许多争论：到底是可以左脚踩右脚（bootsrap）地实现 weak-to-strong 的不断提升，还是像鸡生蛋、蛋生鸡一样，只不过是徒劳无功？

在近期 ICLR 2024 工作中，北大王奕森团队针对这一「数据扩充」（Data Inflation）问题展开了深入研究。

他们针对对比学习（如 SimCLR、DINO、CLIP）这一常见的自监督学习场景，从理论和实验两方面分析了生成数据对于表示学习能力的影响。为了控制变量，他们保证生成模型和表示学习都只能使用同一个（无监督）真实数据集进行训练，避免了扩充数据本身带来的收益。论文题目：Do Generated Data Always Help Contrastive Learning？

论文地址：https://arxiv.org/abs/2403.12448

原文链接：ICLR 2024 | 鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练