ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练(鸡生蛋还是蛋生鸡是悖论吗)

AIGC动态欢迎阅读

原标题:ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型

训练

关键字:数据,模型,对比,强度,样本

文章来源:机器之心

内容字数:7733字

内容摘要:

机器之心专栏

机器之心编辑部随着生成模型(如ChatGPT

、扩散模型)飞速发展,一方面,生成数据质量越来越高,到了以假乱真的程度;另一方面,随着模型越来越大,也使得人类世界的真实数据即将枯竭。

面对这一处境,一个近期的研究热度是,能否利用生成模型生成的假数据来辅助学习?学界对此也产生了许多争论:到底是可以左脚踩右脚(bootsrap)地实现 weak-to-strong 的不断提升,还是像鸡生蛋、蛋生鸡一样,只不过是徒劳无功?

在近期 ICLR 2024 工作中,北大王奕森团队针对这一「数据扩充」(Data Inflation)问题展开了深入研究。

他们针对对比学习(如 SimCLR、DINO、CLIP)这一常见的自监督学习场景,从理论和实验两方面分析了生成数据对于表示学习能力的影响。为了控制变量,他们保证生成模型和表示学习都只能使用同一个(无监督)真实数据集进行训练,避免了扩充数据本身带来的收益。论文题目:Do Generated Data Always Help Contrastive Learning?

论文地址:https://arxiv.org/abs/2403.12448

原文链接:ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?