何恺明刘壮新作：消除数据集偏差的十年之战（何恺明团队）

原标题：何恺明刘壮新作：消除数据集偏差

的十年之战

关键字：数据,腾讯,神经网络,偏差,准确率

文章来源：量子位

内容字数：3937字

编辑部发自凹非寺量子位 | 公众号 QbitAIMIT新晋副教授何恺明，新作新鲜出炉：

瞄准一个横亘在AI发展之路上十年之久的问题：数据集偏差。

该研究为何恺明在Meta期间与刘壮合作完成，他们在论文中指出：

尽管过去十多年里业界为构建更大、更多样化、更全面、偏差更小的数据集做了很多努力，但现代神经网络似乎越来越善于”识破”并利用这些数据集中潜藏的偏差。

这不禁让人怀疑：我们在消除数据集偏差的战斗中，真的取得了胜利吗？

数据集偏差之战，在2011年由知名学者Antonio Torralba和Alyosha Efros提出——

Alyosha Efros正是Sora两位一作博士小哥（Tim Brooks和William Peebles）的博士导师，而Antonio Torralba也在本科期间指导过Peebles。

当时他们发现，机器学习模型很容易“过拟合”到特定的数据集上，导致在其他数据集上表现不佳。

十多年过去了，尽管我们有了更大、更多样化的数据集，如ImageNet、YFCC100M、CC12M等，但这个问题似乎并没有得到根本解决。

反而，随着神经网络变得越来越强大，它们“挖掘

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破