设为首页 - 加入收藏 华夏网 ()- 云主机,资讯,互联网,人工智能,云计算,大赢家论坛,区块链,VR,站长网!
热搜: 系统 删除 2019
当前位置: 主页 > 王中王论坛 > 正文

MIT再推出有名数据集ImageNet存在系统性Bug,祸端还是WordNet

发布时间:2021-06-05 05:01 所属栏目:[王中王论坛] 来源:互联网
导读:惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet 麻省理工研究团队之所以在ICML大会上介绍这项研究,是因为近期陷入的Tiny Images争议事

惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet

麻省理工研究团队之所以在ICML大会上介绍这项研究,是因为近期陷入的“Tiny Images”争议事件。

就在本月初,麻省理工学院(MIT)宣布永久删除了包含8000万张图像的Tiny Images数据集,并公开表示歉意。其原因是,有关研究人员发表了一篇论文指控Tiny ImageNet数据集存在多项危险标签,包括种族歧视、性别歧视、色情内容等,而且指控有理有据。

论文中表明,ImageNet在语义结构分析上,使用的WordNet名词,它包含了种族歧视等危险内容,同时,由于图像过小,数据量过大,并未手动对图像标签进行逐一核对,由此导致了问题的出现。

众所周知,知名数据集ImageNet也使用了WordNet用于语义结构分析,那么,ImageNet数据集是否也存在同样的问题?对此,麻省理工研究团队给出了答案。

ImageNet基准测试与实际不符

大规模ImageNet数据集的出现,可以说意味着机器学习深度变革的一个新起点。2009年,李飞飞领衔的研究团队在计算机视觉与识别模式大会(CVPR)上首次推出ImageNet,ImageNet数据集包含10000个分类,超过一百万个图像,数据量之大是此从未有过的。

正是因数据量大、质量高,ImageNet数据集被广泛用于预训练和基准测试。但是,麻省理工研究团队在最近的研究中却指出:

ImageNet存在明显的“系统标注问题”,导致其用作基准数据集时与实际情况并不一致。

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

网友评论
推荐文章