研究人员设计出减少计算机视觉数据集中偏差的方法-光电汇

研究人员设计出减少计算机视觉数据集中偏差的方法

2020-02-21

浏览量(145)

为了解决人工智能中的偏差问题，普林斯顿大学和斯坦福大学的计算机科学家已经开发出方法来获取包含人图像更准确的数据集。研究人员提出了对ImageNet的改进，ImageNet是一个包含1400万张图像的数据库，在过去十年中，它在推进计算机视觉方面发挥了关键作用。

为了解决人工智能方面的偏差问题，普林斯顿大学和斯坦福大学的计算机科学家提出了对ImageNet的改进建议，ImageNet是一个包含1400万张图像的数据库。研究人员开发了一种工具，使用户可以指定和按年龄、性别表达或肤色平衡检索的人图像集。上面的动画是该工具的概念性表示。

ImageNet包含物体、风景以及人物的图像，可作为培训数据的来源，供研究人员创建机器学习算法以对图像进行分类或识别其中的元素。ImageNet的规模空前，因此需要自动图像收集和众包图像注释。尽管研究团体很少使用数据库的人员类别，但ImageNet团队一直在努力解决偏差和其他有关图像的担忧，这些图像集所包含的图像是ImageNet构造的意外结果。普林斯顿大学计算机科学助理教授奥尔加·鲁萨科夫斯基（Olga Russakovsky）说：“计算机视觉现在真的很好用，这意味着它可以在各种环境中被部署到各处。”“这意味着现在是时候谈论它对世界产生什么样的影响并思考这些公平问题。”

在一份新论文中，ImageNet小组系统地识别了ImageNet人员类别中的非视觉概念和令人讨厌的类别，例如种族和性别特征，并建议将其从数据库中删除。研究人员还设计了一种工具，该工具允许用户指定和按年龄、性别表达或肤色平衡检索的人图像集，其目的是促进更公平地对人的面部和图像活动进行分类的算法。研究人员于1月30日在西班牙巴塞罗那举行的计算机协会关于公平性、问责制和透明度的会议上介绍了他们的工作。Russakovsky说：“非常需要具有核心技术专长的研究人员和实验室来进行此类对话。” “考虑到我们需要大规模收集数据这一现实，鉴于这将是最有效、最完善的渠道，因此将通过众包来完成，我们如何以一种更公平的方式做到这一点—那是不现实的。”会陷入这些先前的陷阱吗？”

普林斯顿大学和斯坦福大学的一组计算机科学家于2009年启动了ImageNet，作为学术研究人员和教育工作者的资源。领导这项工作的是普林斯顿校友和现任斯坦福大学计算机科学教授的李飞飞老师。为了鼓励研究人员使用ImageNet构建更好的计算机视觉算法，该团队还发起了ImageNet大规模视觉识别挑战赛。挑战主要集中在使用1,000个图像类别的物体识别上，其中只有三个具有特色。

ImageNet中的一些公平性问题源于用于构建数据库的管道。其图像类别来自WordNet，WordNet是用于自然语言处理研究的较旧的英语单词数据库。 ImageNet的创造者在WordNet中采用了这些名词-尽管其中的一些名词定义明确，但其中的一些名词并不能很好地转化为视觉词汇。例如，描述一个人的宗教信仰或地理起源的词可能只会检索到最有特色的图像搜索结果，从而有可能导致使刻板印象永久化的算法。

最近一个名为ImageNet Roulette的艺术项目引起了人们对这些问题的更多关注。该项目于2019年9月作为图像识别系统艺术展览的一部分发布，该项目使用ImageNet中的人物图像来训练一种人工智能模型，该人工智能模型根据提交的图像将人们按单词分类。用户可以上传自己的图像并根据此模型检索标签。

特别是Amazon Mechanical Turk（MTurk）平台，通过该平台，工人可以得到报酬来验证候选图像。这种方法虽然具有变革性，但并不完美，导致一些偏差和不适当的分类。“当您要求人们通过从大量候选人中选择正确的图像来验证图像时，人们会感到选择某些图像的压力很大，而这些图像往往是具有独特或刻板印象的图像，”主要作者杨开宇说。在这项研究中，Yang和同事首先从ImageNet过滤掉了可能令人反感或敏感的人类别。他们将攻击性类别定义为包含亵渎或种族或性别诽谤的类别；敏感类别包括，例如，基于性取向或宗教的人分类。为了注释类别，他们招募了来自不同背景的12名研究生，指示他们如果不确定是否将类别标记为敏感。这消除了1,593个类别，大约占ImageNet中2,932个人类别的54％。

然后，研究人员求助于MTurk工作人员，以1到5的等级对其余安全类别的“可成像性”进行评分。即使是经过高度筛选的类别集也包含超过133,000张图像-用于训练计算机视觉算法的大量示例。在这158个类别中，研究人员研究了图像中人物的人口统计学表征，以便评估ImageNet中的偏差程度，并设计出一种创建更公平数据集的方法。ImageNet的内容来自Flickr之类的图像搜索引擎，并且一般而言，搜索引擎显示出的结果代表了18岁至40岁之间的男性，肤色较浅的人和成年人。“人们发现图像搜索结果中的人口统计信息分布高度偏向，这就是ImageNet分布也偏向的原因，” Yang说。 “在本文中，我们试图了解这种偏差有多严重，并提出一种平衡分配的方法。”

在受美国反歧视法律保护的属性中，研究人员考虑了可成像的三个属性：肤色，性别表达和年龄。 MTurk的工作人员被要求在图像中注释每个人的每个属性。他们将肤色分类为浅色，中度或深色。和年龄（儿童（18岁以下），18至40岁的成年人，40至65岁的中年人或65岁以上的老年人）。性别分类包括男性，女性和不确定者-一种将具有不同性别表达方式的人包括在内的方法，并在其中注释性别从视觉线索（例如婴儿或潜水员的许多图像）中看不到。

对注释的分析表明，与搜索结果类似，ImageNet的内容反映出相当大的偏差。注释为深色皮肤的人，女性和40岁以上的成年人在大多数类别中的人数均不足。尽管注释过程包括质量控制并要求注释者达成共识，但出于对错误注释潜在危害的担忧，研究人员选择不对单个图像发布人口统计注释。取而代之的是，他们设计了一个Web界面工具，该工具允许用户获取一组以用户指定的方式进行人口统计平衡的图像。例如，“程序员”类别中的全部图像集合可能包括大约90％的男性和10％的女性，而在美国，大约20％的计算机程序员是女性。研究人员可以使用新工具检索一组程序员图像，这些图像分别代表80％的男性和20％的女性-甚至根据研究者的目的进行分割。

杨说：“我们不想说什么是平衡人口统计的正确方法，因为这不是一个非常简单的问题。”“分布在世界各地可能有所不同。例如，美国的肤色分布与亚洲国家的肤色分布不同。因此，我们将这个问题留给用户，我们只提供一种工具来检索图像的平衡子集。”ImageNet团队目前正在对其硬件和数据库进行技术更新，此外还实施了对人员类别的过滤和本研究中开发的再平衡工具。 ImageNet即将通过这些更新重新发布，并呼吁计算机视觉研究界提供反馈。普林斯顿大学博士学生Klint Qinami和计算机科学助理教授Jia Deng与Yang，Li和Russakovsky共同撰写了该论文。该研究得到了美国国家科学基金会的支持。

微信分享

用微信扫描二维码
分享至好友和朋友圈

免责声明：

网站内容来源于互联网、原创，由网络编辑负责审查，目的在于传递信息，提供专业服务，不代表本网站及新媒体平台赞同其观点和对其真实性负责。如因内容、版权问题存在异议的，请在 20个工作日内与我们取得联系，联系方式：021-80198330。网站及新媒体平台将加强监控与审核，一旦发现违反规定的内容，按国家法规处理，处理时间不超过24小时。

上一条：中国科大提出扫描拉曼埃分辨显微术下一条：由新加坡南大和利兹大学的科学家开发的第一台电动“拓扑”激光器

吐槽类型：

吐槽内容：

联系人：

电话：

邮箱：

您好！欢迎来到光电汇！

开启掌上采购新时代

开启掌上销售新时代

移动端快捷入口