本文发自venturebeat,原题为“3 big problems with datasets in AI and machine learning”,作者Kyle Wiggers,经朋湖网作者王姿蝶编译整理,供业内参考。

数据集之于AI模型,就如同汽油、电力之于汽车。

无论数据机面对的任务是生成文本、识别对象或是预测公司股价,人工智能系统都能够通过筛选示例来识别出数据中对应模式来进行“学习”。例如,训练计算机视觉系统通过查看特定类型的服装(如外套和围巾)的方式来识别服装差异图像。此外,数据集还可用于测试训练有素的AI系统,在确保其稳定性的同时衡量该领域的整体进展。

现下,某些开源基准测试中名列前茅的模型被认为是该特定任务的最新技术 (SOTA)。事实上,这属于研究人员确定模型预测强度的主要方式之一。

然而,这些人工智能和机器学习数据集与人类一样,并非十全十美。研究表明,由于对未经审查的数据过于信任及不少机构的自吹自擂,许多用于训练、基准测试和测试模型的数据库中都存在着偏见和错误。

01

训练困境

在AI中,基准测试需要与同一任务设计的多个模型性能进行比较,例如在语言间翻译单词。 这种方式起源于学术界探索人工智能早期围绕共同问题探究科学家优势应用,有助于揭示理论上已取得进展的应用。 

但选择与数据集拉近距离是有风险的。例如,如果将相同的训练数据集用于多种任务,数据集则不太可能准确反映模型在现实世界中看到的数据。不精准的数据会扭曲其衡量标准,导致研究人员对工作误判,最终对现实世界用户造成伤害。

加州大学洛杉矶分校和谷歌的研究人员在最近发表的一项名为“减少、重用和回收:机器学习研究中数据集的生命”的研究中调查了这个问题。他们发现机器学习中存在“大量借用”数据集,例如,从事一项任务的社区可能会借用原为另一项任务而创建的数据集,这个问题引发了对数据错位的担忧。他们表明,只有十几所大学和公司负责创建超过50%的时间用于机器学习的数据集,这些机构将对塑造该领域的研究议程产生正向影响。

“由于混杂变量的存在,追逐SOTA变成一种毫无意义的做法。因为,科学的目标应该是积累知识,而不是将特定玩具基准的结果当作目标。”前居民 Denny Britz谷歌大脑团队在之前的一次采访中告诉 VentureBeat。“尽管,现阶段已出现一系列改进措施,但由于寻找SOTA这种快速简便的审查和评估论文的方法已根植于文化中,所以还需要时间来改变。”

经研究发现,南北半球图像差异也会影响模型的准确性。

一般来说,ImageNet和Open Images(来自斯坦福和谷歌的两个公开可用的图像数据集)是以美国和欧洲为中心,而在这两种数据集中训练出来的计算机视觉模型比南方国家的数据集训练出来的的图像表现差。例如,在识别“新郎”这一分类时,与来自美国的新郎相比,来自埃塞俄比亚和巴基斯坦的“新郎”分类的准确度更低,且无法对“婚礼”、“香料”等事物进行正确识别;甚至,北半球和南半球之间的太阳路径差异和背景风景的变化、相机模型的不同规格(如分辨率和纵横比)、天气条件也会影响模型的准确性。

历史上充满了部署有缺陷数据集训练模型而导致后果的例子,例如不“喜欢”深色皮肤的虚拟背景和照片裁剪工具。

2015年,一位软件工程师指出,谷歌照片中的图像识别算法曾给他的黑人朋友贴上“大猩猩”的标签。非营利组织AlgorithmWatch显示,谷歌的Cloud Vision API一度将黑人持有的温度计标记为“枪”,而将浅肤色者持有的温度计标记为“电子设备”。

“狡猾”的数据集还导致模型对性别歧视招聘、招聘年龄歧视以及种族主义累犯和贷款批准的长期存在。而医疗保健中包含医疗记录和图像的训练数据集主要来自北美、欧洲和中国的患者,这就导致其模型不可能适用于代表性不足的群体。这种不平衡在商店扒手和武器识别计算机视觉模型、工作场所安全监控软件、枪声检测系统和“美化”过滤器中很明显,在某些情况下,这些过滤器放大了他们接受培训的数据中所隐含的偏见。

专家们还将面部识别、语言和语音识别系统中出现的许多错误归因于用于训练模型的数据集缺陷。例如,马里兰大学的研究人员在进行研究时发现,亚马逊、微软和谷歌的面部检测服务更容易在年龄较大、肤色较深的人和不太“女性化”的人身上出现失误。根据算法正义联盟的语音擦除项目,来自苹果、亚马逊、谷歌、IBM 和微软的语音识别系统共同实现了黑人语音35%和白人语音19% 的单词错误率。语言模型已被证明会表现出种族、民族、宗教和性别方面的偏见,将黑人与更多的负面情绪联系起来,并与“黑人对齐的英语”作斗争。

“数据是从网络中被抓取的,而网络数据能够反映与霸权意识形态(例如,白人和男性主导地位)相同的社会偏见。”“减少、再利用和回收利用”一书的合著者加州大学洛杉矶分校伯纳德·科赫 (Bernard Koch) 和雅各布·G·福斯特 (Jacob G. Foster) 以及谷歌的艾米丽·丹顿 (Emily Denton) 和亚历克斯·汉纳 (Alex Hanna)通过电子邮件告诉 VentureBeat,“更大的……模型需要更多的训练数据,并且需要持续对数据进行清理,以防止模型放大有问题的想法。”

02

标签问题

标签,这种从众多模型中提炼出的数据关系注释也存在不平衡标志。

人类在训练和基准数据集中对示例进行注释,为狗的图片添加“狗”的标签或描述风景图像中的特征的标签。这种标签也将呈现出注释者自身的偏见和缺点,从而转换为不完美的注释。

研究表明,普通注释者更有可能将非裔美国人白话英语 (AAVE) 中的短语标记为有毒。而这些短语是一些美国黑人使用的非正式语法、词汇和口音。另外,麻省理工学院和纽约大学 8000万个微型图像数据集的一些标签器(该数据集于2020年离线)提供了种族主义、性别歧视和其他攻击性注释,其中包含近2,000张用N字标记的图像和诸如“强奸嫌疑犯”、“儿童骚扰者”之类的标签。

2019 年,《连线》杂志报道了Amazon Mechanical Turk等平台对自动化机器人的敏感性。研究人员在该平台上招募了注释者,可即使员工是可验证的人,也仍有几率导致数据质量低下——尤其是当他们受到不良待遇且薪酬低于市场水平时。包括 Niloufar Salehi 在内的研究人员尝试通过使用像Dynamo这类开放访问工人集体的努力来解决Amazon Mechanical Turk 的缺陷,但仍未能达到完美。

例如 MLCommons 的人民语音数据集和多语言口语语料库可以用作这种问题的解决方案数据集。但策划这些既费时又昂贵,并且往往价格高达数百万美元。从2017年推出以来,Mozilla致力于构建开源转录语音数据集Common Voice也仅审查了数十种语言,这足以说明这项任务的挑战。

创建数据集昂贵的原因之一是高质量注释所需的领域专业知识。

正如Synced最近在一篇文章中所指出的那样,大多数低成本标签器只能注释相对“低语境”的数据,而无法处理“高语境”数据。例如法律合同分类、医学图像或科学文献等。事实也确实如此,司机往往可以比没有驾照的人更能有效地标记自动驾驶数据集,而医生、病理学家和放射科医生在准确标记医学图像方面表现的更好。

在一定程度上,机器辅助工具对消除标签过程中的重复性工作有所帮助。如半监督学习有望通过使研究人员能够在为特定任务设计的小型定制数据集上“微调”模型来减少训练模型所需的数据量。在本周发表的一篇博文中,OpenAI表示,它能够复制人类如何在线研究问题的答案(例如,提交搜索查询、点击链接、和上下滚动页面)并引用其来源并允许用户提供反馈的方式进一步提高准确性。

此外,还有使用部分或完全合成的数据来替换现实世界数据的方式,尽管陪审团对合成数据训练的模型能否匹配其现实世界数据对应物的准确性尚无定论。现阶段,麻省理工学院和其他地方的研究人员已经开始尝试在视觉数据集中单独使用随机噪声来训练对象识别模型。

理论上,无监督学习可以一劳永逸地解决训练数据的困境。在无监督学习中,算法受制于不存在先前定义的类别或标签的“未知”数据。

03

一个基准问题

AI 数据集的问题不仅限于训练。

在维也纳人工智能和决策支持研究所的一项研究中,研究人员发现3,800多篇AI研究论文中的基准不一致,在许多情况下,这可归因于没有强调信息指标的基准。Facebook 和伦敦大学学院的另一篇论文表明,在“开放域”基准测试中,自然语言模型给出的60%到70%的答案隐藏在训练集中的某个地方,这意味着模型仅仅是记住了答案而已。

在由纽约大学AI Now研究所的技术研究员Deborah Raji合着的两项研究中,研究人员发现,像ImageNet 这样的基准经常被“错误地提升”,而这一点足以证明超出其最初设计任务范围的声明是合理的。根据Raji和其他合著者的说法,不考虑“数据集文化”会扭曲机器学习研究的科学这一事实,缺乏对数据主体的关怀文化,导致恶劣的劳动条件(例如注释者的低薪)未能充分保护数据。

值得一提的是,艾伦研究所针对特定领域提出的基准测试问题解决方案——GENIE。GENIE 结合自动和手动测试,根据预定义的、特定于数据集的流畅性、正确性和简洁性指南,为人类评估员分配探测语言模型的任务。但是,GENIE价格昂贵(提交一个用于基准的模型大约需要100美元),艾伦研究所计划探索其他支付模式,例如要求科技公司付款,同时补贴小型组织的成本。

AI 研究界也越来越一致认为,基准测试,尤其是语言领域的基准测试,如果要发挥作用,就必须考虑更广泛的伦理、技术和社会挑战。

“不能只关注最先进的表现,而不去强调其他重要标准。因为这些标准是能够做出重大贡献的。”科赫、福斯特、丹顿和汉娜说。 “构建更大的模型是提高机器学习性能的关键,SOTA基准测试就鼓励创建对环境不友好的算法。但从长远来看,它在环境上也是不可持续的。SOTA基准测试不鼓励科学家对其在现实世界中任务所带来的具体挑战进行细致入微的理解,将会助长为提高分数而产生的狭隘视野。实现SOTA的要求就意味着限制了能够解决现实世界问题的新算法的创建。”

04

可行 AI 数据集解决方案

鉴于AI 数据集从不平衡的训练数据到不充分的基准测试的广泛挑战来看,实现有意义的改变并不容易。但专家认为,仍有希望。

普林斯顿计算机科学家Arvind Narayanan撰写了多部研究AI数据集来源的著作。他认为研究人员必须采用负责任的方法来收集和注释数据,并且记录其数据集、维护并制定需要解决的问题。但在Narayanan 最近的一项研究中,他发现由于创建者未能在许可语言上准确说明如何使用数据集或禁止可能存在问题的用途,从而导致许多数据集容易管理不善的现象。

“研究人员考虑使用其数据集的不同方式被我们称之为‘负责任的数据集管理’。”他通过电子邮件告诉 VentureBeat。“即使数据集是为一个看似良性的目的而创建的,它也有可能被无意中会造成伤害的方式进行使用。当数据集并非为高风险设置而进行设计时,它将可以用于训练或基准测试商业模型。数据集通常需要大量工作才能够开始创建,因此研究人员和从业人员通常希望利用已经存在的数据。‘负责任的数据集管理’的目标是确保其以合乎道德的方式进行。”

Koch 和合著者认为,人类与组织需要得到奖励和支持用以创建新的、多样化的数据集,以适应手头的任务。

从去年的NeurIPS 2020 开始,NeurIPS(世界上最大的机器学习会议之一)要求提交论文的合著者必须说明其工作和社会产生的潜在广泛影响。

“专业激励措施需要与创建这些数据集保持一致。”他们认为, 机器学习研究人员正在创建大量数据集,但仍未使用。其中问题之一在于许多研究人员认为其需要广泛使用基准来提高论文的可信度,而非使用更小众但技术上合适的基准来进行支撑。

数据集注释问题是没有简单解决方案的。谷歌最近的一篇论文表明,研究人员最好与注释器(如聊天应用程序)建立“扩展通信框架”,从而提供出更有意义的反馈和更清晰的说明。其共同作者写道,从数据质量和社会影响的角度来看,必须要努力承认并实际考虑工人的社会文化背景。

该论文更进一步为数据集任务制定和选择注释器、平台和标记基础设施提供了建议。合著者表示,除审查数据集的预期用例外,研究人员还应考虑可以通过注释纳入专业知识的形式。并且,应该对比不同平台的最低工资要求,并分析不同群体注释者之间的分歧,让其更好地了解观点相左时,用户是如何表达或不表达的。

“使用基准的多样化需要政府和企业参与者为数据集创建提供资助,并将资助分发给资源不足的机构和来自背景代表性不足的研究人员。”科赫和合著者表示,科学家喜欢数据。而现下,大量研究表明机器学习中数据滥用可能会导致道德问题和社会危害。所以,如果能够向其展示过度使用对科学进展的不利之处,将可能刺激进一步的改革,从而达到减轻社会危害的目的。”