分享:

浅析面部识别技术的发展历程与存在问题

2021-03-23 16:08:12 中国航空报 逸文

面部识别数据集“之最”

研究人员调查的1976年至2019年间创建的133个数据集,总共有了1.45亿张图像,包含1773万张面孔。

其中,最大的数据集是2018年Cele500k数据集,包含5000万张图像;来自NIST的FRVT覆盖了最多的人群,包括1.4亿多张面孔;而最小的数据集是1988年JACFEE(日本人和白种人面部情绪图像)数据集,包含4个人的56张图像。

究竟哪些资助者赞助了这些数据集的开发,同样意义重大。尤其是对于政府数据集而言,所开发技术往往目标明确。例如,NIST FRVT数据集是由美国国土安全部(the Department of Homeland Security)资助的,包含的数据来自“美国国务院墨西哥非移民签证档案"。因此,该技术的优先级和主要应用背景仍然是在执法和安全背景下的安全性、访问控制、可疑识别和视频监控。

从历史上可以看出,美国政府从一开始就在推动和支持面部识别,目的是实现刑事侦查和监视。

之后,出现了更多样化的应用程序,如将其集成到移动设备、机器人和智能家庭设施用户界面,以监测用户参与或社会目标。

随着时间的推移,面部识别模型又出现了新的分化:不再作为完整的软件包进行发布,取而代之的是作为应用程序接口(APIs, Application Program Interfaces)进行部署,提供预先训练的模型即服务(model-asa-service),以便集成到任何开发人员应用程序中。

这意味着,任何试图将模型应用到特定场合的开发人员,现在都可以访问面部识别模型。面部识别模型被广泛地部署并嵌入到未知和不可预测的环境中所使用,已然成为常态。

面部分析很可能是模型开发目标最模糊的一类任务,通常涉及“不可信的面相和颅相学伪科学”(discredited pseudosciences of physiognomy and phrenology),即通过评估对象的外部特征来错误地推断对象的内心状态。这些伪科学任务在系统评估中很少受到质疑,包括预测“性取向”(sexual orientation)、“吸引力”(attractiveness)、“可雇佣性”(hireability)、“犯罪性”(criminality),甚至是更多被接受但存在争议的属性,如情感、性别和种族等。且在系统测试期间,某些任务或用例可能造成伤害的可能性通常不会被明确地考虑或反映出来。

自2005年数据标注众筹平台Amazon Mechanical Turk(MTurk)推出以来,研究人员开始大量使用该服务,试图清理和理解其数据,同时使用这些数据集完成其他的任务。

然而,图片的某些数据和元标签是有争议的。例如,CelebA数据集上标签包含一些有问题的、潜在的主观性标签,如“胖”、“双下巴”,或一些不恰当的种族特征,如描述亚洲人的“尖鼻子”、“窄眼睛”,以及针对于黑人受试者的“大鼻子”和“厚嘴唇”。此外,还涉及一些奇怪的说法和客观上无法统一定义的标签。

在这背后,人脸数据基准实践,是根据在驱动模型开发方面最有影响力的利益相关者的需求所塑造的。

尽管面部数据是生物特征信息,就像指纹一样独特且可识别,它也可以以多种形式随意获取,因此某些被动地收集方式,可能导致严重的隐私侵犯问题。

DeepFace在2014年发布后,深度学习有效性促使人们越来越相信,需要更大规模的数据集来满足此类方法的数据需求。由此,数据集从数以万计的图像,发展到像MegaMace和VGG-Face2这样以百万计的图像。

当模型开发的数据需求较低时,获取数据源的通常做法是使用摄影数据源——设置照片拍摄,以捕捉控制姿态、光照和表情的面部数据。

用这种方式产生高质量的数据集是非常昂贵的。而且需要注意的是,对于这样的设置,相机设备规格之类的细节,将对图像以及整个数据集的质量至关重要。

当然,也存在替代方案,有时数据集也可能是其他图像数据集的集合,这些数据集可能出于不同的目的而构建,或者只是从自愿的参与者那众包而来,这些参与者在被说服或获得报酬后捐赠了自己的面部数据。

后来,学术界和业界倾向于通过网络搜索“不受约束”面孔的静态图像,或者从在线视频中获取帧来得到更多信息。也就是说,在深度学习的爆炸性数据需求的驱动下,研究人员逐渐放弃了征求人们同意的要求。越来越多人的个人照片在他们不知情的情况下被整合到监视系统中。

论文作者之一 Raji称,在早期,人们记录和验证面部数据时非常谨慎。“现在我们不在乎了。她说:“所有这些都被抛弃了。从前只是无法追踪一百万张脸,但在某一历史时间点之后,你甚至无法假装自己拥有控制权。”

失控的不止个人隐私

不再审慎地收集面部数据,也导致了更混乱的数据集的出现:它们可能会无意间包含未成年人的照片,使用种族主义和性别歧视的标签,或者质量和光线不一致。这也是为什么面部识别系统失败应用案例数量持续增加的原因。

与之相关的更宏观的一个问题是数据集报告的标准化程度欠缺。许多数据集缺少关于图像收集的来源和方法的信息,或者未能包括宏观(如人口统计)和微观(如图像特定属性或元数据创建)级别的信息,从而产生了不完整的数据集特征图像。

除此之外,数据集可能在学术论文或项目网站上进行描述,然而格式未达成统一,甚至在不同的传播媒介和参考文献之间也存在着不一致。简单举例来说,在一些情况下,网站上报道的图像数量可能与发表的论文中的图像数量不同。

不过,有趣的是,NIST做了一些全面的报告,这也作为正在进行的FRVT挑战系列的一部分。评估报告详细记录了基准数据的构造,包含来源和收集方法等。

他们在2000年的评估报告中承认了这样做的重要性:“图像收集和存档是任何评估过程中最重要的两个方面。但不幸的是,它们通常在评价的计划阶段没有得到足够的重视,并且在评价报告中也鲜有提及。”

为了确保可靠性,无论是在道德期望和标准方面,还是在数据本身方面,必须保证所使用基准具有一致性。随着面部识别任务从验证和识别发展到面部分析,潜在的技术问题也从图像相似性搜索任务发展到分类任务。当考虑到人口统计类别的性别限制时,将测试示例划分为不同类别会变得极其具有复杂性和挑战性。

数据集评估是一个至关重要的任务,在此关键点上,应该为面部识别系统提供透明度,甚至问责制,并审视给定数据集的道德规范,以推动更负责的机器学习的发展。面部识别技术带来了复杂的道德和技术挑战,这些挑战将愈发难以回避。

正如论文作者之一 Raji所表示的,希望这篇论文能够激发研究人员思考如何更好地平衡深度学习带来的性能提升与对道德共识的破坏。

“为了进行深度学习而放弃所有这些道德上的守正,真的值得吗?”

责任编辑:实习编辑