人脸识别原理及算法——动态人脸识别系统研究

978-7-115-33978-2
作者: 沈理 刘翼光 熊志勇
译者:
编辑: 傅道坤

图书目录:

详情

本书首先介绍了计算机视觉和模式识别的原理,以及国内外人脸识别研究的主要方法和相关课题研究,总结了国内外人脸识别研究的主要成果。本书重点介绍了作者的研究成果:动态人脸识别系统方法。动态人脸识别指的是在移动中的人脸识别方法。

图书摘要

人脸识别原理及算法 动态人脸识别系统研究

FUNDAMENTALS AND ALGORITHMS OF FACE RECOGNITION RESEARCH IN FACE RECOGNITION SYSTEM IN DYNAMIC SCENES

沈理 刘翼光  熊志勇 著
人民邮电出版社

北京

图书在版编目(CIP)数据

人脸识别原理及算法:动态人脸识别系统研究/沈理,刘翼光,熊志勇著.--北京:人民邮电出版社,2014.10

ISBN 978-7-115-33978-2

Ⅰ.①人… Ⅱ.①沈…②刘…③熊… Ⅲ.①面器识别—研究 Ⅳ.①TP391.4

中国版本图书馆CIP数据核字(2014)第000067号

◆著 沈理 刘翼光 熊志勇

责任编辑 刘涛

执行编辑 傅道坤

责任印制 彭志环 焦志炜

◆人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

北京中新伟业印刷有限公司印刷

◆开本:700×1000 1/16

印张:16.25

字数:256千字  2014年10月第1版

印数:1-1800册  2014年10月北京第1次印刷

定价:89.00元

读者服务热线:(010)81055410 印装质量热线:(010)81055316

反盗版热线:(010)81055315

内容提要

本书系统介绍了人脸识别研究领域的研究状况以及作者在人脸识别领域的研究工作和研究成果,全书共分为3个部分。

第1部分首先介绍了人脸识别的基础:计算机视觉和模式识别的原理,并介绍了20世纪70年代以来国内外人脸识别研究的研究动态和主要方法,以及国内外人脸识别研究的主要成果和用途。

第2部分介绍了基于双属性图的人脸识别算法,该算法采用人脸特征检测、主成分分析方法、Gabor 函数等建立了一个人脸特征识别和属性特征匹配的人脸识别方法,并结合人脸图像的局部特征和全局特征,能够有效地利用从三维到二维投影的人脸图像信息之间的关联性。

第3部分介绍了动态场景下的人脸识别方法,该方法综合应用了人脸定位、人脸识别、视频处理等算法。

本书的读者对象主要为研究模式识别的科技人员以及高等院校高年级的学生和研究生。读者通过阅读本书可以系统地学习人脸识别研究的方法,并掌握国内外相关技术的最新进展。

SUMMARY

This book summarizes the progress in the face recognition research field as well as the author’s research work. This book is divided into the following three parts.

Part I introduces the theory of computer vision and pattern recognition , which are the basis of face recognition research. Then it introduces face recognition research status and the major methods since the 1970s, as well as the main results and usage.

Part II describes the face recognition algorithm based on dual-attribute graph. This algorithm adopts facial feature detection, PCA method and Gabor function to construct facial feature recognition and attributes matching method, and it can combine the face image local features and global features, so it can effectively use the information in face image shoot which is projected from three-dimension to two-dimension.

Part III describes the face recognition system under dynamic scenes. This algorithm adopts face location, face recognition and video processing methods.

This book mainly focuses on researchers as well as graduated and high-grade college students, who are interested in pattern recognition. Readers of this book can systematically study the methods of face recognition and master the latest progress of this field.

前言

随着人类迈入数字时代,生物特征的身份鉴定技术愈加显示出其价值。在美国,基于这项技术的产业规模已达数10亿美元,每年有上亿美元的福利款项被他人以假冒身份领取。MasterCard公司估计,每年有价值4.5亿美元的信用卡诈骗案发生,其中包括利用丢失和被盗的信用卡犯罪;每年因身份识别码被盗造成移动电话通信的损失高达10亿美元。

比尔·盖茨曾下过这样的断言:生物识别技术将成为未来几年 IT 产业的重要革新。盖茨言论的背后支撑是,越来越多的个人、消费者、公司乃至政府机关都承认,现有的基于智能卡、身份号和密码的身份识别系统是远远不够的,生物特征识别技术将在未来提供解决方案方面占据重要的地位。在短期内,生物鉴别法便可与智能卡操作系统结合,用户可通过使用个人密码及生物鉴别法来确认身份。

人脸识别是模式识别和计算机视觉的交叉领域,关于它的研究最早开始于20世纪50年代,当时的研究主要基于人脸的外部轮廓方法。由于人脸轮廓的提取比较困难,在随后的10多年中,人脸识别的研究相对停滞。后来人脸识别方法有了新的突破。人脸识别将计算机视觉和模式识别结合在一起,广泛地应用在机器人学等学科中。

作为人类几个重要的外在鉴别特征之一,人脸识别在自动鉴别和人类自动分辨方面有着重要的意义。与指纹识别和虹膜识别相比较,人脸识别有其独特的优势。在广域样本范围内,指纹识别和虹膜识别的取样样本都具有唯一性,即对于任意两个样本,他们的指纹或虹膜不会是完全相同的。另外指纹和虹膜的成像不会因为在不同时刻有差别而得到不同的结果,这就决定了待识别图像和样本本身一样是具有唯一性的。人脸图像受成像角度、光照条件等外界因素的影响比较大,即使相同的人脸,在图像成像后也可能有比较大的差别;另外,不同的人脸在一定的角度下有时也有较大的相似度,这两个因素导致人脸识别复杂性比较高、识别难度比较大,这些都是人脸识别研究的实际困难。但是,指纹和虹膜的获取都要求待识别对象与成像设备有较近的空间距离,而人脸图像的获取突破了这一限制。在一般可视情况下,人脸图像都能够被正常捕捉,这一因素决定了人脸识别比指纹、虹膜识别有更广的应用范围,诸如在远程安全、检疫、图像传送等方面。20世纪90年代Internet的蓬勃发展对于网络安全和鉴别的需求也导致了人脸识别越来越具有实用性。

人脸识别技术具有广泛的应用前景,在国家安全、军事安全和公共安全领域,智能门禁、智能视频监控、公安布控、海关身份验证、司机驾照验证等是其极典型的应用;在民事和经济领域,各类银行卡、金融卡、信用卡、储蓄卡的持卡人身份验证以及社会保险人的身份验证等都具有重要的应用价值;在家庭娱乐等领域,人脸识别技术也具有一些有趣有益的应用,比如能够识别主人身份的智能玩具、家政机器人以及具有真实面像的虚拟游戏玩家等。

目前国外的很多大学都有研究小组在进行人脸识别、跟踪方面的研究,包括MIT的VISMOD实验室、CMU的机器人研究所、Cornell大学、Berkeley大学等,它们都是人脸识别的重要研究机构。国内对人脸识别的研究也日益活跃,中国科学院、清华大学、哈尔滨工业大学、南京理工大学等科研单位和大学,都有研究小组对人脸识别进行长期的跟踪研究。与此同时,国际、国内的公司也都开始致力于人脸识别的投入,如A4Vision、Neven Vision、VisionSphere 公司等;国内也有一些公司也参与了这方面的研究。这些研究主要应用于金库人员识别、银行卡识别、特殊安全系统。

作者简介

沈理,男,1937年10月出生,浙江省人,研究员,博士生导师,研究方向为VLSI测试、SOC设计、容错计算、计算智能、模糊系统。1959年毕业于浙江大学电机工程系,并进入中国科学院计算技术研究所,从事计算机学科领域的研究工作。早期曾参加我国第一台大型电子管计算机——104 机的研究工作以及多台计算机的电路研究和体系结构设计工作。1979年后从事容错计算等基础研究。1982~1984年,赴美国纽约州立大学Binghamton分校作访问学者,进行VLSI测试研究。1985~1988年,进行测试理论的基础研究,主持完成一个国家自然科学基金项目的研究,并参加“七五”国家重点科技攻关项目“测试方法研究及应用”的工作,获1992年中国科学院自然科学奖二等奖。1989~1991年,参加国家“863”计划课题的研究工作,后两年赴美国参加国际科技合作,进行工作站设计和AsIc设计工作。1992年后进行软计算和模糊系统等基础研究,连续主持“八五”、“九五”的“863”计划项目,“九五”中国科学院基础性研究重点项目和国家自然科学基金项目的研究。1995年研制成功模糊推理控制芯片 F100,该芯片达到国内领先水平和20世纪90年代初的国际水平。2000年研制成功新一代模糊推理控制芯片F200。申请中国发明专利两项,发表论文90余篇,译著1部。1990年后任中国计算机学会容错计算专业委员会委员。1998年后任中国自动化学会智能自动化专业委员会委员、美国IEEE高级会员。

刘翼光,男,于2000年在中国科学院计算技术研究所获博士学位,2000~2002年在中国科学院自动化研究所从事博士后研究工作。主要研究方向为:模式识别、数字图像、数字视频及版权保护等。曾主持或参加多项国家自然科学基金、中科院“九五”重点项目、国家“863”项目,主持多项科技部科研院所社会公益研究专项、广电总局项目。目前在中国科学院从事图像识别、图像信号分析的研究工作,并在国家广电电影数字节目管理中心主持数字电影发行放映中图像编码、数字版权保护、图像处理的研究和开发工作,已成功建立我国数字电影流动放映系统。发表论文20余篇,获得专利2项,获得广电总局科技创新奖一等奖一项、二等奖两项。现为国家广电总局科技委电影专业委员会委员。

熊志勇,男,于1999年在中国科学院计算技术研究所获得博士学位,研究方向为人脸图像识别。目前从事无线通信基站的设计开发工作,作为主要设计人员参与设计了国内第一个实用的IS95A、CDMA1X基站;有多年的手机终端设备的研究开发经验,设计实现了GPRS无线网卡以及TD-SCDMA无线网卡;参与设计开发了多款手机,已发表多篇学术论文。

致谢

本书研究的内容得到了中国科学院基础性研究基金的资助和支持,感谢中国科学计算技术研究所软计算课题组的同事和同学,包括徐慧娥老师、Intel中国研究院胡炜研究员、北京邮电大学潘维民教授、美国中佛罗里达大学王晶博士、张祥研究员、美国Cogent System公司软件部总监裴树孟、韩飞博士、徐晓晶同学的大力帮助和支持,在此谨向他们表示谢意。还要真诚地感谢家人的支持和理解。

最后还要感谢编委会专家们的支持与指导,感谢人民邮电出版社幕后的工作人员对本书所做的贡献。

第1部分 人脸识别介绍

如同指纹识别、虹膜识别一样,利用人脸特征进行识别正越来越引起安全领域的专家、人脸图像处理领域的专家以及模式识别领域的专家学者的注意。本部分包括两个章节,介绍了人脸特征识别的一些基础知识和人脸识别的总体研究状况,可以帮助读者建立人脸识别研究的概念,总结近年来研究的基本方法。

第1章是人脸识别概论,主要介绍人脸识别的历史,神经生理学、脑神经学、计算机视觉、模式识别等相关学科的发展状况,人脸主要研究的问题和人脸图像识别系统的主要构成。

第2章是人脸识别研究的综述,简单介绍了国内外人脸识别相关领域的研究状况,常见的人脸识别方法,与人脸识别相关的人脸检测、人脸跟踪的研究状况,人脸识别的应用前景和一些商业识别软件。

第1章 人脸识别概论

1.1 历史背景

自20世纪70年代以来,随着人工智能技术的兴起以及人类视觉研究的进展,人们逐渐对人脸图像的机器识别投入越来越多的热情,并形成了一个人脸识别研究领域。对这一领域的研究除了具有重大理论价值外,也极具实用价值。

人工智能研究的目标就是让机器具有像人类一样的思考能力以及识别事物、处理事物的能力,并从解剖学、心理学、行为感知学等各个角度来探求人类的思维机制以及感知事物、处理事物的机制,并努力将这些机制用于实践,如各种智能机器人的研制。人脸图像的机器识别研究就是在这种背景下兴起的,因为人们发现许多对于人类而言可以轻易做到的事情让机器来实现却很难,如人脸图像的识别、语音识别、自然语言理解等。如果能够开发出像人类一样的机器识别机制,就能够逐步地了解人类是如何存储信息并进行处理的,从而最终了解人类的思维机制。

人脸识别是模式识别和计算机视觉的交叉领域。人脸识别将计算机视觉和模式识别结合在一起,广泛地应用在机器人学等学科中。作为人类几个重要的外在鉴别特征之一,如同人的指纹一样,人脸也具有唯一性,也可用来鉴别一个人的身份。人脸识别对自动鉴别和人类自动分辨有重要的意义,在生物特征鉴别方面有其独特的优势。人脸识别研究也具有很大的实用价值。

作为人类特征识别的一种,人脸识别和其他人类特征识别相比,具有自然性和不被被测个体察觉的特点,这也是其优点。自然性指该识别方式同人类(甚至其他生物)进行个体识别时所利用的生物特征相同。在样本获取方面,与指纹识别和虹膜识别相比,人脸识别有其独到的优势。指纹和虹膜的获取都要求待识别对象与成像设备的空间距离较近,而人脸识别样本的获取突破了这一限制,在一般可视情况下,人脸图像均能够正常被捕捉用来识别,这决定了人脸识别比指纹、虹膜识别有更广的应用范围,诸如远程安全、检疫、图像传送等。自20世纪90年代起,Internet的蓬勃发展对于网络安全和鉴别的需求也导致了人脸识别具有更广泛的应用领域。但是人脸识别也存在识别困难。指纹识别和虹膜识别的取样样本都具有唯一性,对于任意两个样本,指纹或虹膜样本不会是完全相同的;另外指纹和虹膜的成像不会因为在不同时刻有差别而得到不同结果,这就决定了待识别图像和样本本身一样具有唯一性。而人脸图像受成像角度、光照条件等外界因素的影响比较大,即使相同的人脸图像成像后也可能有较大的差别;另外不同的人脸在一定角度下,有时也有较大相似度,这两个因素导致了人脸识别复杂性比较高、识别难度比较大,带来了人脸识别的困难。

现在已有实用的计算机自动指纹识别系统面世,并在安检等部门得到应用,但还没有通用成熟的人脸自动识别系统出现。人脸图像取样方便,可以不接触目标就进行取样、识别,人脸图像的自动识别系统较之指纹识别系统、DNA鉴定等更具便利性,因此人脸识别研究的实际意义更大。并且与指纹图像不同的是,人脸图像受很多因素的干扰:人脸表情的多样性以及外在的成像过程中的光照、图像尺寸、旋转、姿势变化等。即使同一个人,在不同的环境下拍摄所得到的人脸图像也不相同,甚至有时有很大的差别,这给识别带来很大难度。人脸图像识别的干扰条件很多,因此实现人脸图像的识别也就更具挑战性。

人脸识别研究最早开始于20世纪50年代,当时的研究主要基于人脸的外部轮廓方法。由于人脸轮廓的提取比较困难,在随后的十多年人脸识别的研究相对停滞;直到20世纪80年代后期人脸识别方法有了新的突破,引入了神经生理学、脑神经学、视觉知识等,人脸识别的研究才重新活跃起来。国外对于人脸识别的研究较早,现已有实用系统面世,但这些实用系统通常对于成像条件要求较苛刻,其应用范围较窄。国内也有许多科研机构从事这方面的研究,并已取得许多成果,现在已有产品上市。

1.2 人脸识别相关学科的进展

过去的 30 多年来,人们试图从神经生理学、神经病理学、心理学、脑神经学以及计算视觉的角度对人脸的识别进行研究,并都取得了不同程度的进展,同时也促进了相应学科的发展。计算机技术的迅猛发展以及计算成本的迅速下降使得以前比较费时费空间的一些模式匹配算法,如大样本的引入、多维特征参数的提取、建模等,又重新引起人们的重视。

1.2.1 神经生理学方面的进展

神经生理学在这方面的研究对象主要是那些患视觉认知不能的病人,他们虽然都是视力正常的人,但对于所看见的物体,他们往往不能意识到物体是什么。例如,有的病人能够认出一个个的字符,但却无法说出每个字符所表达的意思[1];同样,有的病人也能够认出一张张的人脸以及人脸上的特征,如鼻子、眼睛、嘴等,但却无法将每张人脸与具体的人联系起来[2]。这说明,这些病人的感知事物的能力是存在的,但识别事物的能力却很差。为了解释这种现象,19世纪德国神经学家Heinrich Lissauer[3]假设人类的认知现象由两个部分组成,一个是感知部分,另一个是联想部分,且两部分缺一不可。感知部分接受外界的视觉刺激,并形成一种内部表示;而联想部分根据这种内部表示,在相应的存储区域进行搜索,以期得到对应的表示,并做出反应。

根据这个假设,可以认为那些视觉认知不能的病人虽然能够感受外界的视觉刺激,却可能不能形成相应的视觉表示,从而不能识别事物;或者有的病人也能够形成视觉表示,却无法在存储区域内找到相应的视觉表示,从而也造成视觉不能。同时这个假设对于了解人类视觉的形成以及识别事物的能力也有一定帮助。上面所述的视觉感知部分相当于目标的提取或特征的提取;而关联部分相当于目标的识别,通过各种识别技术将待识目标与库中的对象进行比较,以完成分类、识别等任务。

1.2.2 脑神经学方面的进展

英国St. Andrews 大学的心理学教授Perrett 等人[4]在研究中发现,人脑右半球的某些区域受到损害后,可能会影响其对于人脸的识别,因此,他们认为人脑中可能存在专门执行脸部识别的细胞,并称之为脸部细胞。其他一些研究者[5,6]在用于实验的恒河猴的下脑皮层中,也发现了具有类似视觉行为的细胞,并由此推断,在下脑皮层中有专门用于分析人脸的机制。

对于这种现象,一种解释认为不存在专门的脸部细胞,否则,也有可能存在类似的其他细胞,这样的话,大脑中将充满许多专门的细胞,显然这与事实不符;另外一种解释认为不存在所谓的脸部细胞,而存在由某些细胞组成的视觉区域,用于解释外界的视觉刺激,而不单用于脸部的识别。

1.2.3 计算机视觉方面的进展

20世纪40年代计算机的出现改变了传统的计算方法,实现了计算自动化。随着计算机能力的增强,计算技术不断向各个领域渗透,从传统的计算领域到各种工程以及生活中。过去人们强调的是计算机的计算能力,随着计算能力的增强和人工智能研究的深入,人们对计算机与人类的交互能力提出了更高的要求:使用计算机来直观描述客观世界物体,而不是采用过去模型化的抽象表示形式。计算机视觉是人工智能研究的一个分支,是人工智能的目标之一:计算机视觉研究的目标是使计算机能够处理传感器输入的现实信号。

人脸识别系统需要对图像进行处理,图像处理是与计算机视觉紧密相关的,因此人脸识别研究需要对计算机视觉有深入理解,这里首先讨论计算机视觉中的一些基本问题[7]

● 如何区分光的亮度及强度的不同?

● 眼睛的空间分辨率是什么样的?

● 如何精确地比较和估计面积和距离?

● 如何感知色彩?

● 检测和区分物体时利用的是什么特征?

上面的基本问题是人类视觉系统的一些主要问题。加拿大 McGill 大学智能机器中心的Levine教授[8]比较了人类视觉系统和计算机视觉系统。计算机视觉的发展不仅与计算机科学中图形学等方向有很大联系,它还与心理学、解剖学、机器人学等领域有较密切的联系。计算机视觉研究关心的最基本的问题是,采用物理学和光学的基本假设,如何从一幅图像中提取出物体的信息和采用什么数学模型来建立客观世界,这决定了计算机视觉需要使用认知处理、几何模型、目标和规划方面的知识。

在人脸识别中,有许多问题同样与视觉系统有关,比如如何从图像的描述中抽象出实际的物体块,并根据人脸图像的特点区分出人脸属性,这些都是人脸图像系统识别讨论的问题。

本节将介绍计算机视觉理论、Marr视觉理论、基于推理的视觉理论,使读者从不同角度理解计算机视觉。

1.计算机视觉理论

计算机视觉就是用各种成像系统代替视觉器官作为视觉信息输入手段,由计算机来代替大脑完成处理和解释,并根据解释结果作出相应的决策。计算机视觉的最终研究目标就是使计算机能像人那样通过对视觉信息的处理来观察和理解世界,具有自主适应环境的能力[9]

人类的视觉系统是功能最强大和完善的视觉系统,但人们并不能描述和解释自身的视觉系统是如何进行信息处理的,通过对计算机视觉的研究、模拟,人们有可能逐步地揭开人类视觉的信息处理机制,从而了解人类的思维机制、推理机制等。因此,用计算机信息处理的方法研究人类视觉的机理,建立人类视觉的计算理论,也是一个非常重要和有趣的研究领域。同样地,通过其他途径(如神经解剖学、心理学等方面)对人类视觉的研究,也会给计算机视觉的研究提供启发和指导,两者有相互促进作用[10,11]

除了神经解剖学、心理学,对计算机视觉的研究还要借助其他学科的知识,如图像处理、模式识别(图像识别)、图像理解(景物分析)、图像生成等。

(1)图像处理

图像处理技术把输入图像转换成具有所希望特性的另一幅图像。例如,可通过处理使输出的图像平滑或有较高的信噪比,同时还可通过增强处理来突出图像的细节,以便于对图像特征的检验。在计算机视觉研究中经常需要利用图像处理技术进行预处理和特征抽取,如各种数学变换技术等。

(2)模式识别(图像识别)

模式识别技术根据从图像抽取的统计特性或结构信息,把图像分成预定的类别,如人脸识别、文字识别或指纹识别等。在计算机视觉中模式识别技术经常用于对图像中的某些部分进行处理,例如分割区域的识别和分类。

(3)图像理解(景物分析)

给定一幅图像,图像理解程序不仅描述图像本身,而且描述和解释图像所代表的景物,以便对图像代表的内容作出决定。在人工智能视觉研究的初期经常使用景物分析这个术语,以强调二维图像与三维景物之间的区别。图像理解除了需要复杂的图像处理技术外还需要关于景物成像的物理规律的知识以及与景物内容有关的知识。

(4)图像生成

根据图像的特性如对称性、纹理渐变性以及图像目标的动力学知识和其他的先验知识,可以生成一幅图像,或者当图像信息存在部分缺失时,能够将缺失的那一部分信息补上,从而得到完整的图像信息。例如,对于二维图像,通过图像生成技术能够得到其三维结构信息,这一点如应用在模式识别研究中,则能够大大地提高识别系统的健壮性。

视觉表示的能力分为高级和低级能力[12]。通常知识和目标只是视觉过程中的高级能力,视觉还需要许多被认为是低级能力的能力。能力的区分是由对概念的表现程度和表示程度决定的。比如,一个物体的“亮度”、“颜色”、“距离”、“长度”等图像特征属性都属于低级能力。例如一个物体的反光,如果采光是在复杂背景遇到黑色部分后反射出来的光线,物体也会被感知为黑色。当然感知的颜色不仅仅只和反射光的波长有关,因为看到的颜色并不会随光照度的变化而完全不同。这种形成立体合成是近距离三维感知的低级能力,还有对物体感知和从背景中分离都是视觉系统的低级能力。

前面的一些论述都采用了一个假设前提:视觉系统的基础是客观世界的一些基本假设必须是永远不变的,即视觉感知的效果是建立在非虚拟的基础上的。

低级能力和高级能力之间最明显的差别在于:低级处理能力是难以捉摸的、无意识的,并与其他直接内省的系统联系不紧密;高级能力是在低级处理能力基础上的综合反应,这一过程和人类本身智能紧密地结合在一起。例如,在记忆时,对于一个图像的视觉记忆印象是很深刻的,而对于图像定量的言语描述和细节反应则相对肤浅。生物学中对人类的记忆机制和视觉感官机制都不是非常清楚,因此计算机视觉研究也将在高级能力方面进行深入探讨。

在计算机视觉中面临的一个非常困难的问题是,必须用普通的数字式硬件来重新构造专门的、并行的和部分生物视觉系统所具有的、最基本的、但却难达到的能力。计算机视觉既涉及“前处理”的低级能力,又涉及知识的高级认知利用,二者密不可分。视觉终止于何处,对这个问题了解得并不清楚。但是对于任何先进的视觉系统,都需要对客观世界有一个强有力、协调一致而又富有成效的表示法。没有这些表示法,任何系统都不可能从输入中找出固定不变的有关信息,因为输入中含有不断变化的采光、视点以及形状的少许差别,噪声和其他较大的但无关的种种变异等信息。这些表示法通过对视觉世界的结构进行预测和设想可以免去某些计算工作。另一方面,如果一个系统要成功地用于各种不同的任务,则需要某些“元”能力:它必须对其本身的目标和能力以及所采用方法的结果进行模拟和推理,即使感知过程并不总是“感到”它与认知一样,然而这些复杂而相关联的模型仍必须用类似于认知方法来处理。

通过上面对计算机视觉能力的分层分析,结合计算机的表示特点进行探讨,采用数字化方法来描述视觉表示。视觉感知是视觉输入和已有客观世界模型间的关系,在图像与解释、描述和提取图像信息的模型间存在着表示方法上的很大距离,为了沟通它们,计算机视觉系统通常有一系列表示法,用于连接图像输入和输出(即最终描述、判决或解释)。计算机视觉包括这些中间表示法的设计和通过各种算法来构造它们,并把它们彼此联系起来。

一般这些表示法可以概括为4类:广义图像表示、分割图像表示、几何表示、关系表示。物体的每个部分可能有几层表示法或几个联合表示法,虽然表示法从前期的低级信号到后期的认知符合存在着不严格的次序,但它们之间的实际工作顺序和信息流并不是单方向的,当然并非每一个计算机视觉应用都需要所有级上的处理,有些级可以跳过,或者处理过程可能从某一级开始向上或向下进行到某一级就结束。

广义图像是输入数据的图像(图像型)和类比表示法,图像最初可能由几种不同方法产生,通过域无关处理可以产生对以后处理更直接有用的其他图像表示法,例如边缘元素(灰度)阵列。有时在这一级可以产生特征图像,这些图像揭示出被成像景物的物理特性(例如表面方向、距离或表面反射能力)。并行处理通常可以产生广义图像。更普遍地大多数“低级”处理可以用并行计算来实现。

分割图像是由广义图像通过将其元素聚集成可能与景物中有意义物体相联的集合而得到的。分割一个平面多面体景物可能得到一组对应于多面体端面的二维区域。在产生分割图像时,有关该问题特定域的知识对于节省计算和克服因噪声和不合适数据所引起的问题都是很重要的。比如针对一平面多面体,利用这种知识可以事先就知道线段应当是直的,另外还可以知道纹理和运动在分割中是很重要的。这对计算机视觉研究有重要意义。

几何表示用于获取有关二维及三维形状的所有重要概念,形状的定量表示既困难又重要,这些几何表示法必须具有充分的能力以实现复杂和通用的处理,例如对于采光及运动效应的仿真。几何结构对于编码以前获得的知识和重新表示当前的视觉输入都很有用,因此计算机视觉需要某些基本的数学工具。

关系模型是复杂高级处理中所用各种表示的集合。知识表达中的一个重要工具是语义网络,它可以简单地用作组织知识的一种手段,或用它来对知识形式化。高级处理经常要利用先验知识和感性经验前所得到的模型、基本的处理方式,即先建立表达方法,再与这些表达进行匹配。在高级处理中命题表达变得更重要,它们由关于一个模型是真或假的一些断言所组成,并且由推理规则来处理。推理型方法也可以用于规划,由于规划中自始至终建立情况和动作的模型,因此它必须对随时间变化的、假设的客观世界进行推理,表示的级越高,朝向低级的控制流就越显著,呈现串行处理算法的趋势也就越大。对于复杂的信息处理,这些控制问题是基本的。

计算机视觉本身的研究是与应用无关的,但其结果与很多领域都是相关的。下面列举一些相关应用与计算机视觉研究的关系[10]

● 机器人学:描述三维景物和机械零件,通过光和 X 射线对工业任务和物体辨识描述,表现出物体模型和物体反射光模型。

● 航空图像:主要对地形和建筑物采用可见光、红外、雷达等方式对地图或者外界的几何模型进行资源分析、图像改善、天气预报和一些军事上的用途。

● 天文学:利用天体辐射光描述其几何形体,并对天体组成进行成分分析。

● 医学:既可用于描述身体器官,还可用于描述细胞的组成、染色体成分、蛋白质链的分析。一般对于身体器官观察使用 X 射线、超声波等;对细胞采用电子显微镜,通过形体的模型分析病理学原理和诊断结果。

● 化学:对化学模型进行分析,采用电子密度得到分子结构。

● 神经解剖学:用于神经元结构的分析,通过电子显微镜确定神经元的空间位置,描述神经元之间的连通性及神经元之间的传导关系。

● 物理学:对于新粒子的发现,寻找新粒子径迹的辨识,找出粒子的运动规律。

上面是计算机视觉常见的一些应用。人脸识别的基础就是计算机视觉。

2.Marr视觉理论

美国麻省理工学院的 David Marr 的视觉计算理论[13]立足于计算机科学,系统地概括了心理物理学、神经生理学、临床神经病理学等方面已取得的所有重要成果,是迄今为止最系统的视觉理论。Marr视觉理论的出现对神经科学的发展和人工智能的研究产生了深远的影响。

Marr认为视觉是一个信息处理过程,这个过程根据外部世界的图像产生对观察者有用的描述,而且这个处理过程是有层次的。整个处理过程如图1-1所示。

低层视觉(即视觉处理的第一阶段)的目的就是要确定图像信息的变化是由哪些因素引起的。这个过程要经过两个步骤来完成。第一步是获得表示图像中的变化和结构的表象。这包括检测灰度的变化、表示和分析局部的几何结构以及检测照明的效应等处理,第一步得到的结果被称为初始简图(primal sketch)的表象。

第二步对初始简图进行一系列运算得到能反映可见表面几何特征的表象,这种表象被称为二维半(2.5 D)简图,这些运算中包括由立体视觉运算提取深度信息,根据灰度影调、纹理等信息恢复表面方向,由运动视觉运算获取表面形状和空间关系信息等。这些运算的结果都集成到2.5 D图像这个中间表象层次,因为这个中间表象已经从原始的图像中去除了许多的多义性,纯粹地表示了物体表面的特征,其中包括光照、反射率、方向、距离等。根据2.5 D图像表示的这些信息可以可靠地把图像分成有明确含义的区域(分割),从而可得到比线条、区域、形状等更为高层次的描述。这个层次的处理称为中层处理(intermediate processing)。

Marr视觉理论中的下一个表象层次是三维模型,它适用于物体的识别,当图像数据具有与目标模型相同的表示形式时,就能够对图像进行识别。这个层次的处理涉及物体本身,并且要依靠和应用与领域有关的先验知识来构成对景物的描述,因此被称为高层视觉处理。

Marr的视觉计算理论虽然是首次提出的关于视觉的系统理论,并已对计算机视觉的研究起了巨大的推动作用,但还远未解决人类视觉的理论问题,在实践中也已遇到了严重困难。英国NewCastle大学的心理学教授Bruce、Young等人[14]认为Marr的三层表示模式是对目标的一种较粗略表示,对于一般的目标识别可能是有效的,但对于需要很精确地对目标加以描述,从而进行识别的情况却可能不适用。例如对于人脸图像的识别,不同目标具有相同的形状,同时同一目标具有不同的表现形式,单纯地使用上述的三层表示模式将无法区分不同的人脸图像。

3.基于推理的视觉理论

由于只根据图像数据本身不能对相应的物体空间结构提供充分的约束,也就是说这是一个约束不充分(underconstrained)的问题。因此,为了理解图像的内容必须要有附加的约束条件。德国柏林学院的实验心理学家Gestalt[15]发现的感知组织现象是一种非常有力的关于像素整体性的附加约束,为视觉推理提供了基础。

心理学家Gestalt所研究的出发点是“形”,他认为任何“形”都是知觉进行了积极组织或构造的结果或功能,而不是客体本身就有的。在视觉研究中,Gestalt理论认为把点状数据聚集成整体特征的聚集过程是所有其他有意义的处理过程的基础。人的视觉系统具有在对景物中的物体一无所知的情况下从景物的图像中得到相对的聚集(grouping)和结构的能力。这种能力被称为感知组织。

感知组织把点状的传感数据变换成客观的表象。在这些表象中用于描述的词藻不是在点状定义的图像中的灰度,而是如形状、形态、运动和空间分布这样的描述。感知组织通过对传感器数据进行整体的分析,得到一组宏观的表象。这样的宏观表象就是进行认知活动时的基本构件,用它们可构成对外部世界的描述。

Gestalt理论反映了人类视觉本质的某些方面,但它对感知组织的基本原理只是一种公理性的描述,而不是一种机理性的描述。因此自从在20世纪20年代该理论被提出以来未能对视觉研究产生根本性的指导作用。但是研究者对感知组织原理的研究一直没有停止。特别是在20世纪80年代以后,加拿大British Columbia 大学的Lowe[15]、美国Carnegie Mellon 大学的Witkin 和Tenenbaum[16]等人在感知组织的原理以及其在视觉处理中的应用方面取得了新的重要研究成果。

1.3 模式识别理论

模式识别是将计算机表示出来的图像和已知的类别进行匹配的过程。识别过程将计算机视觉中表现的客观物体用一定的方法从特征空间映射到模型空间。

模式识别在人类的活动中普遍存在。模式的一种经典定义为[17]:混沌世界中与无序相对的一种状态就是模式。模式识别过程就是试图去确定样本的类别属性,即把某一样本归属于确定类型中的一类[18,19]。在模式识别过程中,最重要的是寻找样本的特征空间,通过样本特征空间来确定样本的归类,因此可以认为模式识别过程是由模式空间经过特征空间到类型空间的映射过程。在模式识别过程中,模式维数是无限多的,这意味着模式识别中物理世界观察的数据集合具有多样性。模式识别中任一模式空间的属性表示为特征空间的必要条件是客观世界里的物体和时间在物理上是可测量的,而这些可测量的数据都能够用函数的形式描述;并且这些数据可以归并到一组模式定义上。在从模式空间到特征空间的变化中,经常由于模式空间的维数太大,将模式空间的维数进行压缩和综合分析得到低维的特征空间,这一过程称为特征提取或特征选择。模式识别过程的特征空间到类型空间还存在一定的映射关系,这个映射关系一般采用既有的经验和知识对特征空间参数进行分类,这一分类过程叫作判断决策,而判断决策中使用的知识和经验叫作判断规则。在适当的判断规则下,特征空间里的样本区分成不同的类型,这样将特征空间区分成不同的类型空间。类型空间中不同类型的分界面称为决策面。类型空间的维数定义为类型数目,而不是模式空间的维数。模式识别过程存在一个降维的过程,因此一般说来特征空间的维数要大于类型空间的维数,而模式空间的维数要大于特征空间的维数。整个模式识别过程是从可感知的世界通过模式空间、特征空间,经历模式采集、特征提取和分类判决过程,最后得到分类的结果,如图1-2所示。

下面将模式识别整体过程分为预处理、特征提取、分类过程等几个步骤分别进行描述[20]

1.3.1 预处理

预处理是模式识别过程的第一步。预处理是将模式识别的样本从一定的环境中抽取出不受更多干扰因素影响的待识别样本。一般说来,预处理的功能包括消除或者减少模式采集中的噪声及其他干扰,以便提高信噪比、清除或减少数据图像模糊(特别是运动模糊)及几何失真,提高清晰度、改变模式的结构。例如将非线性的模式转变成线性的模式、图像的滤波、变换、编码、标准化等都可以归类于预处理工作。在一些采样过程中,采集到的是一些模拟量,这一过程在工业控制中经常出现,而计算机却只能处理数字量,这就要求进行模/数转换。对于模/数转换一般要考虑两个量:采样时间间隔和量化级。采样和量化对于模/数转换的效果影响特别大。特别应该指出的是,没有一个通用标准来规定图像模式量化过程和预处理的效果,这种效果是根据客观观察决定的。总之,预处理过程基本包括了模式识别前的所有工作。

1.3.2 特征提取

在客观物体的样本采集过程中,为了保证模式的真实性,总是尽量多地采集各项数据,这使得样本在模式空间里的维数很大。维数大的模式空间带来的处理时间和费用都很大,而且过多的维数影响了分类的可能。另外在模式区分时,并不是每一个特征对事物的描述都有相同意义,特别指出:对于不同的分类要求,不同的特征有不同的意义。特征提取是将对模式识别有明显作用的特征提取出来,通过这一过程可以压缩模式的维数,使之便于处理,减少损失。

特征提取后得到的特征空间是为了分类使用的,对于相同的物体在不同的分类规则下,所提取的特征必须满足在某种准则下分类错误最小。在一般情况下,可以选择适当的正交变换,考虑特征之间的统计关系,提取出最有效的特征;在特征提取的同时删除贡献微弱的特征,以达到减少分类错误的目的。

1.3.3 分类

分类将特征空间划分为类型空间,同时分类还将未知类别属性的样本确定为类型空间里的某一个类型。在给定的条件下,分类还可以否定样本属于某种类型。在实际的模式识别过程中,在预先给定的条件下,被考虑的类型属性通常具有相似性,因此在分类中出现错误是不可避免的。分类过程只能以某种错误率来完成。对于好的模式识别算法,在特征空间上必然有好的分类算法来减少分类的错误率。而且特征空间充分地反映模式空间的程度也决定了分类的错误率。因此错误率的降低是模式识别研究的中心问题。

上面介绍了模式识别的基本原理。模式识别的识别过程是依照上面的过程进行的。另外模式识别系统必然需要一个学习的过程,通过样本特征的变化来对分类功能自动调节,这一功能可以认为是分类器的训练。随着样本的变化,系统自动调整分类特性,这一过程在模式识别系统中属于前期工作,称为学习过程。图1-3为模式识别系统框图。

模式采集完成模式的采集。根据处理对象的不同可以选用各种传感器、测量装置或图像录取输入装置。在采集过程中或采集之后,经常需要进行模/数转换、滤波、消除模糊、减小噪声、纠正几何失真等预处理操作。特征提取实现由模式空间向特征空间的转变,有效地压缩模式维数。在一般情况下,特征提取的组合是在一定分类准则下找出最佳的或者接近最佳的变换器,或者是为了实现某种特征的选择算法。

分类器必须实现对未知类别属性样本的分类判决,因此设计分类器首先必须确定对分类错误率的要求,选用适当的判决规则。为了能使分类器有效地进行分类判决,还必须首先对分类器进行训练,这就是分类器的学习过程。分类器的学习/训练过程是模式识别中的重要概念。模式识别具有自动识别功能是非常重要和关键的。经过机器学习过程后,分类器可以得到一个分类器样本原型,这一过程必须经过多次重复,不断纠正错误,最后才能使分类的错误率达到要求。经过特征提取和训练/学习过程的样本通常叫作训练样本,这些样本的类别属性预先并不都是知道的。分类判决常常是样本多特征的函数,学习过程就是要确定函数的所有因子,甚至直接确定判决规则。开始时输入一些训练样本,分类错误率一定很大,因此就要修正判决规则或者权因子。不断输入修正的一个正反馈过程直到分类错误率低于某个定值为止,这个过程称为完整的学习过程。

按分类特性划分,模式识别的常用方法主要包括统计模式识别和句法模式识别。统计模式识别是以实验样本在特征空间中的概率密度函数为基础的。而句法模式识别是以图形的结构特征为基础,采用形式语言理论的技术,适合于复杂景物图像分析和理解。多数识别采用统计方法。

1.4 人脸图像识别主要研究的问题

从人脸图像识别的过程来看,建立人脸模型是一个比较重要的环节,而在这个环节中提取合适的特征采样值又是比较关键的。不同的识别方法所提取的特征值是不一样的,提取方法也是不一样的。但模型特征的最终表现形式都是类似的,以向量的形式表示。

人脸图像识别的难度从其图像样本的易受干扰程度也可体现出来,不同的光照、是否有背景以及图像是否倾斜、是否有旋转等都会对图像的样本产生干扰,从而对图像识别结果造成影响。

1.4.1 数据采样

因为人脸是三维目标物体,很难用简单的模型来加以描述,所以一般将其投影到二维空间,得到二维的人脸图像,并用于识别。而对于同一个物体,从不同角度得到的投影图像各不相同,有的甚至相差较大,因此识别时,可能将来源于同一个目标物体的不同投影图像识别为不相同。

定义1.1: 设训练样本集合为 R,取任一目标Si,对Si进行某些操作Γ,由此得到的模式集合为,则对应 R,可得到样本库为;对于某一待识目标M,若M与K中任一元素oij相等或最近似,则认为M =Li,也即M =Si;否则,拒识。

在上述定义中,如果Li为单元素集合(n=1),即每个训练样本在库中有一个数据,则称之为单样本数据识别;否则,称为多样本数据识别。

对于某个待识别目标,其在库中对应的样本个数越多,则被识别出的可能性越大;反之,则越小。因此,在识别精确度要求高的场合,应该采用多样本数据,并设计相应的识别算法进行识别;但样本数据增加了,对存储空间的要求也就相应增加。另外在某些场合,有时对于每个训练目标只能提供一个样本数据,则这时应该考虑在单样本数据的情况下,如何设计一个较通用的识别算法。

一般进行人脸图像识别的过程是这样的:首先要建立一个训练样本库,对于每个训练样本在库中都有一幅或多幅人脸图像数据,识别时,得到待识目标的相应数据,与库中各样本数据进行比较,如能够得到合适的匹配,则认为识别出;否则,拒识,并将待识目标的相应数据加入样本库中。为了得到一个通用的人脸图像识别系统,一般都基于单样本数据情况。

1.4.2 干扰因素

除了样本数据不足会给识别带来一定的困难外,一些外在的干扰也会影响识别的精度。

(1)图像质量

对于拍摄清晰的人脸图像,可从中准确地分辨出人脸各部分的结构信息及纹理信息,有利于人脸图像特征的提取以及提高识别率;反之,如图像质量较差,将会给识别带来一定的困难,有时需要先进行图像的增强处理以及平滑处理。

(2)背景

人类能够在各种环境下识别某些特定的目标,可以认为人类具有将目标从背景中提取出来进行识别的能力,而不是只能在某一特定环境下识别目标。但背景却会对机器识别产生不利影响,因为要从一幅图像中分辨出背景与目标本身也是一个识别任务。如果背景较简单,则目标提取相对容易些;否则,很可能提取不出目标,使得后续的识别很难进行。对于一幅人脸图像而言,背景的存在是必然的,因此必须考虑背景的影响。

(3)光照

光照对于视觉的影响是很大的,即使对于人类,也会由于光线太暗而出现误识。反映到人脸图像的识别上,光照可以影响目标图像的结构,使得目标的轮廓、纹理都会出现偏差;对于同一个人,在不同光照下得到的人脸图像也会不同。因此,对于一个通用性较强的人脸图像识别系统,光照是一个要考虑的因素。

(4)目标的旋转

在进行拍摄时,人的头部会不自主地做些转动,一般可归结为两类旋转,一类为深度旋转,另一类为平面旋转(也可称为平面倾斜)。这两类旋转,尤其是前者,给人脸图像的识别带来很大难度。

(5)尺度

对于人类而言,当一个目标在远处出现时,因其较小,可能识别不出,随着目标的靠近,目标逐渐放大,变得清晰,人类能够准确地将其识别出来;另一方面,如果眼睛距离目标太近,目标过于放大,也可能识别不出。同样,对于人脸图像的识别而言,图像中目标的尺度也必须在一定的范围内,目标太小或太大都将给识别带来困难。

(6)人脸的表情

指纹成像时不会因为带有表情而给识别带来困难,而人脸是具有表情的,并且每次成像时,表情都不会完全一样,反映到人脸图像上,对于同一个人,其表情不同,得到的人脸图像也就不同。

(7)其他

其他因素如头饰、眼镜、胡须、化妆等都会给识别带来困难。

1.5 人脸图像识别系统的构成

一般的识别系统主要由3个功能模块组成:人脸图像预处理模块、图像表示与特征提取模块和识别模块,如图1-4所示。

1.5.1 人脸图像预处理

对人脸图像进行预处理的目的是使外界干扰对识别目标的影响减至最小,并且按照人脸图像识别方法的要求使图像达到标准化(标准尺寸及标准位置)。预处理包括消除噪声、灰度规一化、几何校正、滤波变换等。一般有现成的算法可以帮助我们实现这个步骤,通过这些预处理,可以最大限度地把干扰减到最小,并对人脸识别性能的稳定性起到一定作用。

1.5.2 图像表示与特征提取

人脸的多样性以及识别要求使得人脸的表示具有多样性与唯一性。严格意义上,不存在两张完全相同的人脸,因此,将现实空间的图像反映到机器空间时也应保持这种唯一性与多样性,才能做到人脸图像的准确识别。对于人脸,有两种常用表示法。

(1)基于特征表示

基于特征表示(feature-based representation)考虑两种特征:正面特征和侧面特征。

● 正面特征包括各种距离比例及角度值,如两眼间距离、两颊间距离、眼大小以及各特征点之间组合所形成的距离、角度值等。

● 侧面特征是指由人脸图像侧向投影所形成的凹凸点,将其作为特征点(fiducial-point),如鼻尖、下颌等。

(2)基于图像表示

基于图像表示(image-based representation)是将人脸图像当作矩阵进行处理,从而提取出矩阵的各种代数特征,如特征值、特征向量以及各种变换系数值等。

上述两种人脸图像的表示方法都需要进行人脸特征的提取,为此首先要确定特征的位置,常用的特征探测方法有3类:参数化模型方法、基于模板的方法以及利用数学算子的方法。

1.5.3 图像识别

模式识别可分为类间(inter-classes)识别与类内(in-class)识别两种。类间识别就是不同类物体之间的识别,如从一幅带背景的图像中识别出人脸来,就是将人脸图像从其他物体图像中识别出来,也称作人脸探测;类内识别就是同类物体的不同个体间的识别,如从众多人脸图像中识别出某幅特定人脸图像。本书主要讨论后一种情况。

第2部分 静态人脸图像识别

本部分重点围绕静态背景情况下,利用PCA方法和Gabor函数的方法进行双属性图匹配的静态人脸识别方法,最后给出了人脸识别的程序代码。

第3章介绍了人脸主要特征的探测手段,建立了人脸部的嘴巴、鼻子、眼睛的特征探测模式。

第4章介绍了基于通用形变模型的人脸轮廓特征提取方法,包括形变模型的形成、形变模型的能量、模型匹配方法。

第5章介绍了基于PCA方法的人脸图像识别和局部特征探测,介绍了特征向量的选择方法,光照、尺度、旋转等人脸识别过程中最常见干扰因素对识别的影响并通过一系列的实验,较为准确地解释了这些干扰因素对识别率的影响。本章提出了两种解决方法,一是在图像库中建立多种尺度模板、多种旋转模板等;二是构造一些公共的模板空间,如多尺度模板空间、多平面旋转空间、多深度旋转空间等,建立标准化处理方法。在此基础上形成逐步求精的人脸局部特征探测方法。

第6章建立了人脸图像的双属性图表示方法。通过在人脸图像上选取一些特殊点,如眼睛、鼻尖、下颏、嘴部、脸颊、轮廓等处的特征点,然后利用PCA方法得到这些特殊点对应区域的主成分,将相应的特征向量系数作为这些特殊点的特征属性,并对图像进行Gabor变换,得到图像的变换系数,同样取特殊点对应的系数作为特征属性,从而对于每一个特殊点具有两个属性特征,即局部主成分特征及变换系数特征,从而形成双属性图表示。

第7章介绍了待识人脸图像的双属性图表示,利用第5章所介绍的逐步求精定位法得到人脸图像各局部特征点的位置,将这些特征点连接起来形成图表示,确定图节点的局部主成分系数特征,利用第6章所介绍的 Gabor 函数对待识图像进行Gabor 变换,可提取图节点对应处的 Gabor 系数特征,这样就完成了待识人脸图像的表示。在此基础上进行双属性图的匹配,将库中属性图与待识人脸图像的属性图进行相似性比较,即可完成人脸图像的识别。

第8章是本部分的基于MATLAB软件的实现。

第3章 人脸特征探测

3.1 简介

在人脸图像识别的研究中,对于人脸特征的探测一直是研究的热点。这里的人脸特征主要指眼睛、鼻子、嘴以及脸轮廓等。有许多识别方法就是基于人脸特征的,如基于特征的识别方法[54],具有表示紧凑并且识别速度快的优点。同时人脸特征的探测也可作为一种图像预处理手段,如果确定了两眼的位置,得到两眼间的距离,依此就可得到人脸的尺度大小,进行尺度标准化处理。另外,对人类视觉机制的研究发现,儿童识别目标(如人脸)往往依据目标的某些局部特征,而成年人则侧重于记住目标的全局。因此研究人脸特征的探测方法,不仅有助于人脸图像识别的研究,而且对揭示人类视觉机制的发展、形成也有很大帮助。因此许多科学家都在从事这方面的研究,并有许多探测方法被提出。本章将介绍其中主要的3类方法,分别为参数化模型法[44,45,88-90]、基于模板的方法[54,55,91,92]、利用数学算子的方法[93,94],以下将分别进行阐述。

3.2 参数化模型法

此方法最早由 Yuille、Hallinan、Cohen 等人提出[44],英国 British Telecom 的Shackleton、Welsh 以及Huang、Chen等人又对其进行了发展[89,90]。该方法的原理为:首先对人脸特征如眼睛、鼻子、嘴巴等建立相应的数学模型,得到眼睛模型、鼻子模型及嘴巴模型等,模型由各特征的位置、大小、长度等参数控制,并可进行相应的调整;然后对应图像的4种表示(见下节),定义图像的4种能量函数;将上述的几种特征模型与图像相互作用,动态地调整模型参数,使得能量函数取得最小值,此时得到的模型参数值就是特征参数值。

3.2.1 图像的各种表示

使用各种形态算子如扩张算子(dilate operator)、蚀化算子(erode operator)、开算子(open operator)及闭算子(close operator)等对图像进行处理,可得到图像的谷表示(valley representation)、峰表示(peak representation)以及边缘表示(edge representation)等,加上图像自身共有4种表示。使用这些表示的优点在于可以更好地表征人脸特征模型,如瞳孔模型对应图像中的谷域。

Yuille 等人用Ψe(x, y)、Ψv(x, y)及Ψp(x, y)表示边缘、谷及峰域,并相应地进行模糊化处理,得到Φe(x, y)、Φv(x, y)及Φp(x, y)等域表示。所用公式如下:

另外定义。

3.2.2 眼睛模型表示

对人的眼睛部位进行模型表示首先要建立人眼模型,得到眼睛模型的关键特征;针对眼睛模型可以构建相应的能量函数,通过将眼睛特征值输入给相应的能量函数,可以实现眼睛的模型匹配。

1.建立模型

如图3-1所示,眼睛模型应包含如下特征参数。

① 以点xc为中心、以r为半径的圆对应眼睛的瞳孔。

② 以点xe为中心,宽度为 2b、上边缘的最大高度为 a、下边缘的最大高度为 c的两条抛物曲线分别对应上、下眼睛轮廓,并设眼睛与水平线间的倾斜角度为θ,图3-1中倾斜角度θ为零。

③ 设眼白区域的两个中心点为 p1及 p2

从而,眼睛模型应由9个参数表示,为

2.能量函数

对应眼睛模型可以定义一个能量函数,用于度量模型匹配的好坏程度。完全能量函数由谷域、边缘、峰域、图像及内部势能组成,表示为

其中

① 谷域对应的能量由Φv(x,y)对圆内部区域积分得到,表示为

② 边缘对应的能量函数由Φe(x,y) 对圆边缘积分以及对抛物线边缘积分得到,表示为

③ 图像对应的能量函数是为了减小圆内部的图像亮度,并使得圆与抛物线间的明亮度最大,具体表示为

④ 峰域对应的能量函数在两个峰点测得,表示为

⑤ 内部固有的能量函数表示为

式中,{ci}及{ki}通常为常系数,但在模型匹配过程中将会改变。另外,公式中的Rb、Rw、∂Rb及∂Rw分别对应瞳孔、眼白以及相应的边缘区域;面积或长度为;A、s分别表示面积及弧长。

3.算法实现

模型匹配算法使用基于深度下降法的搜索策略,寻找眼睛模型的特殊点。搜索过程分成若干阶段,每一阶段使用不同的系数值{ci}及{ki},且将各能量函数式用具体的模型参数来表示,例如式(3-4)中,

这里s对应抛物曲线的弧,L(a,b)及L(c,b)为其总长度。从而能量函数就表示为模型参数xe, a, b, c,θ的积分函数,求其最小值就转化为在模型参数空间的最小值,此时对应的参数值就为相应的人脸特征。

例如,对于模型参数r,其求解公式为

类似地,对于其他的模型参数都可解出。当所有参数模型的值都确定后,眼睛模型也就确定了。

3.2.3 嘴巴模型和鼻子模型

类似地,可以对人脸上的其他关键部位进行处理,如构建嘴巴模型、鼻子模型等。其中对于嘴巴模型特征参数的提取,主要是先确立嘴唇的中心点,然后根据嘴唇的中心点,提取上、下嘴唇的厚度值,可以间隔性地提取3组值;同时,根据中心点,提取嘴唇的宽度值,只需提取1组即可,根据这些参数可以构建嘴巴模型。

对于鼻子模型,可提取鼻尖到鼻根的长度值以及 3~5 组鼻尖到鼻翼的宽度值,作为鼻子模型的参数,构建鼻子模型。

对应嘴巴模型,可以构建嘴巴模型的能量函数,用于度量所提取的嘴巴样本与嘴巴模型之间的匹配程度,然后使用匹配算法,将样本与嘴巴模型进行匹配,得到最佳匹配结果。鼻子模型的处理是类似的,关键是参数的提取以及能量函数的构建。通过多样本测试,可以逐步得到好的参数模型以及能量函数。

3.2.4 方法的优缺点

使用人脸关键特征,如眼睛、嘴巴、鼻子等进行模型匹配,具有如下优点。

● 匹配准确。因为这些关键特征的变形不会太大,受形变的影响很小,因此提取的特征比较准确,能够较准确地反映模型的特征。而且,为了精确匹配可以通过多采样特征实现。

● 通用性强,不受光照、尺度及旋转等因素影响。通过能量函数的使用以及对匹配特征的标准化处理能够最大限度的减少光照、尺度以及旋转等因素对匹配的影响。

但该方法也有如下不足。

● 需要先验知识。模型的建立、特征的提取、标准化处理对模型匹配的准确性有很大影响,需要建模者具有较好的建模经验以及丰富的人脸结构知识。

● 手工建模、眼睛模型、嘴巴模型以及鼻子模型的建立以及参数的提取需要手工进行,目前还不具有自动化处理的能力,因此,对于多个样本的处理比较费时,而且个性化差异较大,有一定的主观性。

● 局部匹配,需要确定模型初始位置。为了避免能量函数找不到最优匹配结果,需要在匹配时设定模型的初始位置。

3.3 基于模板的探测方法

人脸各局部特征可以用各种模板表示[54],不同于上述的参数化模型法,模板是基于图像的灰度值,匹配过程使用最佳相似值比较法。上述的眼睛模型对应这里的眼睛模板,鼻子模型对应鼻子模板,嘴巴模型对应嘴巴模板。

模板匹配方法相对简单,不需要复杂过程去提取模型特征,也不需要定义相应的模型能量函数。

3.3.1 模板表示

模板表示有以下几种类型。

● 全局模板,即整个人脸图像都看成是一幅模板。这种表示不具有旋转、偏移不变性,且对于人脸局部特征的提取没有帮助。对于同一个人的人脸图像,如稍有偏移、旋转、尺度变化等,都会得到不同的模板,因此,识别的精确度将会很低。

● 局部模板,即对于人脸图像的各局部特征,形成各模板表示,用于人脸局部特征的提取。因为人脸的局部特征,如眼睛、鼻子、嘴巴等,相对于整个人脸而言,其变化的幅度是较小的,即使整个人脸图像都有偏移,具体到某一个人脸特征,其变化幅度就比较小,从而识别的精度会好于全局模板方法。

● 形变模板,即用参数来表示模板,且参数可变,可用于人脸特征的提取,如3.2节所述。对人脸图像进行相应的数学变换,变换结果作为人脸图像的特征。根据不同的偏移参数、尺度参数以及旋转参数来调整数学变换过程中用到的参数,对应人脸图像的变化。

3.3.2 图像标准化

对于基于特征比较的图像识别方法,图像的尺度一致性是很重要的,因此在提取人脸图像的特征前,必须进行图像的标准化处理。依据两眼间距离大小,可以确定图像的尺度,进行标准化处理。当然,也可以根据其他条件来进行标准化处理,如鼻尖与两眼中点之间的距离、鼻子与嘴巴中点之间的距离等。这里考虑使用两眼之间的距离的情况。

1.眼睛的探测

先手工取得眼睛模板T,然后与待识图像区域I进行比较,所用公式如下:

式中,IT为从I 中取得并与T 大小相同的区域;< >为求平均算子;ITT 表示像素点积;σ表示待比较区域的标准偏差。比较时,取CN( y)最大值所在的位置作为眼睛区域。显然,使用这种方法,时间开销很大。如果对于其他特征区域都采用这种方法进行探测,则效率将很低。为此,R. Brunelli、T. Poggio等人[54]提出使用投影法进行人脸特征的提取。

2.投影法

设 I(x,y)为待识图像,[x1,x2]×[y1,y2]为一矩形区域,则 I(x,y)在矩形区域内的垂直投影可定义为

同样水平投影可定义为

实际应用时,要先提取图像的水平梯度与垂直梯度成分,为此可以对图像进行拉普拉斯变换或进行高斯变换,得到的水平梯度用于探测脸轮廓以及鼻子轮廓,垂直梯度用于探测头顶、鼻子及嘴区域。

(1)嘴区域及鼻子区域的探测

这两个区域的探测使用同样的方法。首先,将图像的垂直梯度成分作水平投影,如式(3-13)所示,所得到峰值区域,即为鼻子区域,所得到的谷底区域即为嘴部区域。同时鼻子区域的高度可以通过计算水平投影的峰值区域与平均值区域的差值得到,其宽度可以通过探测峰值区域的长度得到。同样,嘴部区域的高度与宽度也可用类似的方法探测到。局部区域投影如图3-2所示。

(2)眉毛区域的探测

眉毛区域的位置及厚度也可通过投影技术探测得到,如图3-3所示。如上所述,当眼睛区域的位置通过使用模板匹配法得到后,则眉毛区域的位置可以通过搜索眼睛区域上部的图像垂直梯度成分的投影空间得到,找到成对的并且形状最相似的峰值区域即为眉毛区域,从而眉毛区域的宽度与高度都可得到。

由此可知,使用模板匹配技术以及人脸图像梯度成分的投影技术,可以探测得到人脸的局部特征,如眉毛的厚度,位置坐标,眉毛的弧度(可以粗略地加以描述),鼻子区域的位置及宽度,嘴部区域的位置、长度以及宽度,眼睛区域的位置,眼睛的旋转角度(相对与水平方向),两眼间距离等。

3.3.3 方法的优缺点

使用模板匹配方法,通过构建人脸各局部特征的模板,如眼睛模板、鼻子模板、嘴巴模板等,可以细化人脸各局部特征,对于探测人脸的轮廓位置有较好的效果。但是,因为各模板的构成要素是图像的像素值,受光照、形变、尺度等外界因素干扰,需要较好的进行预处理。总之,该方法具有如下优点。

● 特征探测较准确。同模型匹配算法类似,使用局部特征进行探测,可以得到较好的探测结果,因为局部特征提取的参数受形变影响小,而且个体之间的差异较大,能够得到较好的探测结果。

● 全局匹配,不需要事先确定模板的初始位置。匹配过程可以在整个探测图像空间范围内进行,不需要事先确定模板的初始化位置。如果同时利用眼睛模型、嘴巴模型以及鼻子模型进行探测,则探测精度会更高,而且也不会得到局部优化的结果。

相较于模型匹配,该方法有以下缺点:受光照、尺度及图像旋转等因素的影响,需要先进行标准化处理。图像灰度容易受形变、光照、尺度等因素的影响,因此,需要对匹配图像进行相应的数学变换,以消除形变影响。标准化处理结果的好坏,算法的选择都对最终的匹配结果有影响。

3.4 利用数学算子进行探测

上述两种特征探测方法,或多或少地都利用了特征的语义信息,所要探测的特征的物理意义都很明确,如眼睛、鼻子、嘴等,而California大学Santa Barbara分校的Manjunath、Shekhar和Von der Malsburg等人提出的方法是针对图像本身固有的结构特征,如纹理结构、边缘、对称结构等,利用图像的小波变换来进行特征提取[93]

3.4.1 特征探测模型

Manjunath、Shekhar和von der Malsburg等人[55,93]认为,视觉皮层的细胞可以分成3类:简单的、复杂的以及超复杂的。其中超复杂视觉细胞具有端抑制特性,亦即细胞的接受域能够响应较短的线段以及线段的末端,并且当线段的长度增加时,响应程度减小。由此,可以根据视觉细胞所具有的端抑制特性,利用相应的小波变换函数来提取图像的局部结构特征。Manjunath等人使用Gabor函数来提取图像的结构特征。所用公式如下:

式中,λ为空间域的纵横比,为了简单起见,λ的大小通常设为 1;θ为响应方向,其取值范围为[0,π],并将其分成N等份。又Gabor函数是一尺度函数,设其尺度参数为α,实际所取的尺度离散化为αj, j∈Z。由此得到的Gabor函数族为

所用的Gabor函数变换为

为了模拟视觉细胞的端抑制特性,令Qi,j(x, y,θ)表示 Gabor 变换在尺度为 i,j 时所探测到的图像特征区域的交互作用部分,定义为

其中γ=α−2(i−j)为标准化因子。

由(3-17)可得到图像的局部特征,所用公式为

式中,;Nxy表示点(x,y)的邻近点集。

图3-4中所示为探测到的特征区域点。

3.4.2 方法的优缺点

一直以来,利用数学变换将要研究的信号从一个空间映射到另一个空间往往更能揭示信号所反映的本质。如常用的傅里叶变换,拉普拉斯变换,Gabor 变换以及小波变换等。使用这些变换,相应的可以得到人脸图像的数学特征,对于识别而言,具有如下优点。

● 通用性较强,受光照、尺度、形变等影响小。因为最终模型的比较是基于图像变换后的特征参数,而小波变换本身具有提取局部特征的能力,而且小波变换的多尺度、多级别特性,可以很好地规避图像本身的尺度不一、旋转形变以及光照带来的影响,最大限度地消除这些干扰因素。

● 不需要先验知识。不需要事先建立模型,直接对整个图像进行处理,在很大程度上消除了由于建模者缺乏经验所造成的影响。

当然,使用数学变换需要对整个图像进行处理,对于尺度大的图像其计算量是相当大的;而且,有时为了得到精确匹配,还需要提供几组变换参数来进行特征提取,这些都带来计算量方面的压力,因此,该方法缺点如下:计算量较大。由于要对整个图像进行数学变换,而且不同的变换参数需要进行不同的变换,因此计算量是相当大的。不过随着当前计算机性能的提高、计算成本大幅度的减小以及更好计算方法的提出,该方法正越来越受到研究人员的青睐。

3.5 小结

在人脸图像的识别研究中,探测人脸特征区域的努力同时也在进行,许多探测方法被提出。本章介绍了3类较常用的方法,并指出了它们的优缺点,以期对计算视觉的研究有所帮助。

第5章 基于主成分分析方法的人脸图像识别及人脸局部特征探测

5.1 引言

主成分分析(Principal Component Analysis,PCA)方法很早就由Cambridge 大学的J.Kitter等人[17,101,102]应用于模式识别领域。Carnegie Mellon大学的Kumar等人[103]提出了一个基于PCA方法的过滤器来分析模式间的统计相关性。

Sirovich和Kirby[47,48]最早应用PCA方法来表示人脸集合,通过构造人脸图像集合的相关联集合,并对该关联集合进行 KL(Karhunen-Loeve)变换,得到人脸图像集合的主成分集。这些主成分之间相互正交,形成一个坐标系,其中每个坐标轴都是一幅图像,Sirovich等人称之为特征图像(Eigenpicture),相应的坐标系称为特征空间(Eigenspace),将实际的人脸图像向该坐标系投影,得到的投影系数值集,称为该人脸图像的主成分表示。显然这种表示大大地减少了冗余信息,是一种压缩表示,而且该过程也是可逆的,即根据这种表示可进行人脸图像的重构。

受 Sirovich 等人工作的启发,Turk 和 Pentland[34,49]将 PCA 方法应用于人脸图像的识别,提出了特征脸(Eigenface)技术。他们的实验结果表明,该方法对于正面人脸图像的识别效果较好,但对于人脸图像的尺度变化以及旋转变化识别效果却不理想。同时,Turk 等人还认为,对应特征值较大的特征向量在人脸图像的表示中所起的作用较大,因此在实验中,他们只选取特征值较大的特征向量组成特征人脸空间用于识别。

Texas大学Dallas分校的O’Toole等人[104-106]研究了特征向量与人脸特征之间的关系,如特征向量与种族、性别之间的关系。同时O’Toole等人认为,较小的特征值所对应的特征向量含有高频信息,而较大的特征值所对应的特征向量含有低频信息,高频信息对于人脸的识别是有效的,因为它们反映了不同人脸的特征,而低频信息反映了人脸图像的共性,如人脸轮廓等。由此,O’Toole认为在Turk等人的识别方法中,仅仅利用特征值较大的特征向量来进行人脸的识别是不合适的。

在文献[63]、[107]、[108]中,Texas大学Dallas分校的Valentin等人综述了PCA方法与自组织神经网络之间的等价性。

Atick等人[109,110]最先应用PCA方法去提取人脸头部的三维空间信息,即通过分析摄影图像的阴影部分来提取头部的轮廓信息(Shape from Shading)。

虽然,PCA方法在人脸图像识别中有一定作用,但对于实现通用、稳定的实际识别要求还有一定的差距。为此许多人提出了改进方法,例如,Penev等人[52]提出了局部特征分析技术;Lanitis 等人[77,78]提出了柔性形状模型技术,利用 PCA 方法提取人脸的轮廓特征,并通过活动模型匹配(Active Model Matching)技术得到人脸特征的匹配,进行识别。

但上述这些方法都没能给出 PCA 方法通用性较差的原因以及不同人脸图像空间的距离如何度量等问题。本章在以上这些工作的基础上,深入研究了以下几个问题:

● 训练样本集对识别的影响;

● 特征向量个数对识别的影响;

● 每个特征向量的识别作用大小;

● 图像中光照变化、尺度变化及旋转变化对识别的影响。

通过对这些问题的研究,本章提出了基于PCA方法的多模板人脸特征探测技术,通过构造不同尺度以及不同旋转角度的特征模板,能够有效地进行人脸特征的探测。在此意义上,本章是第4章内容的补充。同时,本章还研究了利用局部人脸主成分特征进行人脸图像识别的问题。

5.2 主成分分析方法在人脸图像识别中的应用

关于方法的算法实现,可参阅文献[34]、[47]、[48]、[49]或者第2章的相关内容。这里主要从实验角度对 PCA 方法在实际应用中的问题进行探讨。实验中所用的人脸图像库如不特别说明均来自MIT的媒体实验室。因为该图像库是公用的,实验结果具有可比性,同时该图像库比较全面,具有光照、尺度、旋转等条件下的图像,但有一点不足是库中的图像实际上只取自16个人。

具体的成像条件为:在3种光源(头顶上方、45°、90°)、3种摄像镜头尺度下(全镜距、中镜距、小镜距)对16个人进行拍摄,并且在拍摄过程中拍摄对象进行3种旋转(正面、左旋22.5°、右旋22.5°),因此共有16×27=432幅人脸图像,图像大小取为120×128像素点。图5-1所示为头顶上方光源、全镜距、正面人脸图像;图5-2所示为某一拍摄对象在27种成像条件下的图像。

5.2.1 特征向量的表示能力

如采用图5-1所示的人脸图像作为训练样本,构造相关联矩阵并对其进行KL变换,可得到16个特征向量,也称作特征脸,如图5-3所示。

对比图5-1与图5-3,可以发现,图5-1中的每个人脸图像在图5-3中都可找到对应的特征脸,为了检测这些特征向量的表示能力,可任取一幅人脸图像 I,通过这些特征向量进行人脸图像的重构。重构公式如下:

式中, Irec为重构的人脸图像;μi为特征向量;N为所用的特征向量个数;ϖi为人脸图像向特征脸空间投影所得到的投影系数,可由下式求出:

重构误差可定义为:

为了度量重构的效果,这里定义重构信噪比(Signal to Noise Ratio,SNR)为

信噪比越高,表明信息的损失越少,重构效果越好。

重构结果如图5-4和图5-5所示。图5-4a为原图,取自训练样本,图5-4b所示为特征向量分别取1,2,…,16时的重构图,且重构图下面的数字为相应的重构信噪比。图5-5a为训练样本外的图像,图5-5b为特征向量分别取1,2,…,16时的重构图。

由图5-4b可以看出,对于训练样本内图像的重构效果很好。当特征向量个数取8个时,根据重构图即可分辨出原图,并且特征向量取得越多,重构信噪比越大,重构效果越好;当取全部 16 个特征向量时,重构效果最好。对于非训练样本内的图像的重构,由图5-5b可知,其重构效果很差,从重构图像中无法分辨出原图像,且重构信噪比较小,最大为SNR(16)=3.1682。

由此可知,由这些特征向量组成的特征脸空间不能很好地表示所有的人脸空间,只是对于训练样本所组成的人脸空间能够较好地表示,对于不在训练样本库中的人脸图像则不能有效地表示,这种现象称作训练样本效应。图5-6是所有16个训练样本内图像以及1个训练样本外图像的重构信噪比与特征向量个数之间的关系图,从图中可以更好地观察到这种效应。图中最下面那条近乎直线的线表示训练样本外图像 5-5a的重构情况,而在其上的曲折线段分别表示训练样本内图像5-1的重构情况,随着特征向量个数的增加,重构信噪比增大,表明重构效果较好。

为了克服这种效应,一般使用多个训练样本进行训练。这里使用128幅人脸图像作为样本进行训练,这些样本来自ARPA/ARL的FERET人脸图像库。由这些图像得到的特征脸空间较好地反映了人脸图像空间,使得训练样本效应有所改善。对于训练样本外图像,图5-5a的重构如图5-7所示。

与图5-5相比,图5-7的重构效果要好一些。可以假定当训练样本个数增加时,利用 PCA 方法得到的特征向量空间将能更好地反映人脸图像空间,从而最终能够消除训练样本效应。

5.2.2 特征向量的选择

在文献[34]、[49]中,Turk 等人认为,特征值越大则其对应的特征向量在表示人脸空间所起的作用越大,反之则越小,因此进行人脸图像的识别时,可以只取前面几个较大的特征值对应的特征向量,而忽略其余的特征值对应的特征向量。然而, O’Toole 等人[104,105]却不这样认为,他们在研究了特征向量与人脸特征之间的关系,如特征向量与种族、性别之间的关系后认为,较小的特征值对应的特征向量更有利于识别。

为了探讨特征向量的选择以及所选择的特征向量的个数对人脸图像识别的影响,本节在此进行了研究,做了两组实验。

实验5.1:取单个特征向量。

① 训练样本为16幅头顶上方光源、全镜距尺度、正面人脸图像,如图5-1所示;测试图像共有32幅为45°以及90°角光源方向、全镜距尺度、正面人脸图像。

② 实验过程为:在单独取不同特征向量的情况下,进行图像的识别。

该实验的目的是为了考察每个特征向量的识别能力。

实验5.2:取多个特征向量。

① 训练样本以及测试图像的选取同实验5.1。

② 实验中所取的特征向量的个数分别为从1直到16,实验目的是为了考察特征向量个数对识别的影响。

实验5.1及实验5.2的结果分别见表5-1及表5-2。

注:表中,特征向量按其所对应的特征值进行排序,μ1对应的特征值ν1最大,μ16对应的特征值ν16最小

注:这里特征向量个数为1表示只取μ1,特征向量个数为2表示取{μ12},依此类推

由表5-1可以看出,μ1得到的识别率最大,这一点与Turk等人的观点相符,但紧随其后的μ2、μ3、μ4等特征向量得到的识别率却不高;而较后的特征向量μ11、μ12、μ13、μ15等得到的识别率却较高,这一点与 O’Toole等人的观点相符合。图5-8a、b分别是表5-1以及表5-2的更直观表示。

实验5.2的结果表明,特征向量个数取得越多,则识别准确率越高,这说明后面的特征向量对识别也是有贡献的。同时由图5-4b可以看出,特征向量个数少于8时,得到的重构图像只是一个模糊的人脸图像,具有人脸图像的共性,随着特征向量的增加,重构的图像更多的反映了人脸图像的具体特征,从而能够分辨出具体的人脸图像。

由此可以认为,对于人脸图像空间的表示,特征值越大其对应的特征向量所占的成分越多,特征值越小其对应的特征向量在表示中所起的作用越小,这与主成分分析的原理相符合。但对于人脸图像的识别而言,特征向量的选取似乎与特征值的大小没有关系,即O’Toole等人的观点更合理些。

从表5-1以及图5-8a可以发现,每个特征向量的识别能力是不同的,如果将识别能力较强的几个特征向量组合,进行识别,则识别率将会有所提高。这里给出组合特征向量集{μ111121315}的识别率,为75%,对比表5-2可知这相当于其中特征向量个数为8时所达到的识别率。

5.2.3 光照的影响

为了研究光照对识别的影响,进行了以下实验。

实验5.3:光照相同。

① 训练所用的样本图像与待识图像相同,同为16幅头顶上方光源、全镜距尺度、正面人脸图像,如图5-1所示。

② 同实验 5.2 一样,实验中所选取的特征向量个数从 1 取到 16,该实验目的是为了考察光照对识别的影响。实验结果见表5-3。

较理想的实验结果一方面验证了 5.2.1 节中所述的效应,即当待识目标取自训练样本库中时,识别效果较好;同时对比实验5.2的结果发现,在实验5.2中,识别率有所下降,由此可以知道光照对PCA方法有所影响,但影响不很大。

5.2.4 尺度的影响

对于同一个人的人脸,如果光照、背景、旋转等因素都不变,仅仅变换镜头的焦距,拍摄得到的人脸图像也是不一样的。对于识别系统而言,也必须考虑处理这种情况。以下章节,通过实验进一步阐述了这种情况,并提出一种方法,来确定图像的尺度。

1.不同尺度图像的识别情况

在进行人脸图像识别时,尺度是一个必须要考虑的因素。在对目标进行拍摄以得到人脸图像时,不能确保镜头焦距总是固定不变的,而且不同的人脸图像库之间的图像尺度也是不同的。为了考察PCA方法对不同尺度人脸图像的识别情况,共进行了4组实验,实验中所用的图像均来自MIT。

实验5.4:全镜距图像——中镜距图像,光源相同。

① 所用的训练样本为图5-1所示的全镜距、头顶上方光源、正面人脸图像,共有16幅;待识人脸图像为16幅中镜距、头顶上方光源、正面人脸图像,可参看图5-2中的211号图。

② 识别过程中选取不同数量的特征脸,以得到相应的识别率。实验结果如图5-9a中带星号的虚线所示。

实验5.5:中镜距图像——中镜距图像,光源相同。

① 所用的训练样本为16幅中镜距、头顶上方光源、正面人脸图像;待识人脸图像为16幅中镜距、头顶上方光源、正面人脸图像。

② 识别过程中选取不同数量的特征脸,以得到相应的识别率。实验结果如图5-9a中带圆圈的实线所示。

实验5.6:全镜距图像——中镜距图像,光源不同。

① 所用的训练样本为图5-1所示的全镜距、头顶上方光源、正面人脸图像,共有16幅;待识人脸图像为32幅中镜距、光源方向分别为90°以及45°、正面人脸图像,可参看图5-2中的221以及231号图。

② 识别过程中选取不同数量的特征脸,以得到相应的识别率。实验结果如图5-9b中带星号的虚线所示。

实验5.7:中镜距图像——中镜距图像,光源不同。

① 所用的训练样本为16幅中镜距、头顶上方光源、正面人脸图像;待识人脸图像为32幅中镜距、光源方向分别为90°以及45°、正面人脸图像。

② 识别过程中选取不同数量的特征脸,以得到相应的识别率。实验结果如图5-9 (b)中带圆圈的实线所示。

由图5-9可知,如训练样本图像与待识人脸图像的尺度不同则识别率很低,可从图5-9(a)、(b)中的虚线看出;而对于尺度相同的情况,则识别率较高,可从图5-9(a)、(b)中的实线看出。对于尺度相同、并且光照相同的情况,识别率更高,如图5-9(a)中的带圆圈实线所示;而对于尺度相同、光照不同的情况,识别率有所下降,从图5-9 (b)中的带圆圈实线可看出,说明光照对识别有所影响,但不是很大,这与实验5.3所得出的结果相符。

2.不同尺度空间距离

造成上述现象的原因就是不同尺度的人脸图像代表不同的人脸空间,PCA方法提取的是这些空间的主要成分,由不同的人脸空间所得到的主成分也不同,因此根据一种空间的主成分去度量另一种空间的人脸,将会有很大差距。这种差距可根据以下式子进行计算:

式中,I 为待识人脸图像, Iface−space为 I 向人脸图像空间投影所得到的图像,具体计算可参考式(5-1);d为待识人脸图像与相应图像空间的距离。利用式(5-5)可计算不同尺度图像间的距离,为了进一步了解尺度对PCA方法的影响,进行了如下3组实验。

实验5.8:全镜距图像——全镜距、中镜距、小镜距图像。

① 所用的训练样本为图5-1所示的全镜距、头顶上方光源、正面人脸图像,共有16幅;然后分别取48幅全镜距、正面人脸图像,48幅中镜距、正面人脸图像以及48幅小镜距、正面人脸图像,光源方向均为头顶上方、90°方向、45°方向。

② 实验过程为利用式(5-5)计算这3种尺度的人脸图像与训练样本空间的距离。

③ 实验结果如图5-10(a)中所示,图中带星号的线表示 48 幅全镜距图像与样本图像空间的距离,带小圆圈的线表示 48 幅中镜距图像与样本图像空间的距离,带加号的线表示 48 幅小镜距图像与样本图像空间的距离。以下如不特别说明,都采用这种表示形式。

实验5.9:中镜距图像——全镜距、中镜距、小镜距图像。

① 所用的训练样本为16幅中镜距、头顶上方光源、正面人脸图像;所用的测试人脸图像同实验5.8。

② 实验过程同实验5.8。

③ 实验结果如图5-10(b)所示。各曲线的意义说明同实验5.8。

实验5.10:小镜距图像——全镜距、中镜距、小镜距图像。

① 所用的训练样本为16幅小镜距、头顶上方光源、正面人脸图像;所用的测试人脸图像同实验5.8。

② 实验过程同实验5.8。

③ 实验结果如图5-10(c)所示。各曲线的意义说明同实验5.8。

由图5-10可见,对于与样本空间相同尺度的图像,由式(5-5)计算所得到的距离最小,这一点可从图5-10(a)中带星号的曲线、图5-10(b)中带圆圈的曲线以及图5-10(c)中带加号的曲线看出,它们都分别位于相应图的最下方,因为它们代表与相应样本图像尺度相同的图像。

同时从图中还可知道,图像尺度相差越大,其相互间的距离就越大。在图5-10 (a)中,代表中镜距尺度图像的带圆圈曲线位于图的中间,而代表小镜距尺度图像的带加号曲线位于图的最上方,表示与全镜距尺度图像样本空间的距离最大。而在图5-10(b)中,因为全镜距尺度图像以及小镜距尺度图像相对于中镜距样本图像空间而言,距离相差大体一致,所以代表全镜距尺度图像的带星号曲线与代表小镜距尺度图像的带加号曲线在图的上方有些重叠。类似的结果也可从图5-10(c)中得到。

基于同样的原因,相同光源的图像间距离也较小,这一点可分别从图5-10 中的最近距离曲线的前16幅图像与后32幅图像间的结果对比看出,因为前16幅表示头顶上方光源的图像,与样本图像相同,而后32幅不是。并且,可知光照对PCA方法的影响不如尺度的影响大,这也与5.2.3节的结论相符合。

3.图像尺度的确定

根据上节的阐述,不同尺度图像间的差距较大,可以使用 PCA 方法进行图像尺度的识别。为此首先给出尺度模板的定义。

定义5.1:给定 M 幅尺度为 S、头顶上方光源、正面人脸图像,利用 PCA方法得到该图像集合的特征向量,,…,,则由这些向量组成的空间Ωs称为尺度为S的模板。

同时还应该给出模板的阈值Θs,当待测图像I与模板Ωs间的距离d小于Θs时,则I的尺度为S;否则,I的尺度不为S。一般Θs是根据实验结果事先确定的。

若给出不同尺度的图像集合,则可以构造不同尺度图像的模板,如(Ωs1s1), (Ωs2s2),…,(Ωsnsn)。任意给出一幅图像 I,根据式(5-5)可得到 I与不同尺度模板的距离d1, d2,…, dn,取距离最小值所对应的尺度模板(Ωsisi),若di小于Θsi,则将Ωsi作为I的匹配空间,从而根据Ωsi的尺度可以确定I的尺度,否则认为I的尺度不可知。

例如,在上一小节中,取 16 幅全镜距、头顶上方光源、正面人脸图像,可构造全镜距尺度模板Ωf;取16幅中镜距、头顶上方光源、正面人脸图像可构造中镜距尺度模板Ωm;取16幅小镜距、头顶上方光源、正面人脸图像,可构造小镜距尺度模板Ωs。则对于任给出的图像I,利用上述方法可确定其尺度,这一点由图5-10可明显看出。

5.2.5 旋转因素的影响

人脸图像的旋转可分为两种,一种为平面旋转,即人脸在同一平面内进行旋转,人脸的全局信息没有缺失;另一种为深度旋转,这种旋转使得人脸的全局信息会有所缺失,只能得到局部信息。图5-2中标号为112的图像是标号为111的人脸向右平面旋转得来的,而标号为113的图像是左平面旋转图像。图5-11是一个深度旋转的例子。

1.平面旋转图像的识别

在所得到的MIT的人脸图像库中只有平面旋转的图像,而没有深度旋转的情况,这里先考虑PCA对平面旋转的人脸图像的识别情况。为此进行了4组实验。

实验5.11:正面人脸——左平面旋转人脸,光源相同。

① 所用的训练样本为16幅全镜距、头顶上方光源、正面人脸图像;待识别图像为16幅全镜距、头顶上方光源、左平面旋转人脸图像。

② 识别过程中选取不同数量的特征脸,以得到相应的识别率。识别结果如图5-12a中带星号的虚线所示。

实验5.12:左平面旋转人脸——左平面旋转人脸,光源相同。

① 所用的训练样本与待识别图像相同,都为16幅全镜距、头顶上方光源、左平面旋转人脸图像。

② 识别过程同实验5.11,识别结果如图5-12a中带小圆圈的实线所示。

实验5.13:正面人脸——左平面旋转人脸,光源不同。

① 所用的训练样本为16幅全镜距、头顶上方光源、正面人脸图像;待识别图像为32幅全镜距、90°方向以及45°方向光源、左平面旋转人脸图像。

② 识别过程同实验5.11,识别结果如图5-12b中带星号的虚线所示。

实验5.14:左平面旋转人脸——左平面旋转人脸,光源不同。

① 所用的训练样本为16幅全镜距、头顶上方光源、左平面旋转人脸图像;待识别图像为32幅全镜距、90°方向以及45°方向光源、左平面旋转人脸图像。

② 识别过程同实验5.11,识别结果如图5-12b中带小圆圈的实线所示。

由图5-12可以看出,图像的平面旋转对识别影响很大。对比图5-9可知,旋转因素与尺度因素的影响是类似的,同样地可以认为平面旋转人脸图像空间与正面人脸图像空间是两个不同的空间,因此使用正面人脸图像空间的主成分去识别平面旋转人脸图像,识别准确度将降低,这从图5-12(a)、(b)中的虚线可以看出;而使用平面旋转人脸图像空间的主成分去识别旋转人脸图像效果很好,这从图5-12a、b中的实线可以看出。

类似左平面旋转所做的实验5.11~实验5.14,对于右平面旋转图像的识别情况,可相应地做 4 组实验进行研究,具体过程从略,只给出最终的实验结果,如图5-13所示,其中曲线的意义与图5-12相同。

2.平面旋转图像空间距离

同样可以利用式(5-5)计算平面旋转人脸图像空间与正面人脸图像空间的距离。为此进行了如下3组实验。

实验5.15:正面图像——正面、左平面旋转、右平面旋转图像。

① 所用的训练样本为图5-1所示的全镜距、头顶上方光源、正面人脸图像,共有16幅;然后分别取48幅全镜距、正面人脸图像,48幅全镜距、左平面旋转人脸图像,以及48幅全镜距、右平面旋转人脸图像,光源方向均为头顶上方、90°方向、45°方向。

② 实验过程为利用式(5-5)计算这3种姿势的人脸图像与训练样本空间的距离。

③ 实验结果如图5-14(a)所示,图中带星号的线表示 48 幅正面图像与样本图像空间的距离,带小圆圈的线表示 48 幅左平面旋转图像与样本图像空间的距离,带加号的线表示 48 幅右平面旋转图像与样本图像空间的距离。以下如不特别说明,都采用这种表示形式。

实验5.16:左平面旋转图像——正面、左平面旋转、右平面旋转图像。

① 所用的训练样本为16幅全镜距、头顶上方光源、左平面旋转人脸图像;所用的测试图像同实验5.15。

② 实验过程同实验5.15,实验结果如图5-14(b)所示,各曲线的意义说明同实验5.15。

实验5.17:右平面旋转图像——正面、左平面旋转、右平面旋转图像。

① 所用的训练样本为16幅小镜距、头顶上方光源、正面人脸图像;所用的测试图像同实验5.15。

② 实验过程同实验5.15,实验结果如图5-14(c)所示,各曲线的意义说明同实验5.15。

由图5-14可见,对于与样本空间相同姿势的人脸图像,由式(5-5)计算所得到的距离最小,这一点可从图5-14(a)中的带星号的曲线、图5-14(b)中带圆圈的曲线,以及图5-14(c)中带加号的曲线看出,它们都分别位于相应图的最下方,因为它们都代表与相应样本图像姿势相同的图像。

同时从图中还可知道,图像间姿势相差越大,其相互间的距离就越大;反之,则越小。在图5-14(a)中,代表左平面旋转姿势的带圆圈曲线与代表右平面旋转姿势的带加号曲线位于图的上方,并有重叠,这是因为这两种姿势的人脸图像相对于正面姿势的人脸空间而言,距离相差大体一致;而在图5-14(b)中,代表正面姿势的带星号曲线位于图的中间,而代表右平面旋转姿势的带加号曲线位于图的最上方,这是因为正面人脸图像与左平面旋转人脸空间的距离相对于右平面旋转人脸图像与左平面旋转人脸空间的距离要小些。类似的结果也可从图5-14c中得到。

3.图像平面旋转角度的确定

根据上节的阐述,不同姿势图像间的差距较大,可以使用 PCA 方法来确定图像的平面旋转角度。这里给出平面旋转模板的定义。

定义5.2:给定 M 幅旋转角度为 A、头顶上方光源、正面人脸图像,利用PCA方法得到该图像集合的特征向量,,…,,则由这些向量组成的空间ΩA称为旋转角度为A的模板。同时还应该给出模板的阈值ΘA,当待测图像I与模板ΩA间的距离d小于ΘA时,则I的平面旋转角度为A;否则,I的旋转角度不为A。一般ΘA是根据实验结果事先确定的。

这里平面旋转包括向左旋转以及向右旋转。若给出不同旋转角度图像集合,则可以构造不同旋转角度图像的模板,如(ΩA1A1),(ΩA2A2),…,(ΩAnAn)。类似于5.2.4节中关于图像尺度的确定算法,可以确定图像的平面旋转角度。

4.深度旋转图像的识别

为了研究 PCA 方法对深度旋转图像的识别情况,同样也进行了几组实验。实验中所用的图像来自UMIST的人脸图像库,库中图像为对20个目标拍摄而得的,拍摄过程中,目标进行不同角度的深度旋转,平均一个人有40多幅图像,包括各种角度。这里只考察3种旋转角度情况:正面、旋转45°及旋转90°,如图5-11所示。

实验5.18:正面图像——正面、旋转45°、旋转90°图像。

① 训练样本为20幅正面人脸图像,待识图像分别为20幅正面人脸图像、20幅旋转45°人脸图像以及20幅旋转90°人脸图像。

② 识别过程为利用PCA方法识别各种待识图像,实验中利用了20个特征向量,实验结果见表5-4第二列。

实验5.19:旋转45°图像——正面、旋转45°、旋转90°图像。

① 训练样本为20幅旋转45°人脸图像,待识图像分别为20幅正面人脸图像、20幅旋转45°人脸图像以及20幅旋转90°人脸图像。

② 识别过程同实验5.18,实验结果见表5-4第三列。

实验5.20:旋转90°图像——正面、旋转45°、旋转90°图像。

① 训练样本为20幅旋转90°人脸图像,待识图像分别为20幅正面人脸图像、20幅旋转45°人脸图像以及20幅旋转90°人脸图像。

② 识别过程同实验5.18,实验结果见表5-4第四列。

由表5-4 可知,图像的深度旋转对 PCA 方法的识别有很大影响,相同旋转角度图像间的识别情况较好,而不同旋转角度图像间的识别情况较差。

5.深度旋转图像空间距离

同样可利用式(5.5)来计算不同旋转图像空间的距离。为此进行了如下3组实验。

实验5.21:正面图像——正面、旋转45°、旋转90°图像。

① 训练样本为20幅正面人脸图像,测试图像分别为20幅正面人脸图像、20幅旋转45°人脸图像以及20幅旋转90°人脸图像。

② 实验过程为利用式(5-5)计算测试图像与训练样本的空间距离,实验结果如图5-15(a)所示,图中带小圆圈的曲线表示正面人脸图像与训练样本空间距离,带星号的曲线表示旋转45°人脸图像与训练样本空间距离,带加号的曲线表示旋转90°人脸图像与训练样本空间距离,以下图中曲线意义如不特别说明,都采用这种表示形式。

实验5.22:旋转45°图像——正面、旋转45°、旋转90°图像。

① 训练样本为20幅旋转45°人脸图像,测试图像分别为20幅正面人脸图像、20幅旋转45°人脸图像以及20幅旋转90°人脸图像。

② 实验过程同实验5.21,实验结果如图5-15(b)所示,图中曲线意义同实验5.21。

实验5.23:旋转90°图像——正面、旋转45°、旋转90°图像。

① 训练样本为20幅旋转90°人脸图像,测试图像分别为20幅正面人脸图像、20幅旋转45°人脸图像以及20幅旋转90°人脸图像。

② 实验过程同实验5.21,实验结果如图5-15(c)所示,图中曲线意义同实验5.21。

由图5-15 可见,不同深度旋转角度的人脸图像空间差距明显,从而解释了上一小节的实验结果。

6.图像深度旋转角度的确定

图像深度旋转角度的确定方法类似于5.2.4节、5.2.5节所述方法,可以利用PCA方法给出不同深度旋转角度模板的定义,并由此求出待识图像的深度旋转角度,具体可参考上述两节,这里从略。

5.2.6 小结

由上述可知,光照、尺度、图像旋转等因素都会对 PCA 方法的正确识别产生干扰,若待识图像与库中存储的样本不是在同一条件下拍摄得到的,则使用该方法就不能很好地识别。为了得到通用的识别系统,一种解决方法是对于每个目标,在图像库中都有多个样本,如多种尺度模板、多种旋转模板等,另外,也有可能待识图像既有尺度变化同时还有旋转变化,则还需有多种尺度的旋转模板。具体识别时,将待识目标在各个模板空间中利用 PCA 方法进行识别,取最相似者作为匹配对象。显然,这样将使得存储开销空间很大。

另一种解决方法是不必要在库中为每个对象保留多个样本,而是构造一些公共的模板空间,如多尺度模板空间、多平面旋转角度空间、多深度旋转空间等。具体识别时,可以通过5.2.4节、5.2.5节、中所述的方法确定出图像的尺度、平面旋转角度以及深度旋转角度,然后对图像进行尺度标准化、旋转标准化处理,使得待识图像与库中样本图像具有同样的尺度、同样的姿势等,最后利用 PCA 方法进行识别。这种方法比上一种方法效果更好些,其关键在于图像的标准化处理,尤其是深度旋转图像的标准化处理。

总之,使用 PCA 方法能够很好地提取样本集合的主要成分,对于属于同一样本空间的图像能够很好地识别,而对于与样本不为同一空间的图像识别率较低。因此,可根据 PCA 方法的这一特点进行人脸特征的探测,如构造眼睛模板、鼻子模板、嘴部模板等,因为这些模板都代表不同的空间,故能够较精确地进行探测。以下将具体说明这种特征探测算法。

5.3 人脸局部特征探测

如同5.2.4节、5.2.5节中人脸图像的尺度探测、平面旋转角度探测以及深度旋转角度探测一样,可利用 PCA 方法来探测人脸图像的局部特征,如眼睛、鼻子、嘴部等。为此,必须事先定义这些特征的模板。

定义5.3:给定 M 幅正面人脸图像,从每幅图像中提取眼睛区域,形成眼睛图像集合,然后利用 PCA 方法得到眼睛图像集合的特征向量,,…,,则由这些向量组成的空间ΩE称为眼睛模板。同时还可给出模板的阈值ΘE,一般ΘE是根据实验结果事先确定的。

同样,还可相应地定义鼻子模板(ΩNN)、嘴部模板(ΩMM)、局部脸模板(ΩLFLF)等。各局部特征区域的选择如图5-16所示。

图5-16 中方框内表示相应的局部特征区域,框内的十字交叉线的交点为方框的中心点,其中眼睛区域的中心为两眼瞳孔处,鼻子区域的中心取为鼻尖处,而局部脸区域的中心也取在鼻尖处。这里没有采用嘴部区域,这是因为在所有这些局部特征中,嘴部特征是最不稳定的。

5.3.1 逐步求精定位法

进行人脸局部区域的探测可以用全局求精定位法,即在整个图像范围内查找眼睛区域、鼻子区域及嘴部区域等;另外也可以采用逐步求精定位法,即先从一背景图像中将人脸区域查找出来,然后将人脸区域作为背景,将眼睛区域、鼻子区域及嘴部区域等局部区域精确地探测出来。

由于逐步求精定位法利用了人脸各局部区域的空间位置关系,大大地缩小了探测范围,并使定位精度也得到提高。因此,这里使用逐步求精定位法,具体算法如下。

① 在待识人脸图像x处取一待测人脸区域大小的矩形Ο(x),如图5-16(d)所示。

② 利用式(5-2),将O(x)向相应的人脸特征空间Ω 投影,得到投影系数iϖ。

③ 利用式(5-1),计算O(x)的重构图像Orec(x)。

④ 利用式(5-3),计算重构误差ε(x)。

⑤ 判断是否所有位置都探测完,否则,取另一位置x′处的矩形区域O(x′),转到(2)。

⑥ 取重构误差最小处的矩形区域作为待测人脸区域。

⑦ 在已得到的人脸区域内,探测其他人脸特征,如眼睛区域、鼻子区域以及嘴部区域,具体探测过程同上。

⑧ 结束。

具体进行探测时,由图5-16(d)可见,局部脸区域的中心点又是鼻子区域的中心点,故鼻子区域可直接得到。

5.3.2 实验

为了测试人脸特征探测的准确率,这里使用来自ARPA/ARL的FERET人脸图像库进行实验,这是因为它含有大量的样本图像,不像MIT的人脸图像库中只有16个样本。这里采用了 145 个人脸样本,每个样本取两幅图像,分别称为 fa 及 fb,共有290幅。这两幅图像间尺度、姿势都大体相同,仅光照及表情有些变化。

实验中取46幅fa人脸图像作为训练样本进行训练。在训练过程中,首先手工提取眼睛区域、鼻子区域及局部脸区域,得到相应的特征区域集合,并利用PCA方法,得到相应的局部特征空间,称为特征眼空间、特征鼻空间及局部特征脸空间,其中局部特征脸空间如图5-17所示。实验过程如5.3.1节中所述。根据上述思想,共进行了4组实验。

实验5.24:使用训练样本作为测试图像。

① 训练样本取46幅fa图像,测试图像同训练样本。

② 实验过程为探测人脸局部区域、眼睛区域及鼻子区域的位置。实验结果见表5-5第二列。

实验5.25:使用训练目标的另一样本作为测试图像。

① 训练样本取46幅fa图像,测试图像为训练目标的另一样本图像,为46幅fb图像。

② 实验过程为探测人脸局部区域、眼睛区域及鼻子区域的位置。实验结果见表5-5第三列。

实验5.26:使用非训练样本作为测试图像。

① 训练样本取46幅fa图像,测试图像为库中其他目标图像,取99幅fa图像。

② 实验过程为探测人脸局部区域、眼睛区域及鼻子区域的位置。实验结果见表5-5第四列。

实验5.27:使用非训练样本作为测试图像。

① 训练样本取46幅fa图像,测试图像为库中其他目标图像,取99幅fb图像。

② 实验过程为探测人脸局部区域、眼睛区域及鼻子区域的位置。实验结果见表5-5第五列。

注:探测准确与否是指与实际位置相差不超出5个像素点

由表5-5可以看出,使用PCA方法对于人脸各局部特征的探测准确率是较高的,尤其对于非样本图像特征的探测也是较高的。这说明所取的局部特征向量受训练样本效应的影响较小,如果将训练样本扩大,特征探测准确率还将有所改善。

图5-18所示为一特征探测例子,其中图5-18(a)为测试人脸图像,图5-18(b)为特征探测结果。

同样还可构造旋转人脸图像特征模板,对旋转人脸图像局部特征进行探测,图5-19给出一旋转人脸特征探测例子,其中图5-19(a)为测试人脸图像,图5-19(b)特征探测结果。

5.4 利用局部特征识别人脸图像

如同可对整幅人脸图像进行 PCA 分析,得到全幅图像的主成分,并用于人脸图像的识别一样,也可利用局部特征的主成分进行人脸图像的识别。P. Penev[52]认为, PCA方法是一种全局分析技术,不能提取样本集合的拓扑结构信息以及每个像素点处的局部信息,因此如果利用局部特征进行识别,就可以人为地利用样本集合的拓扑结构,得到样本的局部结构信息。

而且,局部特征具有抗干扰能力强的特点,例如图像全局特征可能会出现较大变化,但在某一局部区域可能变化很小。这时利用全幅图像的特征向量空间进行识别有可能识别不出,而利用局部特征的特征向量空间进行识别往往能够识别。图5-20所示为利用局部特征识别人脸图像,其中图5-20(a)为库中图像(取自UMIST人脸图像库,共有20幅),图5-20(b)为待识别人脸图像,两者整体上相差较大,但右眼区域变化相对较小。

识别时,首先利用全局特征向量进行识别,实验结果表明,不能正确识别;然后利用局部特征眼睛向量空间进行识别,实验结果表明,能够正确识别。

为了进一步考察局部特征的识别能力,进行了如下两组实验。

实验5.28:使用局部特征对深度旋转人脸图像的识别。

① 所用训练样本图像以及待识图像均取自 UMIST 的人脸图像库,训练样本为20幅正面人脸图像,如图5-20(a)所示;待识人脸图像为20幅深度旋转人脸图像,旋转角度为45°,如图5-20(b)所示。

② 识别过程为:分别利用全局特征向量空间、局部右眼特征向量空间、局部鼻子特征空间、嘴部特征空间进行识别。识别结果见表5-6第二列。

实验5.29:使用局部特征对正面人脸图像的识别。

① 所用训练样本图像以及待识图像均取自 FERET 的人脸图像库,共取自 99 个不同的人脸,每个人提供两幅正面图像,只是表情稍微有些变化,分别标记为fa、fb,如图5-16和图5.18所示;训练样本为99幅fa图像,待识人脸图像为99幅fb图像。

② 识别过程为:分别利用全局特征向量空间,局部左、右眼特征向量空间,局部鼻子特征空间,嘴部特征空间进行识别。识别结果见表5-6第三列。

注:实验5.28中由于待识图像的左眼区域不可见,因此不用于识别

由表5-6可见,仅使用局部特征也能够进行识别,且对于图像深度旋转、部分缺失等情况,相对于全局特征向量识别,其优越性更加明显;同时利用局部特征进行识别,还不受图像背景以及图像偏移的影响。本书第6章将利用局部特征的这一特性,得到人脸图像的双属性图表示。

5.5 小结

本章在实验的基础上对 PCA 方法在人脸图像识别中的应用作了深刻揭示,主要讨论了训练样本效应、光照、尺度、旋转等因素对识别的影响,并指出对于不同的干扰会形成不同的图像空间,且图像空间之间存在一定距离,由此使得 PCA 方法在应用于不同图像空间的识别时效果较差。因此在处理这些干扰情况时,需要对图像做相应的预处理,以使待识图像与库中训练样本处于同一空间,或者在库中保存每个图像的多个样本,但这种方法存储空间开销较大,并且对于无法得到多个样本的情况很难应用。

PCA方法作为一种样本统计分析技术,能够提取样本集合的主成分,并利用这些主成分来表示相应的样本空间,应用于整个人脸图像集合,可得到整个人脸图像空间的主成分;同时也可应用人脸图像的局部特征集合,得到这些局部特征空间的主成分,根据不同空间的距离原则,可以进行人脸局部特征的提取。

同时,如Penev[52]所指出的,PCA方法是一种全局分析技术,不能提取样本集合的拓扑结构信息以及每个像素点处的局部信息,对于图像的偏移、缺失、旋转、光照等变化都看作一种全局变化,故其无法处理图像局部变化的情况。但如果利用人脸图像局部特征进行识别,就可以较好地利用样本集合的拓扑结构,得到样本的局部结构信息,并用于识别。这些局部特征对于图像的全局变化有一定的抗干扰能力,实验5.28充分证明了这一点。

相关图书

GPT图解 大模型是怎样构建的
GPT图解 大模型是怎样构建的
大语言模型:基础与前沿
大语言模型:基础与前沿
扩散模型从原理到实战
扩散模型从原理到实战
ChatGPT原理与应用开发
ChatGPT原理与应用开发
人工智能(第3版)
人工智能(第3版)
ChatGPT写作超简单
ChatGPT写作超简单

相关文章

相关课程