人工智能创新启示录:技术前沿

978-7-115-55580-9
作者: 中国电子信息产业发展研究院(赛迪研究院)
译者:
编辑: 高阳

图书目录:

详情

本书为中国人工智能产业创新联盟《智能之巅》丛书的技术分册,重点聚焦人工智能的关键前沿技术,先对人工智能技术领域进行了概述,主要介绍核心及前沿领域的发展现状和趋势,并分析国内外人工智能发展战略;之后深入介绍、分析支撑或影响人工智能产业发展的核心和前沿技术,如计算机视觉、智能语音语义、人工智能芯片等。 本书适合人工智能、互联网和计算机行业的从业人员和研究人员(技术岗位和非技术岗位),以及创投相关人员阅读参考。

图书摘要

智能之巅 中国工程院院士 王恩东 作序

REVELATION OF ARTIFICIAL INTELLIGENCE INNOVATION
Technology Frontier

人工智能创新启示录
技术前沿

中国电子信息产业发展研究院(赛迪研究院) 编






人民邮电出版社
北京

内容提要

本书重点聚焦人工智能的关键前沿技术,先对人工智能技术领域进行概述,主要介绍核心及前沿领域的发展现状和趋势,并分析国内外人工智能发展战略;之后深入介绍、分析支撑或影响人工智能产业发展的核心和前沿技术,如计算机视觉、智能语音语义、人工智能芯片等。

本书适合人工智能、互联网和计算机行业的从业人员和研究人员(技术岗位和非技术岗位),以及创投相关人员阅读参考。

丛书前言

人工智能是引领未来的前沿性、战略性技术,已经成为国际竞争的新焦点和经济发展的新动能,正在对经济发展、社会进步、国际政治格局等产生重大而深远的影响。党的十九大报告中明确提出,要“推动互联网、大数据、人工智能和实体经济深度融合”。习近平总书记在中共中央政治局第九次集体学习时强调,要深刻认识加快发展新一代人工智能的重大意义,促进其同经济社会发展深度融合,推动我国新一代人工智能健康发展。

我国高度重视人工智能技术与产业发展。2017年,国务院发布《新一代人工智能发展规划》,为我国的人工智能发展进行了总体部署。工业和信息化部于2017年12月印发《促进新一代人工智能产业发展三年行动计划(2018—2020年)》,提出了促进新一代人工智能产业的总体思路和原则,推动人工智能和实体经济的深度融合,助力实体经济转型升级。随着政策环境的建立及优化,近几年来,我国的人工智能产业一直保持着迅猛发展的势头,在产业链建设、政策推动、行业应用、投融资发展等方面不断取得新进展。

2017年6月,中国电子信息产业发展研究院(赛迪研究院)联合人工智能领域的软硬件企业、应用企业、投资机构、高校院所等共同发起组建了“人工智能产业创新联盟”,其使命之一,就是从需求出发、从产业出发,密切联系实际,推动产学研用协同,增强我国人工智能技术创新与产业发展能力。目前,联盟成员单位已超过300家,许多联盟成员在我国人工智能产业发展方面发挥了重要作用。

为了更好地服务行业、推动创新、推广应用,中国电子信息产业发展研究院(赛迪研究院)于2017年12月创刊了《人工智能》杂志,旨在关注人工智能领域的全新进展,汇聚多方智慧和权威思想,促进人工智能产业健康快速发展。《人工智能》杂志确定了主题期刊的形式,每期围绕一个主题,邀请行业企业和专家学者撰写高质量文章,确保每期都能成为主题领域技术与产业发展方面最新信息动态的汇集地。从实践看,这种形式获得了广泛认可,也使《人工智能》杂志的影响力日益扩大。

在此基础上,中国电子信息产业发展研究院(赛迪研究院)组织编撰了《人工智能创新启示录》,以《人工智能》杂志的重点内容为基础,精选了近200位业界一线专家学者的数十篇文章,对人工智能及其重点细分领域的发展状况、发展趋势、机遇挑战等进行分析,对产业研发、生产、应用等环节进行梳理。《人工智能创新启示录》分为上、下两册,上册《人工智能创新启示录:技术前沿》主要聚焦计算机视觉、智能语音语义、人工智能芯片等核心底层技术,下册《人工智能创新启示录:赋能产业》则深入探讨了人工智能与机器人、交通、医疗等行业的融合发展。

我们希望《人工智能创新启示录》能够更好地帮助业界相关人士了解人工智能创新发展态势,促进人工智能知识的普及、交流和提升,助力国内外人工智能产业快速、健康发展,为我国人工智能产业的创新发展贡献绵薄之力。

中国电子信息产业发展研究院(赛迪研究院)院长 张立

人工智能的发展可追溯至20世纪30年代,著名的人工智能先驱阿兰·图灵提出了通用机的理论,随后又提出了“智能机械”“图灵测试”等概念。1956年,约翰·麦卡锡、马文·明斯基、克劳德·香农、纳撒尼尔·罗切斯特等人发起的达特茅斯会议,则标志着“人工智能元年”的开启。

在经历了60余年的潮起潮落后,人工智能终于在21世纪第二个十年迎来了第三次爆发。2016年,DeepMind旗下的围棋程序“AlphaGo”战胜世界围棋冠军李世石这一事件,将人工智能的讨论推向了高潮。而2012年,杰弗里·辛顿领导的团队利用深度学习在ImageNet挑战赛中夺冠,便已为以深度学习为代表的第三次人工智能浪潮埋下了伏笔。

算力不断提升、算法不断演进、数据不断积累,人工智能正呈现出日新月异的发展态势,并在制造、医疗、教育、交通、媒体、金融等各行业各业大放异彩;人工智能创业公司的融资额屡创新高,行业独角兽不断涌现;越来越多的国家和地区争相发布人工智能发展战略,以图抢占发展制高点。

然而,在产业蓬勃发展的同时,我们亦不能忽略,在很多层面上,人工智能依然面临着诸多挑战。相对于人类智能,人工智能还仅仅处于“婴儿时期”,在认知智能、决策智能、控制智能、运动智能等方面,机器能够完成的任务,距离人类还有显著的差距,通用人工智能的梦想还遥不可及。

为了解决当前人工智能面临的各种瓶颈,越来越多的业界人士开始探索实现通用人工智能的方法论。理论不断进化,胶囊网络、无监督学习、联邦学习、小样本学习、强化学习、类脑计算等正快速演进;模式不断创新,人工智能与边缘计算、云计算等正加速融合;应用不断迭代,产业智能化、智能产业化正推动更多行业转型,智能经济的边界不断拓展。

全球人工智能竞争发展的大幕已经悄然拉开,我国已从国家战略层面为人工智能的发展进行了定位,将其摆在新一轮科技革命和产业变革的首要位置。本书立足全球视野,聚焦中国声音,以政产学研用金等各方视角,纵观政策、技术、产品、应用、挑战等各个方面,相信对读者全方位了解人工智能相关技术和应用的发展现状、未来趋势等都会有所启发。

中国工程院院士 王恩东

前言

人工智能是一个较为宽泛的概念,概括而言就是通过对人的意识和思维过程的模拟,利用机器学习和数据分析方法,赋予机器类人的能力。在移动互联网、大数据、超级计算、传感网、脑科学等新理论、新技术的驱动下,人工智能加速发展,呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征,正在对经济发展、社会进步及国际政治等方面产生重大而深远的影响,已成为引领未来的战略性技术,是新一轮科技革命和产业变革的重要驱动力量,在带动经济高质量发展、支撑供给侧结构性改革、打造高质量的现代经济体系、促进社会进步等方面发挥着越来越重要的作用。

从世界范围来看,人工智能技术的发展主要呈现以下三大趋势。

首先,机器学习仍是当前人工智能产业的核心技术。从趋势来看,机器人控制、决策规划等与工业应用息息相关的人工智能应用技术有望在未来占据主导地位。从基础技术来看,机器学习在人工智能基础技术中占据主导地位,其中神经网络与深度学习是机器学习中增长速度最快的两个子领域。从应用技术来看,计算机视觉、自然语言处理以及语音处理是目前最为火热的三大领域,其中生物特征识别、语义分析和语音转换分别为这三大领域中技术进展更新最快的子领域。

其次,人工智能技术正逐渐从理论转向商业应用。从趋势来看,2013年之后全球的人工智能应用才进入爆发期,滞后于人工智能理论研究十余年,未来人工智能产业的焦点将逐渐由热门理论研究转向对应的商业应用。例如,热门的计算机视觉技术将催生交通产业的人工智能商业应用。从应用领域来看,以智能手机为代表的通信产业、以无人驾驶为代表的交通产业,以及以智慧医疗为代表的医疗健康产业,是目前人工智能应用最为广泛的三大产业,其中交通产业的人工智能应用呈爆发式增长。

最后,在知识产权和专利方面,人工智能发展的主导力量愈发明晰。从国别角度来看,中、美已成“双强”,两国在人工智能各个领域的专利申请数量和科技出版物数量均领先于其他国家。从产业角度来看,企业已成为人工智能发展的主力军。根据世界知识产权组织发布的《人工智能技术趋势:2019》,全球前30名专利申请人中,在企业中工作的多达26人,而在大学及研究机构中工作的只有4人。上述企业多分布于消费电子、电信、软件、电力、汽车等领域,而大学及研究机构则主要关注分布式人工智能、神经科学、机器学习等基础领域。

展望未来,人工智能技术的发展还将面临四大挑战。一是就业方面,人工智能技术可能会颠覆现有职业体系,引发失业问题,加剧社会不公平。二是安全方面,人工智能的应用安全风险将集中体现在两个具体领域,即无人驾驶汽车的系统安全漏洞、针对人工智能算法的黑客攻击。三是数据隐私和伦理道德方面,人工智能需要依赖海量数据改进算法模型,但其发展可能会对个人数据隐私构成威胁;同时,基于数据的人工智能技术可能会加剧甚至恶化不良行为,从而引发社会偏见和集体暴力。四是超级智能方面,目前各界对奇点是否将要来临存在争论,人类如何在智能时代妥善处理人与机器之间的关系尚属难题。

本书将主要从计算机视觉、智能语音语义、人工智能芯片等人工智能热点前沿技术入手,深入探讨人工智能技术的发展现状、热点和未来挑战。

编者

CHAPTER 01 计算机视觉

导读

计算机视觉是让计算机能够像人一样“看”到事物,进而进行感知、识别和理解的技术领域。根据所“看”对象的不同,计算机视觉可分为人脸识别和图像识别两大类。计算机视觉的应用领域相当广泛,人脸识别被广泛应用于门禁、考勤、身份认证、刑事侦查等领域,图像识别目前主要应用于工业视觉检测、文字识别、无人驾驶、视频结构化等领域。本章主要介绍计算机视觉的发展历史、技术前沿和应用实践情况。

1.1 计算机视觉发展概述

1.1.1 计算机视觉的发展之路

* 关键词:计算机视觉 技术发展

* 作 者:王生进

计算机视觉是一个相当新且发展十分迅速的研究领域,现已成为计算机科学的重要研究领域之一。计算机视觉是模拟人类视觉的人工智能技术,用机器来“看”图像、“理解”图像。长期以来,人类持续不断地试图从多个角度去了解生物视觉和神经系统的奥秘,取得的阶段性理论研究成果已经在人们的生产、生活中发挥了不可估量的作用,而计算机场景识别的发展之路才刚刚开始。今天,计算机视觉的应用已渗透到机器人、天文、地理、医学、化学、物理等宏观及微观世界的各个研究领域。有人预言,计算机视觉是实现智能机器人和第五代计算机的关键因素之一。

1. 计算机视觉的起源与发展

计算机视觉是利用电子设备生成对生物视觉模拟的一门学科。计算机视觉是研究如何让计算机能够像人类那样“看”的科学,它用摄像机和计算机代替人眼,使得计算机拥有类似于人类的那种对物体进行分割、分类、识别、跟踪、判别决策的功能。作为当前热点的研究方向,计算机视觉试图建立从图像或多维数据中获取“信息”的人工智能系统。

计算机视觉理论于20世纪70年代由戴维·马尔(David Marr)提出,其将生物视觉视作复杂的信息处理过程,并抽象出3个层次,分别为计算理论、算法和实现。计算理论层次主要研究计算机视觉问题的表达,即如何将计算机视觉任务抽象为数学问题;算法层次则是对照研究数学问题的求解方法;而实现层次是研究算法的物理硬件实现。马尔尤其强调信息表征和信息处理的作用,其提出的视觉计算理论对模式识别和计算机视觉研究影响深远。马尔的理论给计算机视觉的多个研究领域创造了起点,早期的计算机视觉借鉴了统计模式识别的思想。计算机视觉从其诞生之初即为综合性的学科方向,与视觉认知科学、信号处理、计算机科学等多学科密切关联;同时,计算机视觉又是人工智能的重要研究方向,伴随着人工智能的起伏,计算机视觉也经历了多个发展时期。

计算机视觉源于20世纪50年代的统计模式识别,当时的工作主要集中于二维图像分析和识别,如光学字符识别,以及工件表面、显微图片和航空图片的分析和解释等。20世纪60年代,罗伯茨(Roberts)通过编写计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述。罗伯茨的研究工作开创了以理解三维场景为目的的三维计算机视觉的研究。

20世纪70年代,计算机视觉的研究主要立足于从二维图像中构建三维几何结构,三维结构重建是主要的研究方向。20世纪70年代中期,MIT(Massachusetts Institute of Technology,麻省理工学院)人工智能实验室正式开设了“计算机视觉”课程,由著名学者B.K.P.霍恩(B. K. P. Horn)教授主讲。同时,MIT人工智能实验室吸引了国际上许多知名学者参与计算机视觉的理论、算法、系统设计的研究,马尔教授就是其中的一位。他于1973年应邀在MIT人工智能实验室领导了一个以博士生为主体的研究小组,1977年提出了不同于“积木世界”分析方法的计算视觉理论,该理论在20世纪80年代成为计算机视觉研究领域中的一个十分重要的理论框架。到了20世纪80年代中期,计算机视觉获得了迅速发展,主动视觉理论框架、基于感知特征群的物体识别理论框架等新概念、新方法、新理论不断涌现。计算机视觉的方法论也开始在这个阶段有了一些改变,人们发现,要让计算机理解图像,不一定先要恢复物体的三维结构,而是可以将先验知识和看到的物体特征进行匹配,以实现认知。

20世纪90年代,基于多视几何的视觉理论也得到了迅速发展。统计学习方法引发了一次较大的变革,支持向量机等统计学习方法在计算机视觉中广泛应用。同时,研究者们也开始关注局部特征。与颜色、形状、纹理等底层特征相比,局部特征通常具备一定的视角和光照稳定性,即不随着视角和光照的变化而变化。20世纪90年代末期,一次名为“感知器(Perceptron)”的革命,带动了大数据和机器学习的蓬勃发展。进入21世纪后,计算机视觉与计算机图形学的相互影响日益加深,基于图像的绘制成为研究的热点。

2. 计算机视觉的广泛应用

计算机视觉的概念自提出以来,工业界便注意到了其应用价值。然而,在随后的十多年时间里,由于当时的计算机硬件水平较低,因此制约了计算机视觉技术的发展。随着CCD(Charge Coupled Device,电荷耦合器件)在美国贝尔实验室被发明出来并逐步应用于工业相机传感器中,计算机视觉技术终于走上应用舞台,并在第一时间投入工业机器视觉系统中。20世纪80年代,日本的基恩士(Keyence)及美国的康耐视(Cognex)两家公司共同引领了计算机视觉在工业机器中的发展浪潮。康耐视公司于1982年生产的视觉系统DataMan,是全球第一套工业OCR(Optical Character Recognition,光学字符识别)系统。

伴随着GPU(Graphics Processing Unit,图形处理单元)制造业的迅速发展,以及机器学习尤其是深度学习算法的突飞猛进,计算机视觉技术呈现出豁然开朗的良好发展态势。尽管计算机视觉技术本身的发展远未达到业界所期盼的高度智能水平,但在产业应用上已出现井喷势头,涉及包括工业生产、军事、医疗、安防、智能交通、无人驾驶、虚拟现实等在内的多个社会应用领域,如图1-1所示。在个人消费领域,计算机视觉技术更是延伸到了传统数码产品、无人机、家用机器人等新兴电子消费品中。

3. 视觉机理结合深度学习对计算机视觉的强大推动

计算机视觉进入大众视野并成为科技焦点是最近几年的事情。深度学习这一有力工具的加入,在提高计算机视觉的大众关注度方面功不可没。

一方面,深度学习在一定程度上受到神经科学的启发,试图在大脑神经机理层面上对动物、人类进行模拟,让人们看到了真正意义上实现人工智能的曙光。当一个物体经肉眼成像后,其影像从被视神经接收,到最终被大脑识别、理解,需要经过多层神经归纳与传递。深度学习正是采用了颇为类似的自下而上传递、从敏感细节到感知全局、逐层抽象的做法,如图1-2所示,对图像在一个典型的卷积神经网络模型中不同层的特征进行可视化,能够观察到:低层特征主要响应点、边缘等细节信息,中层特征主要响应纹理、部件等较抽象信息,而高层特征主要响应类别、语义等高度抽象信息。此外,深度学习常用的卷积神经网络结构,与动物视觉神经的机理也有相似之处。

另一方面,深度学习使计算机视觉的能力水平达到了前所未有的高度。2012年,知名科学家杰弗里·辛顿(Geoffery Hinton)带领的团队采用卷积神经网络的方法,在当年的ImageNet大规模图像分类竞赛中,以绝对优势获得第一名。自此以后,在越来越多的计算机视觉细分领域中,深度学习方法的水平大幅超越传统计算机视觉方法,并仍在逐年快速攀升。

深度学习在计算机视觉中初露锋芒,吸引了学术界、工业界甚至金融界的强烈兴趣、密切关注与大量投入。近年来,计算机视觉三大顶级会议(CVPR、ICCV、ECCV)的论文中,半数以上的论文与深度学习相关;国外如苹果等科技巨头均以深度学习为主力方向牵引其在人工智能、计算机视觉方向的战略发展;国内一些科技公司也围绕深度学习打造其核心竞争力。面对这一现象,一些理智的学者、专家也发出了声音。例如,著名华人数学家朱松纯曾多次呼吁,计算机视觉研究人员在深度学习大潮的冲击下,应保持“正本清源”。被誉为“深度学习教父”的辛顿也对深度学习广泛采用的反向传播方法提出了怀疑,认为深度学习存在“推倒重来”的可能。深度学习与计算机视觉仍面临着无数的未知与巨大的挑战,有待学术界和工业界协力探索。

4. 计算机视觉的发展和研究方向

进入21世纪后,大规模数据集的出现和计算机硬件的发展,为基于大数据的计算机视觉研究提供了平台支撑,直至2010年以后深度学习的爆发。Yann LeCun(杨立昆)提出的卷积神经网络、辛顿在Science上发表的深度神经网络训练方法等为深度学习的发展打下了基础。

计算机视觉是人工智能及机器人科学中颇为活跃和卓有成效的前沿领域。计算机视觉的终极目标,是使机器视觉能够像人类视觉一样,具有智能的视觉感知和认知能力,包括实现复杂目标的识别、丰富场景的理解,甚至人类感情流露的察觉。同时,还希望能够将语言与计算机视觉相结合,将视觉的结果加以表达,或完成某项指定的任务,如图1-3所示。截至2018年,人脸识别权威测试库LFW(Labled Faces in the Wild)的准确率已经达到99.8%,超过了人类97%的准确率;ImageNet的目标检测准确率超过66%。2017—2019年,在国际计算机视觉两大顶级会议上发表的论文,在五大前沿领域都有了令人赞叹的新进展,包括低中层视觉、图像描述生成、三维视觉、计算机视觉与机器学习理论、弱监督下的图像识别等。CVPR 2019和ICCV2019上发表的论文和专家报告表明,自然场景理解和与语言结合的计算机视觉,将是今后一个时期计算机视觉研究的发展方向和进一步研究的挑战性课题。自然场景理解和与语言结合的计算机视觉,将搭建起一座跨越人类和机器之间鸿沟的桥梁,方便人与机器之间的交流,为人机和谐的机器系统奠定良好的技术基础。

1981年,出生于加拿大的美国神经生物学家戴维·休布尔(David Hubel)和托尔斯滕·威塞尔(Torsten Wiesel),以及罗杰·斯佩里(Roger Sperry)获得了诺贝尔生理学或医学奖。休布尔和威塞尔的主要贡献是“发现了视觉系统的信息处理”——可视皮层是分级的。这个发现,促成了计算机视觉技术在几十年后的突破性发展——从低级的V1区提取边缘特征,到V2区提取形状或者目标的部分等,再到更高层的提取整个目标以及目标的行为等。高层特征是低层特征的组合,从低层到高层的特征表示越来越抽象,语义或意图表现越来越明显。当前深度学习中的深度神经网络就是基于上述机理发展而来的。因此,新的视觉机理和生理结构的发现,将对计算机视觉的发展起到重要作用。

未来计算机视觉研究的重点,将包括(但不限于)以下几个方向:

• 人类视觉机理研究;

• 自然场景理解研究;

• 三维图像重建研究;

• 视频图像理解研究;

• 基于视觉的情感理解研究。

当前计算机视觉领域的研究尚处于发展阶段,在大多数应用场合,计算机视觉与人的视觉相比仍处在较低水平。未来计算机视觉研究的突破性进展,依赖于人对自身视觉机理的深入探索。未来计算机视觉将在工业、交通、遥感、天文气象、医学及军事学等领域有极大的应用前景。

1.1.2 计算机视觉:让机器看懂世界

* 关键词:计算机视觉 产业链 国内外发展

* 作 者:温晓君 王茜 冯晓辉

随着人工智能产业的不断成熟和应用场景的不断扩展,计算机视觉的优势逐渐凸显。凭借其对解放劳动力和提高工业、生活效率的作用,市场需求也将随之增加,未来计算机视觉将逐步渗透到人们的日常生活中。工业制造领域或将成为计算机视觉最广阔的应用蓝海。

1. 计算机视觉概述

(1)计算机视觉的内涵

计算机视觉是指用计算机来模拟人的视觉系统,实现物体识别、形状方位确认、运动判断等功能,以适应、理解外界环境和控制自身运动的技术。简言之,计算机视觉是旨在研究如何使机器“看”的科学,是人类视觉在机器上的延伸。计算机视觉综合了光学、机械、电子、计算机软硬件等方面的技术,涉及计算机、图像处理、模式识别、人工智能、信号处理、光机电一体化等多个领域。在深度学习算法的助力下,计算机视觉技术的性能取得了极大提升,成为人工智能的基础应用技术之一,是实现自动化、智能化的必要手段。

计算机视觉技术承自图像处理、机器视觉(Machine Vision)等技术,但三者又有所不同。图像处理是基于数字图像的基本特征对图像进行处理的技术。机器视觉是用机器视觉产品代替人眼进行目标形态信息测量判断的技术。与图像处理相比,计算机视觉往往包含图像处理过程,并增加了模式识别等功能;与机器视觉侧重精确的几何测量计算相比,计算机视觉更侧重于感知和识别。

(2)计算机视觉的技术体系

计算机视觉的关键技术可依据图像处理流程,分为图像处理技术、图像特征提取技术和图像识别判断技术,如图1-4所示。

图像处理技术是基于数字图像的基本特征对图像进行处理的技术。图像处理一般包括图像预处理和图像分割:图像预处理包括平滑去噪、标准化配准、缺失值/异常值处理等;图像分割是将目标与背景分隔开来,方法包含灰度分割、专家经验分割、统计分布分割等。图像处理的目的是去除不相关信息,将目标从背景中提取出来。图像处理的作用在于加速训练进程、增加模型的稳定性,从而提高识别准确率。图像处理技术的关键在于动态复杂场景中背景模型的建立、保持与更新。当背景发生动态变化或被遮挡时,检测难度会大大增加。

图像特征提取技术是从图像中提取一组能够反映图像特性的基本元素或数值来描述原图像。特征提取是计算机视觉中较为初级的运算,其用映射方法将高维空间的原始低层特征变换为低维空间的高层新特征,从而有利于分类。可提取的特征包括颜色、纹理、形状、空间关系等。不同的特征有不同的提取方法,颜色特征的提取方法有颜色直方图、颜色聚合向量等;纹理特征的提取方法有统计法、信号处理法等;形状特征的提取方法有便捷特征法、傅里叶形状描述符法等;空间关系特征的提取方法有图像分割等。

图像识别判断技术是结合预测模型实现目标辨认、分类与解释的技术。当前,图像识别判断技术主要基于深度学习算法,后者是通过一系列多层的非线性变换对数据进行抽象的算法,用于模拟数据之间的复杂关系。计算机视觉领域主要的深度学习架构有GoogLeNet、ResNeXt、RCNN、YOLO等。图像识别判断技术依据识别种类可细分为生物特征识别技术、光学字符识别技术、物体与场景识别技术和视频对象提取与分析技术等。

(3)计算机视觉的产业链构成

计算机视觉产业链包含基础支撑层、技术提供层和场景应用层3个环节,如图1-5所示。

(资料来源:赛迪智库整理,2017年10月)

基础支撑层包括芯片和底层算法两部分。芯片主要为处理数据、运行算法提供运算能力,是计算机视觉产业链后续环节的基础。定制化的视觉处理芯片能以较低的功耗带来优秀的图形处理能力,是计算机视觉技术性能的决定性因素之一。底层算法主要是人工智能的各类深度学习算法,可使计算机通过训练自主建立识别逻辑,大幅提升图像识别准确率。目前,用于计算机视觉的高性能芯片主要由英特尔、英伟达和AMD等厂商把持,国内外差距很大。底层算法库主要由微软等厂商垄断;国内的百度、阿里巴巴、腾讯等互联网公司主要致力于提供开源的深度学习平台。

技术提供层包括图像识别平台和嵌入式视觉软件两类。图像识别平台可直接提供应用服务,主要从大量信息和数据出发,在已有认识的基础上自动识别;嵌入式视觉软件则需要集成在硬件终端中使用,利用数字处理和智能算法理解图像和视频。具体的计算机视觉技术包含视频对象提取、视频追踪、人脸识别、场景识别、字符识别、物体识别等。目前,计算机视觉技术在科技巨头、技术型创业公司等的推动下蓬勃发展,但尚未形成成熟的产业格局,国内外众多创业公司有较大的发展机遇。

场景应用层包含应用系统开发和终端产品开发两类。与技术提供层的图像识别平台和嵌入式视觉软件相对应,计算机视觉的产品形式可依据应用场景的具体需求采用软硬一体化的终端产品形式。计算机视觉的应用范围十分广泛,可用于智能安防、智慧交通、娱乐营销、智能制造、医疗诊断等领域,还可集成于VR/AR、无人机、机器人、智能网联汽车等诸多终端产品中。目前,计算机视觉技术的应用仍处于起步阶段,该环节存在大量创业公司,他们致力于积极开拓产品线,将计算机视觉应用在工业制造和消费服务两大领域,未来必将开拓出广阔的发展空间。

2. 国内外计算机视觉产业发展现状

(1)国外计算机视觉产业发展情况

① 发展特点

国外大型科技公司加强计算机视觉技术自主研发,广泛应用于自身产品升级。谷歌打造结合计算机视觉等多项技术的“黑科技”,提供智能识别搜索;微软研究院“牛津计划”开放API为开发者提供认知服务;苹果基于iOS和macOS提供照片管理应用;IBM打造Watson技术平台;脸书搭建两大实验室专注于基础研究与产品应用,并与谷歌、VisionLabs公司合作推出通用计算机视觉开源平台。

并购重组成为整合产业链上下游与加速产业布局的重要方式。国外互联网企业以图像识别、建模公司为并购或合作对象,整合产业链上下游,加强计算机视觉技术在重要领域的应用。亚马逊收购以色列顶级计算机视觉团队用于无人机领域;谷歌收购初创公司Moodstocks、视觉追踪技术创业公司Eyefluence进军VR领域;英特尔先后收购计算机视觉技术开发公司Itseez、计算机视觉芯片开发商Movidius,在无人驾驶、核心芯片领域抢占先机。

国外知名高校设立计算机视觉实验室,高度重视相关技术研发。美国斯坦福大学、麻省理工学院以及加州大学伯克利分校等著名高校专门设立计算机视觉实验室。美国斯坦福大学的计算机视觉实验室以计算机视觉和人类视觉为重点研究分支,在计算机视觉方面重点突破目标识别、人类运动识别、材料识别等智能算法;加州大学伯克利分校的视觉团队以对象、人类和活动的识别为重点研究方向。

② 产业链各环节重点企业

计算机视觉产业链可以分为上游的基础支撑、中游的技术提供和下游的场景应用,基于此,国外计算机视觉产业链各环节重点企业可以归纳为表1-1。

(资料来源:赛迪智库整理,2019年10月)

(2)国内计算机视觉产业发展情况

① 发展特点

国内计算机视觉的优势以下游应用为主。计算机视觉产业链上游的软件开发和芯片设计环节的核心技术长期被国外垄断,我国的主要优势则集中于下游应用领域。数据显示,2015年我国计算机视觉应用的三大领域为:半导体与电子制造、汽车和制药,其占比分别为46.4%、10.9%、9.7%。随着消费升级催生出更丰富的应用场景,无人驾驶、娱乐营销、医疗诊断的应用需求日益攀升。

国内创业热度高涨,明星创业团队不断涌现。国内进入计算机视觉领域的公司数量在2011年后显著增加,2011—2015年平均每年增加的公司数超过10个(见图1-6),特别是涌现出了一批以依图科技、商汤科技、旷视科技、云从科技和格灵深瞳等为首的创业公司,其技术团队核心成员大多拥有前述工业界及学术界知名机构的研究经验。在我国人工智能细分领域企业数量分布统计情况中,计算机视觉与图像领域企业有146家,排名第一。排名第二、第三的分别为智能机器人企业(125家)和自然语言处理企业(92家)。

计算机视觉与图像领域融资金额领跑。截至2017年6月30日,我国人工智能融资金额为635亿元。其中,计算机视觉与图像领域融资金额为158.3亿元,融资金额最多;自然语言处理领域融资金额为122.36亿元,排名第二;排名第三的是无人驾驶/辅助驾驶领域,融资金额为107.15亿元。

(资料来源:36氪)

人脸识别成为竞争的热点,未来应用场景仍待深入。人脸识别是计算机视觉领域的竞争热点,2016年我国计算机视觉领域排名前五的公司全部以人脸识别为核心业务,而且均获得过A轮及以上融资。金融、安防领域的人脸识别均为重点布局场景,如旷视科技主攻人脸识别,为阿里巴巴旗下支付宝等金融平台提供面部扫描系统。未来,机器人视觉、无人机视觉也将成为人脸识别的重要布局领域。因此,可以说,我国的视觉识别技术探索应用虽处于初期阶段,但未来仍有广阔的应用发展空间。

② 产业链各环节重点企业

按产业链各环节划分,我国计算机视觉重点企业可以归纳为表1-2。

(资料来源:赛迪智库整理,2019年10月)

3. 计算机视觉技术的应用现状及趋势分析

(1)计算机视觉为智能安防保驾护航

计算机视觉在安防领域的应用主要有静态图像识别和动态图像识别。静态图像识别主要是指人脸识别、指纹识别、虹膜识别等生物特征识别,具有安全可靠、高效便捷、易于大量处理等特点,可用于身份鉴定、工作考勤、访客管理、公共场所安检等场景。动态图像识别主要是指视频识别、行为识别等视频对象提取与分析,可用于视频监控、疑犯追踪、人流分析、防暴预警等场景。

计算机视觉技术在智能安防领域的应用也存在一些问题和瓶颈。一是生物特征识别技术不够完善,指纹识别易用性高但安全性不足且易受影响,人脸识别和虹膜识别安全性很高但技术不成熟,受光线、遮挡等因素的影响仍然较大。二是市场处于初步探索阶段,产业细分程度不足,各领域的区分较为模糊。三是信息安全问题凸显,个人信息泄露是最大隐患。

生物特征识别技术将成为智能安防的核心技术,其中,指纹识别的市场份额呈现下降趋势,人脸识别将逐步成为主流的选择。基于生物特征识别技术的智能视频监控和智能视频检索将成为智能安防领域的两大热门方向,可通过不间断的海量监控信息,分析预测潜在的安防危险事件。当前我国的安防产业已进入建设高峰期,预计各细分领域未来5年的市场需求将有20%~80%的增速,总体年增长率将保持在20%以上。基于计算机视觉技术的智能安防将在商业、金融、工厂、学校、住宅、交通、监狱等领域或场景中得到广泛应用。

(2)计算机视觉将在智慧交通领域加速推广普及

计算机视觉技术在智慧交通与智能网联汽车领域的应用潜力巨大,可用于交通管理、辅助驾驶等方面。视频对象提取与分析技术可用于车牌识别、非法停车检测、车辆违章抓拍、疲劳驾驶识别、车流分析预测等场景。物体与场景识别技术是机器感知周围环境的基础技术,可协助汽车采集环境和地标数据、监测车道和道路、识别交通信号、监测车辆和行人目标等。

计算机视觉技术在智慧交通领域应用的问题和瓶颈在于:一是技术性能及成熟度不够,物体与场景识别技术仍处于早期发展阶段,产业化整体水平无法满足智慧化交通管理和高级别无人驾驶的需求;二是相关产品造价较高,阻碍了计算机视觉技术的推广应用;三是国内企业起步晚,主要集中于应用层面,底层关键技术储备薄弱;四是资源在产业间的跨界整合不到位,尚未形成完整的生态系统。

随着物体与场景识别、视频对象提取与分析等技术不断成熟,计算机视觉技术将在智慧交通及智能网联汽车领域加速推广普及,在车辆违章管理、交通事故监测、交通状况预测、高级别无人驾驶等方面得到应用。计算机视觉属于技术高度密集的产业,用户倾向于选择完整的产品服务,“软硬件+服务”“本地+云端”的整体解决方案模式将成为主流。

(3)计算机视觉进入娱乐营销领域,市场空间广阔

计算机视觉技术在娱乐营销领域的应用包括边看边买、图搜索(智能识别贴图应用)、智能植入广告、门店用户画像和人像美图等。其中,图搜索和人像美图受关注度较高。数据显示,2017年上半年网民对计算机视觉行业的整体了解程度还不深,但智能识别贴图应用以63.8%的了解比例位列各领域之首,网民对其余领域的了解比例均未超过五成。目前的应用案例见表1-3。

(资料来源:赛迪智库整理,2019年10月)

计算机视觉进入娱乐营销领域,应用不断突破,市场空间广阔。未来,基于视频图像的分析技术可以以广告形式与客户需求进行更精准的匹配,在视频中精准植入广告,提升转化率。即通过视频识别,对识别对象、物品建立判断标签,而后根据标签内容进行商品个性化推荐,计算机视觉技术的应用可期。

(4)计算机视觉被广泛应用于工业制造领域

机器视觉被称为“工业自动化之眼”,计算机视觉在工业自动化领域的应用被称为“机器视觉”。通过将计算机的高速性、可重复性与人眼视觉的高度智能化及抽象能力相结合,计算机视觉大幅提高了生产的柔性化和自动化水平,因此被广泛应用于工业制造领域。

图1-7所示为2014—2018年全球机器视觉市场规模。

(资料来源:格灵深瞳)

半导体与电子制造是计算机视觉技术在工业领域最大的应用市场。半导体与电子制造品质要求高、迭代更新快,催生了视觉检测需求,成为计算机视觉技术最大的下游应用市场,应用于电子元件制造、集成电路制造、元器件成型、电子工模具等设备生产过程中的精密定位(引导)、检测、测量、读码四大方面。

视觉定位广泛应用于电子制造领域,为高精度装配操作和其他制造流程校准元件,视觉检测在电子元件中的应用大大提升了产品性能和生产效率。计算机视觉技术有效提高了工业在线测量的连续性和精准度,同时也显著提升了生产效率和产品质量。工业制造领域或将成为计算机视觉技术最广阔的应用蓝海。

(5)计算机视觉提升医学领域的智能化水平

计算机视觉技术应用在医疗影像诊断器械上,可提高检测效率与精确度。计算机视觉技术的应用可以高效完成对图像信息的采集、存储、管理、处理和传输,在图像资料的管理和利用方面实现质的提升。计算机视觉将图像采集卡、摄像头、算法软件等与各种医疗影像设备配套起来,帮助医生更快、更清晰地掌握患者的情况。成像结果分辨率高的特点将促使检测过程具有测温精确、快速等优势。

国内外的医学影像公司正助推计算机视觉在医疗领域的应用。DeepCare、推想科技、雅森科技等公司将计算机视觉中的图像识别技术应用于医学影像,提升医学领域的智能判断水平;Enlitic、推想科技等公司基于大量的电子病历,实现对医学影像的诊断分析,帮助医生提升影像诊断效率;Arterys、雅森科技等公司着眼于对医学影像数据本身的解读,帮助医生提高影像诊断的精准度。

随着人们对慢性疾病预防的日渐重视,全球的影像诊断设备市场规模不断增长(见图1-8)。我国的医疗器械市场规模位居世界第三,且医疗影像诊断设备在医疗器械细分市场中规模最大。国内外影像诊断设备的市场规模基础将为计算机视觉技术在医疗领域的应用提供重要支撑,为其带来广泛应用。

(资料来源:中国产业信息网)

4. 展望与建议

(1)发展展望

随着计算机视觉技术的发展,其行业应用场景和范围将进一步扩大,这将极大地解放劳动力并提升生产、生活效率,市场成长潜力巨大。

① B端业务优先,C端业务发展

相对于C端(消费类用户),B端(商业用户)尤其是生产密集型企业对于计算机视觉具有更清晰的应用场景认知和更迫切的应用需求。从B端入手,计算机视觉产业更容易形成量产,并通过应用体验传播为大众普及奠定基础,进而向C端市场传导。目前一些商家正着力于布局工业、农业领域的计算机视觉应用,其中一些大规模作业过程并不像电商、安保监控那样对精度需求很高,有望成为计算机视觉继商业和交通应用之后的下一个应用热点。

② 物联网感知的前端智能化成为大势所趋

一些物联网应用场景具备很高的实时响应要求。例如,在安防领域,人脸分析算法智能安防摄像机使前端设备成为数据采集设备和DPU(Data Processing Unit,数据处理单元)的合体,既提升了图像实时处理速度,又可以处理云端难以解决的弱光、暗光等图像问题,提高监控效率。随着计算机视觉技术的进步,更多的物联网前端智能化产品将不断出现。

③ 软硬一体化的解决方案更具竞争力

人脸检测是计算机视觉领域发展最成熟、进入企业最多的一个领域。一些企业仅以视觉计算软件提供简单场景的人脸检测服务,由于技术壁垒较弱,导致竞争激烈,难以生存。计算机视觉技术的引爆点在于能解决复杂应用场景的识别问题,例如基于人脸检测的客流分析、基于机器人或智慧家电的视觉系统等。对于此类解决方案,单一的软件技术无法契合用户需求,用户更倾向于选择完善的、打包好的产品,从而避免使用时还需学习相关知识,浪费时间和精力。因此,高集成度、软硬一体化的解决方案在未来更具竞争力。

④ 优质场景数据的掌握和挖掘是关键

数据是计算机视觉公司发展的生命线。掌握大量连续不断优质场景的数据以及先进的数据价值挖掘技术,将对企业商业模式、数据模式的发展产生协同倍增效应。美国医疗影像识别领域的大量训练数据和图像被谷歌和脸书所垄断,小型计算机视觉创业公司发展严重受限。未来,计算机视觉创业公司的发展,或通过自有平台获取数据,或选择与拥有数据源的大公司进行合作,同时须选择一个具体场景进行商业落地,从而实现快速的数据循环。

⑤ 对机器认知机理的深入了解有望带来飞跃

计算机视觉的经典方法是运用神经网络,即深度学习的方式。由于机器认知事物的规则需要被预先设定,而这种设定不能被穷举,因此错误不可避免。目前的神经网络系统中虚拟神经元处理信息并互相连接的运行方式对于人类来说还属于黑匣操作。只有深入了解机器神经网络每一层的机理和每一次逻辑推算的方式,才能确保机器的行为具有可预测性。届时,包括计算机视觉在内的人工智能技术将会迎来一次质的飞跃。

(2)促进我国计算机视觉产业发展的措施与建议

① 强化原始创新,增强技术产品源头供给

围绕未来长期的国家战略以及行业和民生应用需求,寻求在人工智能、计算机视觉基础前沿理论、底层软硬件平台与架构、核心制造工艺、关键零部件配套等领域形成变革性突破,强化创新源头储备。

② 壮大创新主体,培育计算机视觉创业独角兽

鼓励计算机视觉相关创业企业、创业团队与国内外顶尖高校实验室、科研机构和独立技术团队以入股、收购等方式深度绑定,形成完善的产学研组织体系,加速成果转化。培育形成一批核心技术能力突出、集成创新能力强、引领技术演进和产业生态发展的独角兽企业,以个体优势形成群体突破。

③ 建设一批支撑高水平创新的基础设施和公共服务平台

在计算机视觉领域建设一批具有国际水平、突出产业交叉融合和协同创新的国家工程实验室。加快建设和利用好超算中心、云计算中心等信息基础设施,形成基于大数据的先进信息网络支撑体系。引导社会资本加快科技服务和产业服务公共平台建设,提供共性技术研发设计、中试熟化、检验检测认证、创业孵化、知识产权交易等各类服务。

④ 推进重点行业领域试点示范应用

瞄准行业、民生、公益应用需求,加快计算机视觉技术和解决方案的应用。鼓励地方、企业组织实施应用示范项目,探索可推广、可复制的应用模式和商业模式,总结优秀案例和发展经验并宣传推广。

1.2 计算机视觉技术前沿

1.2.1 从感知到认知:全面构建“视觉+”智能体系

* 关键词:计算机视觉 感知视觉 认知视觉

* 作 者:苏舟 胡平 蔡东琪 王山东 姚安邦 郭怡文 李建国 侯宇清 陈玉荣

人工智能的发展包含了人们对于未来人工智能太多的渴望和诉求。一直以来,自动捕捉、识别乃至理解人类的情感,都是人工智能领域中一项意义非凡却极具挑战的技术。而如今,情感识别在机器人、动画制作、在线教育、精神疾病诊治等领域有着广阔的应用前景。同时,深度学习技术的崛起更是推动着计算机视觉实现从感知到认知的跨越式发展。

2017年7月26日,在计算机视觉顶级会议CVPR 2017上,ImageNet大规模视觉识别挑战赛正式宣布结束。这标志着一个时代的终结:图像识别的错误率已经降低到2.3%,远低于人类的5.1%。但这同时也意味着一个新时代的开启:计算机视觉的重点将由感知转向认知,更加侧重对视觉内容的学习和理解。

目前,英特尔中国研究院正全面在视觉认知计算领域发力,从二维/三维人脸分析与情感识别合成、深度网络结构设计和压缩、视觉内容解析与多模态分析三个方向,构建一个以视觉为中心的智能体系。

1. 二维/三维人脸分析与情感识别

基于多年研究,英特尔中国研究院开发了一整套领先的二维人脸分析技术,包括人脸检测跟踪、人脸关键点检测跟踪、人脸识别,以及人的表情、性别、年龄识别等。这套技术具有十余项自主知识产权,并被成功地应用到英特尔的硬件(英特尔集成显卡)、软件(英特尔实感技术SDK)、应用(视频实时美颜)以及解决方案(物联网视频分析端到端解决方案)中,帮助提升英特尔架构的用户体验。

2. 自然场景下的聚合监督情感识别算法

Gartner曾预测,情感分析作为一个分裂性的消费市场将在未来5~10年成熟,且市场规模将高达320亿美元。数据、算法和计算能力的繁荣发展与融合点燃了人工智能,催生了深度学习技术的迅速崛起,奠定了深度卷积神经网络在诸多计算机视觉任务中的统治地位。经过多年发展,深度卷积神经网络在情感识别方面已经获得了全面领先的性能。

然而,在情感识别领域,绝大多数的方法依然是将时下主流的深度卷积神经网络直接迁移到情感识别的任务中。神经网络结构的加宽加深,可以有效提高识别的准确率,但由于只引入了输出层的监督信号,因此模型的训练效率受到很大限制。

英特尔中国研究院提出了SSE(Supervised Scoring Ensemble,监督分数集成)深度卷积神经网络,使用了两个独特设计:聚合监督信号的引入和分数连接结构,将识别准确率提高到60.34%,超过了目前所有的公开结果。聚合监督表情识别模型如图1-9所示。

首先,在网络的浅层、中间层和深层设计中,英特尔中国研究院设计了监督块(见图1-10),分别命名为SS_Block、IS_Block、DS_Block,将监督信号引入除输出层外的隐藏层。

其次,设计了分数连接层(见图1-11),将不同监督块的预测概率进行概率分数的融合,使监督信号能有效地在不同的块中发挥作用。

至此,SSE深度卷积神经网络——一种高精度的深度卷积神经网络情感识别解决方案诞生了。相关论文发表在2017年度的ACM ICMI国际会议上,与论文相关的源代码也在逐步开源中。

注:本书中带*的图、表详见彩色版。

3. 渐进式网络量化模型

英特尔中国研究院提出了一种名为INQ(Incremental Network Quantization,渐进式网络量化)的神经网络无损低比特量化技术。给定任意结构的全精度浮点神经网络模型(如AlexNet、VGGNet、GoogLeNet和ResNet),INQ技术能高效地将其转换成无损的低比特二进制模型,从而很好地解决现有神经网络量化压缩方法的不足,为深度神经网络在定制化硬件上的部署、加速等开辟新途径。

研究人员此前已经提出了很多神经网络量化压缩方法,但现有方法存在两方面的应用瓶颈:其一,来自量化压缩过程的模型精度损失依然不可忽视,在一定程度上限制了量化后模型的使用接受程度;其二,大多数量化压缩方法仅适用于处理特定的模型结构或者特定类别的层,在一定程度上限制了方法的泛化能力和量化压缩的性能。

英特尔中国研究院提出的INQ技术,极其有效地解决了现有方法泛化能力不足、模型精度损失明显,以及重训练时间长等问题。

INQ技术提出了渐进式神经网络量化的思想,其核心是引入参数分组、量化和重训练这3种操作。首先,将全精度浮点神经网络模型中的每一层参数分为两组,第一组中的参数将被直接量化并固定,而另一组中的参数将通过重训练以补偿量化给模型造成的精度损失。然后,上述3种操作将依次迭代应用到完成重训练后的全精度浮点参数部分,直到模型完全量化为止,如图1-12所示。通过巧妙耦合参数分组、量化和重训练操作,INQ技术降低了模型量化造成的性能损失,从而在实际应用中适用于任意结构的神经网络模型。

值得一提的是,INQ技术还包含另外两个亮点。其一,在模型量化过程中,所有参数被限制成二进制表示,并包含零值,极限量化的结果即为三值网络或二值网络。这种量化使得最后的模型非常适合在硬件上部署和加速。比如在FPGA(Field Programmable Gate Array,现场可编程门阵列)上,复杂的全精度浮点乘法运算将被直接替换为简单的移位操作。其二,现有神经网络量化压缩方法在处理二值网络或三值网络时,为了让模型精度损失不至于太大,往往将模型的第一层和最后一层参数依然保留为全精度浮点型,在对模型的所有参数进行量化的同时,实现了性能的全面领先。图1-13所示为INQ技术示例。

第一行:依次为参数分组、量化与重训练。

第二行:迭代过程(绿色区域代表当前已经被量化的网络参数;浅紫色区域代表需要重训练的网络参数)。

基于业界具有挑战性的ImageNet图像分类任务,英特尔中国研究院的研究人员给出了一系列令人激动的实验应用与结果,具体见表1-4至表1-6。

首先,英特尔中国研究院的研究人员将INQ技术应用到了时下所有的主流深度神经网络模型上。以AlexNet、VGGNet、GoogLeNet和ResNet为例,通过5bit量化(其中1bit专用于表示零值,下同),模型分类精度全面超越了原始的全精度浮点模型。以ResNet-18为例,在4bit和3bit条件下,INQ技术能够做到无损量化。尽管在三值量化时,量化后的模型精度有少许损失,但损失程度远低于目前业界已知的结果。

其次,研究人员将INQ技术与之前英特尔中国研究院发表在NIPS2016上的“DNS”(Dynamic Network Surgery,动态外科手术)技术相结合,实现了深度神经网络二进制量化压缩。以AlexNet为例,英特尔中国研究院首次实现了接近无损的、百倍级、二进制的神经网络模型,如表1-7所示。

最后,研究人员进一步将INQ技术从只量化模型参数推广到了不但量化模型参数,而且量化模型每一层的输入和输出。以VGGNet为例,首次实现了无损的、低比特、全量化的神经网络模型,如表1-8所示。

涉及该方法的相关论文发表在ICLR 2017上。ICLR作为深度学习领域的顶级会议,获准发表的论文都会得到业内人士的极大关注,从而对深度学习的发展产生相当大的推动作用。据不完全统计,在ICLR 2017接收的196篇论文中,英特尔中国研究院的INQ技术是唯一一项完全出自我国的研究工作成果。

4. 视觉内容解析与多模态分析

在计算机“能看”“会说”之后,我们就希望它能够打通视觉和语言的边界,“说出所看”。对人而言,用一句话描述一张图片或一段视频是很简单的任务,但对计算机而言,这不仅要求它能够准确检测、识别出图像中的物体,还要深入理解物体之间的关系,提取出最关键的内容,甚至包含图像的抽象概念。

(1)弱监督视频密集描述生成模型

近年来,如何自动生成视频描述引起了研究人员的广泛兴趣。我们希望计算机在看到一段视频的时候,可以根据视频的内容“讲故事”,弱监督视频密集描述生成模型如图1-14所示。但是,视频密集描述生成模型的训练通常需要大量复杂的并且带有一定主观性的人工标注。在目前的数据集构建过程中,标注人员会在看过一段视频之后,用一句话描述视频的内容。但是,一段视频中通常会发生几个不同的事件,而由于标注人员具有一定的主观性,因此既不知道他的描述具体针对哪个事件,也不知道他所描述的事件对应不同帧上的哪一个区域。现有方法的局限在于:或者认为一段视频当中只发生了一件事,只需要生成一句描述;或者需要训练标注人员对视频中的不同事件以及事件对应的不同区域进行详细的标注。这些都给视频的标注工作和结果评估带来了巨大的困难。

针对上述问题,英特尔中国研究院联合复旦大学率先提出了弱监督视频密集描述生成的方法,其不需要训练数据对视频中的不同事件和对应区域进行分别标注,而仅仅使用标注人员对视频的一句话描述,就可以自动生成多角度的视频描述,并从中挑选出最具代表性的描述语句。这样,计算机就不用人“手把手教”,而是可以做到“举一反三”,如图1-15所示。

这个模型分为以下3个部分。

首先,在提取视频特征时,采用了FCN单词模型,使用MIML(Multi-Instance Multi-Label Learning,弱监督多实例多标签学习)算法,构建一个从视频区域序列到单词的弱映射,从而得到一个包含语义信息的视频特征。

从图1-16可以看出,虽然训练数据并没有提供每个单词对应视频帧的位置,但模型还是可以捕捉到视频在不同帧中对单词响应最大的区域。

其次,生成视频区域序列时,采用子模块最大化方案,根据FCN单词模型的输出,在视频中自动生成具有多样性的区域序列。这种方法可以保证区域序列具有一定的信息量,在不同帧的区域选择上具有内容一致性,还能够最大限度地保留区域序列之间的差,如图1-17所示。

最后,根据已生成的视频区域序列,使用双向LSTM(Long Short Term Memory,长短期记忆)模型生成对应的描述语句。在已生成的多个语句中,通过计算语句的信息量得分,可以从中挑选出最具有整体代表性的语句描述。从实验结果可以看出,自动生成的语句具有内容上的多样性,如图1-18所示。即使只衡量视频的单个描述结果,语句质量依然优于其他模型。

弱监督视频密集描述生成方法提供了在视频训练数据对区域标注不完整的情况下,计算机自动获取并从多角度生成语义丰富的视频描述的解决方案(见图1-19),也将机器的视觉理解向着更少人工、更全面理解的方向推进了一步。相关论文发表在CVPR 2017上。

(2)级联优化网络高清实景合成

目前,多数图像生成模型是利用GAN(Generative Adversarial Networks,生成式对抗网络)结构来实现的,但这种方法有其弱点,主要表现在以下3个方面:图像尺寸受限、图像不够逼真、训练困难。针对上述问题,美国斯坦福大学的陈启峰和英特尔中国研究院的科学家弗拉德连·科尔通(Vladlen Koltun)合作,率先提出了级联优化网络模型,端到端地训练从语义分割草图到高清实景的前馈网络(CRN)。CRN结构将语义分割草图看作图像的草稿,通过一连串多尺度的优化模块,还原或描绘出含有丰富细节的真实图像。

优秀的图像生成模型需满足以下3个特点。

第一,全局协调性。图像中物体的结构往往并不是独立存在的,而是可能具有一定的对称性。

第二,高分辨率。为了实现照片级的效果,模型必须有能力生成高分辨率的图像。

第三,记忆能力。人类在通过草图来复现场景的时候,会以记忆中的真实图景作为参考。

同样的,图像生成模型也要有足够大的容量和足够高的记忆能力来恢复草图中缺失的真实场景的细节,如图1-20所示。

为了使模型满足上述3个特点,设计了一个由多分辨率倍增模块组成的级联网络。第一个模块M0只输入一个分辨率缩小到4×8的语义分割草图。接下来的优化模块的输入来自两个部分:上一层的要素图层Fi-1和缩小到相同分辨率大小的语义分割草图。每一次输出的Fi分辨率的长和宽都是这一次输入的Fi-1的两倍,如图1-21和图1-22所示。

这样的级联优化结构具有以下3个优势。

第一,在CRN早期的优化模块中,大范围特征是通过相近范围的参数来表示的,在其后分辨率逐渐增加的时候,全局的协调性可以得到保留。

第二,相比于GAN通常只能生成小图像,无法实现端到端训练,CRN通过控制优化模块串接的数量,可以不断得到更高分辨率的生成图像,并且做到端到端的训练。论文中最多实现了200万像素(1024×2048)的图像生成。

第三,CRN可以通过增加优化模块来增加网络容量,进而提高图像质量。

在实验部分,图像生成较好的评价标准就是人工比较。在Cityscapes和NYU两个数据集上,CRN和其他算法分别生成两个图像,由人来判断哪个图像更有可能是真实的。如果两种算法生成的图像质量相同,那么人判断CRN更真实的概率应该是50%。实验结果表明,CRN的生成结果极大地优于其他算法。

从生成的图像来看,CRN的结果更平滑、物体更清晰、细节更丰富。美国康奈尔大学的诺厄·斯内夫利(Noah Snavely)曾评价说,这是他见过的最大、最详细的人工生成场景。而这样逼真的图像结果,所需要的训练样本仅仅分别为3000个(Cityscapes)和1200个(NYU),如表1-9和图1-23所示。

这篇论文被国际计算机视觉顶级会议ICCV 2017收录,并被邀请在会议上做口头报告。相应的源代码也在一段时间内登顶了GitHub热门项目Python排行榜。未来这项工作可能被应用于构建虚拟现实场景,比如渲染视频游戏等多个领域。

5. 总结

人类目前在计算机视觉领域所取得的成功,很大程度上得益于大规模的数据、高效的算法和强大的计算能力。为了推动人工智能创新,英特尔进行了战略投资,其中涵盖技术、研发以及与企业、政府、学术界和社会团体的合作。除了主流的人工智能研究之外,英特尔还研究神经形态计算,探索新的架构和学习模式。人工智能解决方案需要各种能力和性能以满足应用需求,英特尔提供的人工智能平台将以优异的性能表现、集成能力、安全性和可靠性来优化人工智能产业的发展路径。

英特尔的产品可以支持广泛的人工智能研发,主要包括以下4个方面。

第一,英特尔®至强®可扩展处理器系列——为不断演进的人工智能应用提供高度可扩展的处理器,并为最密集的深度学习训练提供代号为Lake Crest的专用芯片。

第二,英特尔®Mobileye——用于主动安全和无人驾驶等专门用途的视觉技术。

第三,英特尔FPGA——用于深度学习推理的可编程加速器。

第四,英特尔®Movidius——在边缘提供机器学习的低功耗视觉技术。

人工智能尚处于初级阶段,随着其不断发展,英特尔将继续推进计算领域的颠覆性方案研发,以支持当今和未来的复杂应用需求。然而,我们面临的挑战依然严峻:虽然网络上存在海量的图片和视频,但其中带有标签且可供训练的数据还远远不够;当前能够在限制条件和场景中表现优异的模型,在复杂的自然环境下往往面临鲁棒性、有效性、实时性的挑战;数据规模和模型容量的增长,也对人工智能处理器或嵌入式人工智能提出了新的需求。

现在的人工智能如同蹒跚学步的孩童,等待着科学家的进一步“启蒙”。我们相信,未来将被创造,计算机可以真正看懂这个世界,成为人类得力的队友。

1.2.2 从识别到检测:视频中的人类动作理解研究

* 关键词:计算机视觉 动作理解 视频分析

* 作 者:熊元骏 林达华

视频是生活中的一种常见媒体形式。各种媒体数据,就存储数据量而言,绝大部分都是以视频的形式存在的。视频可以同时记录观察对象的形态信息以及运动信息,视频的主要内容常常包含人类的各种动作,例如体育运动、生活事件、人与人的互动、人与物品的交互等。因此,研究视频中人类动作的理解,最近几年逐渐成为广受关注的领域,这个领域涉及的问题包括动作分类、动作检测、动作人分割,以及视频描述等。香港中文大学MMLab(Multimedia Laboratory,多媒体实验室)近年来对这个领域进行了深入而广泛的研究,取得了一系列世界领先的研究成果,在众多国际比赛(如THUMOS、ActivityNet)中夺得多项世界冠军。下面将逐一介绍香港中文大学MMLab研究团队基于深度学习,对视频动作理解中两个重要问题——动作分类与动作检测(时序)所进行的一系列研究。

1. 时序分割网络:对已剪辑的动作视频进行分类

作为视频动作理解中最基本也是最核心的问题,视频剪辑中的动作识别(Action Recognition in Trimmed Videos)一直是研究的热点领域。早期,人们使用手工设计的特征描述它,如STIP(Spatial Temporal Interest Point,时空兴趣点)、DT(Dense Trajectory,密集轨迹)以及改进的DT等来提取视频特征,并训练标准分类器[如SVM(Support Vector Machine,支持向量机)、逻辑回归等]来进行动作识别。随着深度学习在图像识别中的成功,研究者们也逐渐开始使用深层模型来处理视频信息。

在基于深度学习的动作识别方法中,有两种主流的思路。第一种思路是将视频看作三维的图像数据,即水平方向、垂直方向、时间轴方向3个轴,使用三维卷积神经网络(3D CNN)来直接学习视频的深度模型。沿着这一思路,较具代表性的就是达特茅斯学院和脸书联合提出的C3D(Canonical 3D)方法。第二种思路是对视频中的图像信息和运动信息分别进行处理,最后再将提取出来的特征或预测结果进行合并。这种思路其实在深度学习兴起之前也有不少工作使用传统方法对其进行过探索。在2014年的NIPS(神经信息处理系统)大会上,英国牛津大学的VGG研究组基于CNN(Convolutional Neural Network,卷积神经网络)提出了双流式卷积神经网络(Two-Stream CNN)方法。它使用两个独立的CNN分别处理由视频的图像帧表示的图像信息和由帧间光流(Optical Flow)表示的运动信息,最后将两个CNN各自的动作分类结果进行融合得到最终的分类结果。该方法在提出时就取得了非常好的识别性能,不亚于最好的传统方法。

上述这些早期的深度学习视频识别方法都只使用非常短的视频小片段(10~16帧)进行训练和预测。虽然这样可以将训练的代价控制在合理范围内,但却无法利用动作中持续较长时间的时序结构来进行学习。针对这个问题,人们提出了诸如LRCN(Longterm Recurrent Convolutional Network,长期时间递归卷积网络)等方法试图对长时间的时序结构进行建模。但这些尝试均基于一个简单的模式,即将视频内某段时间的所有帧输入CNN模型或CNN-RNN联合模型中进行端到端训练。这种模式带来了很大的困惑,即要处理一般长度的视频就会导致无法接受的空间和时间消耗,以至于只能将视频截断,而无法对完整的动作进行建模。

针对这一问题,香港中文大学MMLab创造性地提出了一种全新的利用完整动作视频训练动作识别模型的方法,称为TSN(Temporal Segment Networks,时序分割网络)。TSN基于一种新的对长时间时序结构进行建模的思路,称为稀疏采样。稀疏采样是相对于之前方法所使用的密集采样而言的。在稀疏采样中,每一个视频在每个训练的迭代中仅采样固定数量的短片段(Snippet),这些短片段将较均匀地分布在整个视频的时间轴上。模型在训练中使用这些采样得到的短片段来表示整个视频,并进行模型学习。由于使用了固定数量的短片段,因此训练模型的计算代价可以不再受到视频长度的影响。同时,由于这些短片段较均匀地分布在整个视频的时间轴上,可以使模型较好地从整个视频的动作过程中学习时序关系。因此,基于稀疏采样的思想可以在降低计算代价的同时,提高对长时间时序关系建模的能力。

TSN(见图1-24)就是基于稀疏采样的思想提出的一种高效而精确训练动作识别模型的框架。

在TSN中,香港中文大学MMLab提出使用一种简单的方法来实现稀疏采样。首先将一个输入视频分成K个等长的分段,K取3、5或7均可。对于每个分段,随机选取一个短片段,这里的一个短片段包含一帧视频图像帧(RGB Frame)和5帧堆叠的光流图像(Stacked Optical Flow Frames)。这K个被选取的短片段各自通过共享模型参数的CNN模型来得到对应分段的动作类别预测。这些分段的预测结果通过一个分段归并模块进行合并,从而得到视频级的预测结果。TSN使用视频的动作类别标签来对整个模型进行监督并学习模型参数。在训练过程中,在分段内随机的帧采样还可以起到一定的数据增强(Data Augmentation)的作用。

通过稀疏采样与视频级监督信息的结合,TSN使训练过程变得非常高效,并可以有效地利用较长时间视频中的时序结构信息来获取更好的视频特征。在两个具有代表性的视频动作识别数据集——UCF101和HMDB51上,TSN都取得了较好的识别效果。在2016年的首届ActivityNet大赛中,香港中文大学MMLab使用TSN夺得了视频分离项目的冠军,并在赛后分享了所有模型与训练代码,帮助整个社区共同进步。在2017年的ActivityNet大赛中,视频分类冠亚军及排名前列的队伍均广泛使用了TSN。这些都说明香港中文大学MMLab提出的TSN方法产生了重大影响。

2. UntrimmedNets:从依赖有剪辑视频到直接从未经剪辑的视频中学习分类模型

在提出稀疏采样思路与TSN之后,香港中文大学MMLab的研究者并不满足于在已经剪辑的视频上取得良好的识别效果,于是开始探索从时间长且未经剪辑的视频中直接学习动作识别模型并对长视频进行分类。大规模标注视频中的动作实例以进行剪辑是一项非常耗时、耗力的工作,而目前能直接获取的视频数据绝大部分是未经剪辑的。在过去,对时间长且未经剪辑的视频的理解一直被视为一项非常艰苦的任务。由于时间长,可能造成更大的计算代价。同时由于视频未经剪辑,视频中与动作无关的内容可能会严重影响模型的特征提取与预测精度。基于稀疏采样的思想,香港中文大学MMLab提出了UntrimmedNets——一种直接使用未剪辑的长视频进行模型学习和预测的新方法。

UntrimmedNets的基本示意如图1-25所示。UntrimmedNets首先将长视频按照自动镜头检测(Shot Boundary Detection)的结果切割成一些剪辑(Clips)。在训练模型的阶段,每次从整个视频中随机采样固定数量的剪辑,对每个剪辑进行类似于TSN的分段式稀疏采样,这样每次均可得到固定数量的短片段来代表整个视频。与TSN所面临的问题有所不同,这里采样得到的每个剪辑并不一定都含有与动作相关的信息。因此,在生成视频级别的预测结果时,需要设计一个选择机制,从这些剪辑中选择与动作内容相关的剪辑来生成预测。但是,这里涉及一个重要的问题:由于使用的视频都是未经剪辑的,因此并不清楚某个剪辑是否包含有意义的动作。直观来看,就无法对选择模块进行监督和学习。为了解决这个问题,香港中文大学MMLab提出使用弱监督学习(Weakly-Supervised Learning)的思路,借助提高分类准确率这个目标来同时学习选择机制与分类模型。这就是UntrimmedNets的核心思想。测试时,使用所有的剪辑来进行预测,这些剪辑首先由模型中的选择模块进行筛选,通过筛选的剪辑有较大可能包含与动作相关的信息,因而被用来进行视频动作类别的预测。

具体而言,香港中文大学MMLab设计了两种选择机制:硬性选择与软性选择。在硬性选择(Hard Selection)中,对每个剪辑先使用类似于TSN的合并策略得到该剪辑的动作分类结果,接着对每个动作类别直接选择该类别中得分最高的剪辑。由于直接使用分类输出,因此这种选择机制不需要学习额外的模型参数。而在软性选择(Soft Selection)中,需要从每个剪辑中得到一组动作分类结果,以及一个着重值(Attention Weight)。在生成视频分类结果时,将所有剪辑的分类结果按照其对应的着重值做加权平均,因此这里的选择就体现在每个剪辑的着重值的高低上。

使用长视频的标签来监督整个模型的学习,要求选择机制与分类器共同作用以减小模型的分类错误率。在实验中,这种方式可以有效地同时学习分类模型与选择模型。实验在两个具有代表性的未经剪辑的视频分类数据集——THUMOS14与ActivityNet1.2上进行。与使用按数据集提供的动作实例时间标注进行剪辑的视频训练的动作识别模型相比,使用UntrimmedNets训练的模型在未利用时间标注的情况下,可以达到相同甚至更高的识别率。这证明UntrimmedNets可以在不依赖时间标注的情况下有效地学习动作识别模型。更进一步可以发现,软性选择机制中的选择模型可以用来进行时序动作检测,这更加证明了UntrimmedNets所使用的弱监督学习方法的有效性。

3. 结构化分段网络:从简单分类到同时得到动作的起止时间与类别(动作检测)

在能够对视频进行较好的分类之后,香港中文大学MMLab更进一步研究了从未被剪辑过的视频检测动作实例的类别和开始/结束时间,这个任务被称为“时序动作检测”。相较于之前人们研究的动作识别/分类问题,这个任务不仅仅要求识别一整段视频所属的动作类别,还需要在可能含有多个动作实例的长视频中找到每个动作实例,指出它们的开始、结束时间以及所属的类别。这个任务的挑战在于,视频长度可能长达数分钟至数小时,而每个动作实例的长度可能仅仅只占视频长度的1%不到。同时,动作实例的长度变化又十分剧烈,长则数分钟,短则一两秒。针对这个更有挑战性的任务,香港中文大学MMLab提出了一整套全新的解决方案,称为SSN(Structured Segment Network,结构化分段网络)。SSN整体包含两个部分:第一部分负责生成备选片段(Proposal Generation),第二部分负责对备选片段进行分类。

生成备选片段是动作检测中的一个重要步骤,对这部分的要求是生成少量的、时间上准确的、可能包含动作实例的视频片段。在之前的工作中,通常使用类似滑动窗口的方法来实现这部分。但是,预先定义的滑动窗口无法根据视频的内容变化来调节备选片段的长度和位置,因此性能较差。在SSN中,香港中文大学MMLab提出了一种新的算法,即使用自底向上的思路来实现备选片段的生成。首先,用TSN训练一个二类的CNN来大致判断每帧出现动作的可能性,即动作度(Actionness)。其次,在动作度的一维信号上运用经典的分水岭(Watershed)思路将相邻的高动作度的帧聚合在一起,就能生成备选片段。这个算法被称为TAG(Temporal Action Grouping,时序动作分组),如图1-26所示。TAG算法生成的备选片段因为考虑了视频内容,所以可以在更少的片段中产生更多的包含真实动作实例的片段(高召回率、低备选数)。同时,由于使用了自底向上的模式,不需要像滑动窗口那样预先定义备选片段的长度,因此TAG算法可以适应各种不同长度的动作实例,很好地满足高性能时序动作检测的需求。

生成备选片段之后,需要一个高性能的分类模块来识别出真正的动作实例以及它们所属的类别。在之前的工作中,这部分常常使用LSTM或三维CNN来完成。由于这些模型都假设输入的视频帧必须是连续的,因此它们在面对长度变化剧烈的备选片段时往往分类性能不佳,从而导致检测性能低下。运用在TSN中提出的稀疏采样再合并的思想,同样可以对备选片段进行稀疏采样,以高效地训练备选片段的分类器。但是,这里有一个重要的问题需要解决,那就是在动作检测中,有很大一部分的备选片段可能正好是一个完整动作实例的一小部分。在基于图像的物体检测中,这个问题并不特别突出,因为物体的一小部分往往与物体本身的关联性不大,但在时序动作检测中,这个问题就难以忽略了。从分类的意义来看,这些片段虽然较短,但仍属于这些动作实例所属的动作类别。而从检测的意义来看,这些“不完整”的片段并不能被称为一个正确的检测结果(见图1-27),这就对训练分类器提出了挑战。

为了解决这个问题,香港中文大学MMLab提出使用两个独立的目标函数。第一个为分类损失(Classification Loss)函数,优化模型将纯背景的备选片段从所有备选片段中剔除,并将备选片段合理分类到所属动作类别;第二个为完整度损失(Completeness Loss)函数,对于每个动作类别训练模型,将完整、精确的动作实例从该类的所有备选片段中选出。同时,为了使模型能够有效地利用完整度损失函数的监督,香港中文大学MMLab提出将每个备选片段前后延长以包含其时序的上下文信息。将备选片段之前、本身、之后作为3个结构化分段(Structured Segment),分别使用时序金字塔池化来进行建模。最终,将两个分类器的结果进行合并,就得到了每个备选片段的分类结果。这样,就从备选片段中得到了真正有用的检测结果。

结合自底向上的TAG备选片段生成算法与新设计的分类模块,SSN方法在两大具有代表性的时序检测数据集——THUMOS14和ActivityNet上都取得了相对之前方法的巨大提升,绝对检测指标提高了10%以上。在2017年的ActivityNet大赛上,香港中文大学MMLab使用SSN方法,仅用单个模型就获得了时序检测项目的第二名。同时,获得该比赛的时序检测与时序备选片段生成项目的前几名的队伍均使用了SSN方法。这说明,在SSN方法中提出的多种新思想已经对整个领域产生了积极的影响。

4. 未来展望

回顾香港中文大学MMLab对视频动作理解的一系列研究,我们可以体会到视频动作理解领域所面临的各种挑战以及研究者们锐意进取解决问题的努力与成果。展望未来,视频动作理解仍然有很多需要解决的问题。例如,如何能够更好地表示视频中的动态,以设计更适合视频的特征表示;如何将非剪辑视频理解的成果应用于数十分钟甚至更长的视频,如电视剧、电影等;如何更好地运用视频中人的姿态信息来辅助视频的理解。香港中文大学的研究者们仍然在这些乃至更多的问题上积极探索着,期待着能有更多、更新、更好的视频动作理解技术让人类的生活变得更加美好。

1.2.3 基于互联网文本描述和深度对偶学习的图像分割技术

* 关键词:图像语义分割 互联网文本描述 深度对偶学习

* 作 者:罗平 吴凌云

随着深度学习的发展,图像语义分割在深度神经网络的推动下取得了重大进展。然而,这里有一个重要难题,即深度神经网络需要对大量像素级标注图像进行训练。为了解决数据稀缺问题,提出利用大量互联网图像标记和文本描述来提高图像分割的性能,并为此提出了两项技术——基于物体交互信息的图像分割技术和基于深度对偶学习的图像分割技术。这两项技术高效地利用弱标签数据(只有图像标签),在只利用30%像素级标注图像的情况下,极大地提高了深度神经网络在图像分割问题中的准确率。它们是互联网大数据驱动下的产物,为解决其他计算机视觉难题提供了良好的范本。

1. 图像语义分割

图像语义分割,即为图像中的每个像素分配一个语义类别,例如行人、汽车和道路等。图像语义分割是解决许多重要的计算机视觉问题的基础,如无人驾驶中的场景理解。历年来,研究者们尝试了许多语义分割算法。根据具有挑战性的Pascal VOC 2012(VOC12)数据集测试结果来看,具有最佳性能的方法均采用深度CNN。但是,构建基于CNN的分割模型有一个关键问题,即在训练模型的过程中需要大量像素级的标注图像,如图1-28(a)所示,获取这样的数据集是一项成本非常高且耗时的工作。

相比像素级图像标注,获取图像级别的标签成本低廉且高效。这些标签描述了哪些物体类别出现在图像中,而不是哪一个像素属于哪个类别。为了构建图像级标签,将VOC12的标签作为关键字,在互联网上自动下载大量图像,这些图像构成一个图像级弱标签数据集IDW。该数据集内的每个图像均配有一句在网页上直接获得的文字描述。为了使数据构建过程全自动化,IDW未经过任何的手动筛查,其原始描述可能包含不重要或缺失的细节和语法错误,如图1-28(b)所示。因此,此处使用的数据集包括两部分:一部分是拥有完整像素级类别标注的少量VOC12数据;另一部分则是本小节构建的大量IDW。

基于VOC12和IDW,本小节提出了两种基于深度CNN的物体分割模型:第一种模型将有效利用IDW的物体交互及文本描述信息,称为IDW-CNN模型;第二种模型则使用深度对偶学习,以减少对完整标注数据的依赖,被称为DIS(Dual Image Segmentation,对偶图像分割)模型。

IDW可以提取出物体交互关系,例如“人骑马”“人站在马前面”“人坐在椅子上”等,这些关系是像素级类别标注的VOC12不能提取的。然而,VOC12的像素级类别标注可以捕获精准的物体定位和边界,这是图像级类别标注的IDW所没有的。本小节提出的IDW-CNN模型通过自动挖掘两个数据集的特性,相互迁移学习有用信息,同时提高VOC12图像分割的精度和IDW物体交互预测的准确率。已通过大量实验证明了该模型的有效性,并发现了一些重要现象。例如,随着IDW数据量的增加,VOC12图像分割的精度会持续提高。

仅利用物体交互信息去优化像素级的物体分割会有两方面的劣势。一方面,包含在物体交互中的类别标签仅可以帮助区分被错误分割的像素点,但不能区分物体的边界和形状信息;另一方面,互联网自动下载的数据可能会有噪声标签,这些会误导训练过程。受机器翻译中对偶学习的启发,本小节提出了DIS模型。它将弱标签的类别标签和分割图像均作为潜在变量来重新生成(重构)输入图像。通过缩小输入图像与重构图像之间的差别,捕获精准的物体类别和准确的物体边界及形状。利用这些训练过程中得到的信息,DIS模型不仅大大减少了完整标注的数据量,同时在VOC12测试集上取得了最优的物体分割性能。

2. 图像文本描述数据集IDW

(1)数据采集过程

数据集的构建分为两个阶段。第一阶段首先准备21个常见介词和动词,如“骑”“抱着”“拿着”等。其次,选择20个来自VOC12的物体类别作为名词,如“人”“自行车”“羊”等。这些名词和动词的搭配,一共可以组成8400个不同的短语,如“人骑自行车”。这8400个短语中,包括了语义不准确的短语,如“自行车抱着羊”。去掉这些短语后,得到数百个语义准确的短语。

第二阶段,将这数百个短语作为关键词在互联网上搜集图像及其文本描述。另外,我们还舍弃了返回结果少于150个图像的短语。这是为了预防出现少样本的短语,避免训练过程中可能出现的数据不均衡问题。最终得到59个有效短语。构建的IDW包括41 421个图像及其描述。图1-29(a)所示为IDW对应VOC12中每个物体类别所包含的图像数量。

(2)图像文本描述的表达

将每个图像的描述自动转变成解析树,选择有用的名词(物体名称)和动作组成物体交互,作为物体分割的有效信息,监督其训练过程。

提取物体交互的过程是对图像文本描述的进一步表达。如图1-30所示,该过程分为以下3个步骤。首先,使用经典的斯坦福文本解析器(Stanford Parser)解析文本,产生如图1-30(a)所示的候选树。候选树中的每个叶子节点代表文本中的一个单词。通过词性筛选叶子节点,只保留名词作为物体,动词或介词作为候选动作。以此去掉候选树中既不是物体类别也不是交互动作的词。之后,利用WordNet中的语法关系数据合并同义词。不属于20个物体类别的名词会被移除。其次,采用Word2Vec语义相似度量方法映射动词到已定义的21个动作类别中。当映射相似度小于某个阈值时,该动词将归为多余的动作类别。至此,我们已将候选树转变为如图1-30(b)所示的语义树,最后通过语义树中的节点提取出图1-30(c)所示的物体交互关系。

通过对IDW中41421个图像的描述进行解析,总共获得62100种物体交互关系。图1-29(b)所示为出现不同物体交互关系次数的图像数目,每个图像平均有1.5种物体交互关系。相比Visual Genome数据集,本小节构建IDW的整个过程没有人工介入,大大节省了数据采集成本。

3. 基于文本描述与物体交互的语义分割

本小节提出了基于图像文本描述信息与物体交互关系的语义分割模型IDW-CNN,下面主要介绍IDW-CNN模型的结构及训练学习过程,并通过实验验证模型的有效性。

(1)IDW-CNN模型综述

IDW-CNN模型框架如图1-31(a)所示,包含ResNet-101特征提取模块、物体交互关系预测模块和物体语义分割模块。

特征提取:输入一个图像I,使用ResNet-101产生2048个通道的特征图,每个特征图的尺寸为45×45。

物体交互关系预测:该模块为了减少计算量,首先将特征图通道数由2048降维到512。利用尺寸为512×45×45的特征图h与预测出的分割图计算张量元素点对点乘积,得到物体类别对应的特征图,其中iCC={person,cow,...,bike}。然后将每一个作为输入训练物体识别子网络,获得输入图像中物体类别的概率图。图1-31(a)中的橘色部分为物体识别子网络,它们拥有相同的网络结构,但不共享全连接层之外的参数。通过这些网络,可以预测得到输入图像中可能出现的物体类别。之后将响应较高的物体概率图相加后作为网络输入,类似地训练动作识别子网络来预测物体之间可能出现的交互关系。物体识别子网络与动作识别子网络的结构分别如图1-31(b)中的橘色和蓝色区域所示。

物体语义分割:512×45×45的特征图经一层卷积层得到预测的分割图,尺寸为512×45×45。每个通道代表每个物体类别的预测概率。将物体交互关系预测部分获得的物体概率作为卷积核,与卷积来优化每个像素点得到最终的分割图Is

(2)模型训练

IDW-CNN模型使用随机梯度下降算法训练。在数据集IDW及VOC12上同时训练优化,但两个数据集在物体交互及语义分割两个任务上的反向传播过程都不尽相同。

物体交互关系预测:如图1-31(a)中下面两个红色箭头所示,物体交互关系预测任务有两组损失函数:第一组包含20个1-of-20Softmax损失,分别对应监督每个物体识别子网络,预测图像中该物体是否出现;第二组则包含1个1-of-21Softmax损失,整体监督21个动作识别子网络,最大响应决定物体间的互动。对于IDW中的训练图像,反向传播过程中两组损失函数的梯度都需要计算。而对于VOC12,其物体类别可以直接由真实分割图获得,但动作交互标注缺失。这里根据预先获取的每个物体动作交互的先验分布,采用高概率分布低惩罚、低概率分布高惩罚的策略计算VOC12的第二组损失函数。

物体语义分割:如图1-31(a)中上面两个红色箭头所示,分割任务有两个独立的Softmax损失函数:前一个用于最小化真实分割图和预测分割图的像素级差距,学习并校正ResNet-101输出的特征图;后一个则最小化和最终分割图IS的像素级差距,校正20个物体识别子网络,提升物体分类效果。对于VOC12,反向传播过程中两个损失函数的梯度都会计算。而对于IDW,其真实分割标记是未知的,所以只计算第一个损失函数。之后通过将预测分割图中出现了的但物体识别子网络预测为不出现的类别区域置零,充当IDW的

(3)实验验证

为了证明IDW-CNN模型的有效性,选用VOC12将现阶段最优秀的11种分割算法与IDW-CNN模型进行对比,结果见表1-10。11种分割算法包括9种全监督学习方法(如DeepLab2+CRF、CentraleSupélec、LRR-4x、HP、DPN、RNN、Piecewise、Zoom-out和FCN)和2种半监督学习方法[如WSSL(weak)+CRF和BoxSup]。以上对比方法均采用与DeepLab2+CRF一样的预处理和后处理来提高分割性能,但IDW-CNN模型未使用任何预处理和后处理。

表1-10所示为所有对比方法在VOC12上的分割性能,IDW-CNN模型的平均重叠率比11种分割算法中性能最好的还要高4.4%,而相比基础模型ResNet-101则要高出12%,且在大部分的物体类别分割中取得的效果最好。由此可见,IDW-CNN模型可以有效利用IDW中的物体交互关系,获得最优的物体分割性能,且随着IDW中训练数据的增多,物体类别分割准确率逐步提高。

4. 基于深度对偶学习的DIS模型

深度对偶学习是最近提出的用于解决自然语言翻译中标注数据量不足的问题,例如中英互译。因意思相同而被标注为配对的英文句子和中文句子的数量,远远小于互联网上单独出现的英文句子或中文句子的数量,如何通过大量单独出现的句子来提高翻译准确率是深度对偶学习需要解决的难题。

具体来说,深度对偶学习通过少量配对数据训练两个翻译器,它们分别为“英译汉”和“汉译英”翻译器。比如需要提高英文到中文的翻译准确率,首先可以采集大量单独的英文句子,并把它们送入“英译汉”翻译器获得中文翻译结果;然后把这些中文翻译结果送入“汉译英”翻译器,重新获得英文句子;最后,比较一开始输入的英文句子和最终产生的英文句子的相似度。若相似度高,则说明中间过程得到的中文句子是准确的,此时可以把它们与英文句子形成配对数据,重新训练以提高翻译的准确率。

同样,在物体分割问题中,只有少量图像被标注了像素级语义图,而互联网上存在大量只有图像标签的数据。为此,本小节提出的DIS模型把物体分割问题建模为从图像到分割,以及从分割到图像的翻译过程。

(1)DIS模型综述

图1-32所示的DIS模型框架包含4个重要组成模块:一个用于特征提取的ResNet-101网络和3个子网络——分别用于物体分割(蓝色)、图像重建(绿色)和标签分类(粉色)。3个子网络中的卷积特征图分别标记为uzv

特征提取:DIS模型同样使用ResNet-101基础模型产生2048×45×45的特征图u1和2048×1的特征向量v1

物体分割:将特征向量v1上采样到2048×45×45后与特征图u1的元素求和,获得同时拥有像素级和图像级特征的特征图u2。它经过一层卷积层得到物体类别的概率响应图u3

图像重建:将u3作为输入经过3层卷积层获得重建图像z3

标签分类:将特征图u1均值池化后与特征向量v1的元素求和得到长度为2048的特征向量v2,即利用像素级特征对图像级特征进行改进来帮助标签分类,可以获得包含物体类别概率的向量v3

测试流程:DIS模型会在测试过程中迭代推理,逐步提升预测分割图的准确率。用t代表迭代的次数,则分别表示当t=0时(初始状态)输入图像I经ResNet-101网络获得的特征图和特征向量。当t>0时,作为输入变量前向传播得到的重建图像z3。将最小化z3与图像I之间的像素级差距作为目标函数,固定网络参数,经t次迭代,捕获准确的物体边界,得到优化后的特征。在迭代结束后,通过前向传播来预测分割图u3和物体标签v3,最后将v3作为核与u3进行卷积,得到最终的语义分割图。

(2)模型训练

DIS模型训练包括两个阶段:第一阶段是用完整标签数据训练网络,第二阶段是用完整标签数据和弱标签数据一起进行网络微调。

全监督阶段:将完整标签图像、分割图、标签分别标记为IfLfTf,全监督阶段训练过程包含3个损失函数,分别为。首先,训练ResNet-101,以子网络1和子网络3来预测分割图和标签。其次,固定其他模块参数,通过训练子网络2来学习重建图像。最后,模型中的4个模块共同更新。

半监督阶段:将弱标签图像、分割图、标签分别标记为IwLwTw,清理后的标签标记为。半监督阶段使用的图像、分割图、标签分别标记为{I,L,T},其中I={If,Iw},L={Lf,Lw},。将其定义为整个DIS模型的参数,则目标函数表示为:

该优化过程包括两部分:第一部分同全监督阶段,只是输入数据为全部数据集;第二部分则用于学习弱标签数据中未知的Lw。所以,当输入数据是完整标签If时,模型只对式(1-1)的第一部分进行微调优化。当输入数据属于弱标签Iw时,先固定θ,通过最小化更新u1v1,然后利用推理出的Lw更新模型参数θ

(3)实验验证

基于VOC12,本小节采用了11种有代表性的全监督学习方法[如SegNet、FCN、Zoom-out、WSSL(full)、RNN、Piecewise、DPN、DeepLabv2、LRR-4x-Res、HP和CentraleSupélec]和两种最好的半监督学习方法[如WSSL(semi)和BoxSup]。与DIS模型对比,结果见表1-11,由符号注释的方法代表在ImageNet和COCO上预训练基础模型。

由表1-11可以看出,全监督相比半监督可取得更好的分割结果。但当把本小节构建的数据集IDW加入半监督学习方法WSSL(semi)的训练集时,WSSL+IDW能取得81.9%的平均重叠率,高于前面的所有对比方法。而DIS模型能达到86.8%的平均重叠率,相比WSSL+IDW提高了4.9%,相比基础模型ResNet-101提高了12.6%。另外,DIS模型只使用了2.9k像素级完整标签和50k图像级类别标签,而其他方法使用了12k像素级完整标签。由此可见,本小节提出的DIS模型有效利用弱标签数据,取得了最好的物体分割性能,实现了降低对完整标签数据依赖的目的。

5. 总结

本小节基于拥有完整像素级类别标签的少量VOC12和构建的大量IDW,提出了两种基于深度卷积网络的半监督物体分割模型:IDW-CNN模型和DIS模型。

基于文本描述与物体交互的IDW-CNN模型有两方面的特点:一方面,可以通过自动挖掘两个数据集的特性,相互迁移学习有用信息,同时提高VOC12图像分割的精度和IDW物体交互预测的准确率;另一方面,随着IDW数据量的增加,VOC12图像分割的精度会持续提高。

为了减小噪声标签对深度模型训练过程的影响,同时准确预测分割图的边界和形状,本小节进一步提出了基于深度对偶学习的DIS模型,把物体分割问题建模为从图像到分割以及从分割到图像的翻译过程。不同于已存在的半监督分割方法,DIS模型将弱标签的类别标签和分割图同时作为潜在变量来重构输入图像,通过缩小输入图像与重构图像之间的差距,捕获精准的物体类别和准确的物体边界及形状。本小节通过大量的实验证明DIS模型不仅大大减少了完整标签的数据量,同时在VOC12上取得了最优的物体分割性能。

1.2.4 基于深度学习的无人驾驶路径规划和控制

* 关键词:计算机视觉 深度学习 无人驾驶

* 作 者:刘春晓 马政 谢思锐 张伟

无人驾驶技术的迅速发展正逐渐改变人们的出行方式,感知、控制算法进一步升级,成为行业突破的关键。由于面临着交通场景复杂、安全性和实时性要求高等挑战,因此其中的路径规划和控制是极具挑战的问题。本小节围绕无人驾驶中的路径规划和控制问题,介绍基于深度学习的方法在该问题上的探索,对已有方法进行了总结和对比。同时,在归纳当前方法的局限性的基础上,本小节也尝试对该问题未来的研究方向进行探讨。

无人驾驶能带来更安全和有序的交通环境,能节省人类在驾驶上消耗的大量时间,有着显著的商业应用价值,同时由于它需要在复杂场景中解决感知、决策、规划、控制等问题,因此对现有计算机视觉、机器学习和控制决策技术等提出了新的挑战。因此,无论是工业界还是学术界,均对其广泛投入。随着深度学习的快速发展,其在语音、视觉等问题的解决上已经展现出了优越的性能。深度学习也被广泛应用到无人驾驶的感知模块中,用于对交通环境中的车辆、行人、车道线、交通标识等进行检测识别。

传统的路径规划算法大致可以分为如下4类:基于搜索的方法、基于采样的方法、基于插值的方法以及基于优化的方法。基于搜索和基于采样的方法,计算效率高,其对搜索范围进行了网格化,因此能输出离散数值的结果;基于插值的方法,能够输出连续数值的规划结果,但无法确保插值区域内路径的安全性;基于优化的方法,能够输出连续平滑的路径规划结果,但其计算量大,对车载计算设备有较高的要求。总体而言,一方面,传统的路径规划算法在连续数值输出、安全性、计算效率等方面很难兼顾;另一方面,传统的算法将路径规划和控制作为两个模块独立计算,缺乏路径规划和控制的动态联合考虑。

近年来,研究者们开始尝试使用深度学习来解决路径规划和控制的问题,尤其是构建端到端的方案来联合解决路径规划和控制问题,即给定无人驾驶车对于环境的感知,通过深度学习直接输出方向盘、油门、刹车等的控制结果。多种深度学习技术从不同角度对路径规划和控制问题进行了探讨,总结起来可分为以下两点。

一是基于深度模仿学习的方法——研究如何根据已有的驾驶数据(包含传感器输入以及参考驾驶行为)、如何学习一种驾驶策略来对参考驾驶行为进行模仿。根据参考驾驶行为获取方式的不同,又可分为模仿人类驾驶行为的方法和模仿传统路径规划算法的方法。

二是基于深度强化学习的方法——研究如何通过试错来自动地学习一种最优的驾驶策略。

相比传统的路径规划和控制算法,以上基于深度学习的方法具有如下优点:第一,运行时只需计算前向网络,计算速度快;第二,支持连续数值输出,确保输出路径的平滑性和满足车辆运行的运动可行性;第三,可灵活加入路径安全性有关的限制条件;第四,可直接通过感知预测控制,对路径规划和控制进行动态联合考虑。

本小节围绕基于深度学习的路径规划和控制方法,首先对深度学习、模仿学习和深度强化学习的知识背景做简要介绍,然后对基于深度学习的路径规划和控制方法进行总结和对比,最后在归纳当前方法的局限性的基础上,尝试对该问题未来的研究方向进行探讨。

1. 深度学习、模仿学习和深度强化学习

(1)深度学习

深度学习的基本思想是通过包含多重非线性结构的人工神经网络来对数据进行高层抽象。MLP(Multi Layer Perceptron,多层感知器)是人工神经网络的一种典型范例,在这种多层的结构中,上层的输出在经过一层激活层(Activation Layer)之后被输入下一层。堆叠的层次为模型提供了更高的抽象层次,因而提高了模型的表征能力。其他更为复杂的人工神经网络包括堆栈式自动编码器(Stacked Auto-Encoder)、RBM(Restricted Boltzmann Machine,受限玻耳兹曼机)、RNN(Recurrent Neural Network,循环神经网络)及CNN等。

(2)模仿学习

模仿学习可看成监督式学习的框架用于序列决策。具体而言,模仿学习是指从专家提供的范例中学习。专家提供了驾驶的决策数据,每一个数据则是一个由状态和动作组成的序列:。将状态作为特征,动作作为标签,则可以构建如下的数据集合:。利用以上数据,进行监督式模型的训练,得到分类(离散动作)或回归(连续动作)的模型。模仿学习的目标是希望最终模型生成的状态-动作序列分布与专家提供的状态-动作序列分布一致。而深度模仿学习,则使用深度神经网络技术来进行模仿学习中的函数逼近。

(3)深度强化学习

深度强化学习研究的是如何通过与环境的交互,学习到某种行动策略以取得最大化的预期收益的问题,即连续决策(Sequential Decision Making)的问题。一般来说,整个行动的过程被建模成马尔可夫决策过程(Markov Decision Process),其中S表示状态空间,A表示动作空间,T表示状态转移模型(环境模型),r表示奖励函数。若状态不能直接被观测到,则整个行动过程可用POMDP(Partially Observable Markov Decision Process,部分可观测马尔可夫决策过程)来进行建模。

r(stat)表示t时刻,给定状态st执行动作at后获得的奖励,而强化学习的目标,则是学习到一种策略pθ来最大化如下的奖励函数的期望:

根据状态转移模型T是否已知,强化学习问题被分为基于模型的强化学习(Model-Based Reinforcement Learning)和无模型强化学习(Model-Free Reinforcement Learning)。

强化学习的算法大体可以分为3类:基于策略梯度(Policy Gradient)的方法,即通过对优化函数求取梯度从而直接更新策略函数的参数;基于价值函数(Value-Based)的方法,通过估计价值函数或Q函数的方法来间接得到行动策略,如基于Q函数使用ε-greedy的策略;基于行动者-评论家(Actor-Critic)的方法,它同时使用策略函数和价值函数,在更新策略函数时使用价值函数对奖励进行修正。深度强化学习,即使用深度神经网络对强化学习中的策略函数或价值函数进行逼近,提升模型的表达能力,在多个复杂的强化学习问题上取得了较好的结果。

2. 基于深度学习的路径规划和控制

本小节对基于深度学习的无人驾驶路径规划和控制算法进行介绍,包括基于深度模仿学习的方法,以及基于深度强化学习的方法,并将这两类方法与传统路径规划和控制的方法进行对比。

(1)基于深度模仿学习的方法

传统的无人驾驶系统通常将整个驾驶系统划分成场景感知理解、驾驶行为决策、路径规划、控制执行几个模块。而基于深度模仿学习的端到端的无人驾驶系统一般将汽车摄像头等传感器采集的数据作为网络输入,直接输出汽车转向、加速、减速等控制量给执行器。路径规划和控制本质上是一个序列决策的问题,因此,相比传统的监督式学习的方法,基于深度模仿学习的方法则能够提供序列决策的解决办法。但这类方法需要一个参考驾驶行为作为监督信息,然后使用神经网络来模拟该参考驾驶行为,如图1-33所示。根据参考驾驶行为的来源,进一步将该方法分为模仿人类驾驶行为的方法和模仿传统路径规划算法的方法。

(2)模仿人类驾驶行为的方法

迪安·A.波默洛(Dean A. Pomerleau)提出了基于神经网络的端到端的无人驾驶方法。该方法使用的网络结构比较简单,只包含一个全连接层,由于训练数据量以及硬件的限制,因此其无人驾驶系统并没有取得很好的效果。而M.博亚尔斯基(M. Bojarski)提出了一种端到端的基于多层卷积神经网络的无人驾驶系统。该系统使用了3个摄像头:一个摄像头记录汽车正前方的画面,另两个摄像头分别采集汽车左前方以及右边的数据来模拟汽车偏离车道的情况。在训练阶段,使用3个摄像头采集的数据训练一个多层RNN;而在测试阶段,仅使用摄像头采集的汽车正前方的数据作为网络的输入,网络的输出是方向盘的转角。通过对中间卷积层的输出结果进行分析,表明卷积层能够有效地提取场景中的车道线、车辆边缘等有效信息。与博亚尔斯基提出的观点类似,Xu H提出了一种结合FCN(Fully Convolutional Network,全卷积网络)和LSTM网络的端到端的驾驶行为预测方法。该方法可以输出汽车方向控制量以及加速和减速控制信号。同时,在网络训练的过程中,该方法使用图像分割任务辅助训练,让网络在输出驾驶控制信号的同时正确地进行场景解析,从而提升驾驶控制的性能。

(3)模仿传统路径规划算法的方法

模仿人类驾驶行为的方法的一个缺点是,人类驾驶行为数据的获取成本较高且不同司机的驾驶行为存在不一致性。一个可选方案是使用模仿学习来模拟传统路径规划和控制算法的驾驶行为,这样可以较为便宜地获取参考驾驶行为(算法自动生成),并确保参考驾驶行为的一致性。Sun L等提出了使用深度模仿学习取代MPC(Model Predictive Control,模型预测控制)进行高效长时路径规划的方法。具体而言,给定当前驾驶场景的观测,该方法通过深度模仿学习预测未来多步的运动位置,以及每个位置上的驾驶策略(包括方向盘转角、油门大小等)。整体而言,相比基于传统的MPC路径规划的方法,基于深度模仿学习的方法计算更高效,更能满足无人驾驶的实时性能要求。模仿传统路径规划算法的缺点在于,其性能受限于传统路径规划算法的性能。

基于深度模仿学习的路径规划和控制的方法,其优点是通过一个卷积神经网络来模拟感知、决策、规划、控制的过程,可以对整个驾驶过程进行全局的优化。同时,不需要标注用于理解场景的海量数据,例如标注行人、车辆、车道线等目标的位置,只需要记录人类驾驶员的控制量作为训练模型的监督信息。但这类方法也有两个局限:第一,模仿学习机制存在数据不匹配的问题,即测试时如果出现新的观测数据,模型很可能输出不正确的结果;第二,整个驾驶感知决策的过程是一个黑盒,很难解释神经网络在某些特定场景下的驾驶行为,这样驾驶系统的安全性就得不到保证。

针对数据不匹配问题:对于模仿人类驾驶行为的方法而言,由于频繁获取参考驾驶行为的成本高,因此需在数据采集阶段确保数据的完备性,这对数据采集是很大的挑战;而对于模仿传统路径规划算法的方法而言,则可以很容易获取参考驾驶行为,因此可利用在线学习的框架解决这个问题。例如,Sun L等使用在线数据增广的方法Dagger来不断收集数据,进行在线模型训练。Zhang J等对Dagger进行了扩展,提出了一种Safe Dagger的方法用于提升在线数据采样的效率,即当模型输出策略与参考驾驶行为策略差异较大时,才将数据放入训练数据集中。

针对可解释性问题:Chen C等提出了一种非端到端的方法,这种方法从输入视频中先估计出驾驶决策控制器需要的中间量。这些中间量包括:汽车的偏航角、汽车到左右车道线的距离、汽车到前车的距离等。通过神经网络监督学习的方式,学到一个输入视频到驾驶决策中间量的映射。最后将这些中间量输入一个基于规则的驾驶决策控制系统中。该方法的优点是所利用的中间量的估计准确程度可以定量评估,而它的缺点是需要人为挑选这些中间量,对场景的描述能力有限,不能满足复杂场景下的驾驶需求。同时,该方法使用基于规则的控制器,较难扩展到复杂场景中。

(4)基于深度强化学习的方法

基于深度强化学习的方法将深度学习和强化学习相结合,通常将汽车驾驶决策过程建模成一个马尔可夫决策过程(假定状态可完全观测)。这类方法的一般框架如图1-34所示。

从图1-34中可以看出,通常深度强化学习算法从真实驾驶环境或模拟驾驶环境中获得观测量,这里的观测量可以是一种或者多种传感器的观测和融合。例如摄像头、激光雷达、毫米波雷达等传感器。以观测量作为输入,深度强化学习算法可以输出一个决策量或控制量。根据算法输出的结果,可以从环境中获得一个奖励/惩罚值。在训练的过程中,可以根据奖励/惩罚值调整深度强化学习网络的参数,从而不断收敛到更好的策略。

根据深度强化学习输出的类型不同,可以分为面向控制的深度强化学习和面向决策的深度强化学习两种方法。面向控制的深度强化学习输出的动作量为方向盘转角、加速和减速控制量。艾哈迈德·EI·沙拉布(Ahmad EI Sallab)等提出了使用注意力(Attention)机制的深度强化学习框架用于路径规划和控制。其中,在使用卷积神经网络提取特征之后,叠加一个注意力滤波器从而引导卷积核函数关注更有信息的区域。在实验部分,使用模拟器车道保持场景,并结合多种强化学习方法(如深度Q网络、深度行动专家模型等)进行了测试。实验表明,连续控制输出的强化学习模型能够提供更加平滑的控制。对于不同强化学习方法之间的对比,此处不做详细阐述。扎卡里·桑伯格(Zachary Sunberg)等探讨了驾驶人的意图,如主动与被动对于驾驶行为的影响。由于驾驶人的意图无法被观测,因此本小节提出使用部分可观测的马尔可夫决策过程更适合无人驾驶场景的建模。而面向决策的深度强化学习方法输出在某一观测下的决策量,例如停车、换道、转弯等决策量。完成这些决策任务通常还需要一连串底层控制量。沙莱夫-施瓦茨·沙伊(Shalev-Shwartz Shai)等提出使用深度强化学习来对保持直行、转弯、变道等决策进行预测,这些预测结果通过有限状态机完成状态切换,而每一个决策的具体执行则使用传统的路径规划方法。Wang P等考虑了交通汇入的场景。该场景涵盖两个难点:第一,车流汇入是一个长时的优化目标;第二,汇入过程涉及与其他车辆的交互,而其他车辆的行为也较难预测。Wang P等使用深度强化学习的模型来解决长时优化的问题,并结合LSTM模型来解决交互车辆行为预测的问题。

由于在很多驾驶场景下,要定义一个好的奖励-惩罚函数很困难,因此S.谢里夫扎德(S. Sharifzadeh)等提出了一个通过反向强化学习(Inverse Reinforcement Learning)来学习驾驶策略的方法,即通过已知的参考驾驶数据来估计奖励-惩罚函数。该方法与模仿学习的差异在于,前者建模奖励-惩罚函数,继而驾驶策略是根据此奖励-惩罚函数探索学习而来的;而后者直接建模驾驶策略,因此其性能受限于参考驾驶行为,例如可能并不是最优策略。

(5)方法对比

本小节针对上述方法的优缺点进行了综合对比以及分析,见表1-12。

3. 面临的挑战

尽管深度模仿学习以及深度强化学习等算法已经在驾驶控制决策领域取得了阶段性的成果,但远未达到实际应用的标准,所面临的挑战问题包括安全性问题、鲁棒性问题以及扩展性问题。例如,无人驾驶算法的安全性问题,即如何让无人驾驶算法的安全性超过人类驾驶员的安全性是一个很大的挑战。如何确保鲁棒性也是亟待解决的问题,如何设计出可以适应不同路况、天气、光照情况的算法仍然是一个难题。对于基于深度强化学习的方法,还面临着扩展性问题。深度强化学习通常使用模拟器构建实验场景和进行训练,而由于模拟器和真实环境的差异,如何将模拟器中训练的模型迁移到实际环境中还有待进一步的研究。

1.2.5 从海量监控视频中提取并展示目标活动线索

* 关键词:计算机视觉 视频监控网络 目标提取

* 作 者:宋明黎

大范围视频监控网络的部署产生了海量的监控视频,如何从中提取并展示目标活动线索成为一个亟待解决的问题。针对这一问题,本小节提出了面向稀疏监控摄像头网络的目标视频归纳这一全新的研究方向。然而,由于稀疏监控摄像头网络视频所具有的多目标、稀疏性、多角度等特点,因此该研究在多个关键技术上都面临挑战。针对稀疏监控摄像头网络视频进行目标归纳所面临的问题和挑战,本小节将介绍目标提取与跟踪、跨摄像头目标跟踪、摄像头网络拓扑重建以及目标视频归纳等相关关键技术,为公共安全、反恐与国家安全、海量视频智能管理、无人零售技术等应用提供参考。

近年来,出于公共安全、交通管制、反恐等需要,很多国家都部署了基于摄像头网络的视频监控系统,这些摄像头网络每天都采集并存储着海量的监控视频。以国内某城市为例,其公共视频监控系统拥有超过1万个摄像头,这些摄像头每天采集、存储的视频数据超过640TB,是名副其实的“大数据”。一般而言,这些视频中包含的大部分数据是冗余数据,当突发事件发生后,工作人员往往需要浏览海量的视频数据查找相关线索。

为了解决快速浏览大规模视频的问题,近年来,视频浓缩技术成为一个重要的研究方向。国际上,得克萨斯大学奥斯汀分校提出了事件驱动的头戴摄像机视频浓缩,麻省理工学院研发了基于网络图像先验的高显著度视频浓缩方法;国内,合肥工业大学提出了基于标签定位和关键片段的互联网视频浓缩,浙江大学也在弱监督学习的基础上提出了非负线性重建视频摘要。然而,对于监控摄像头网络采集、存储的海量视频而言,人们浏览上述监控视频通常是在事件发生后,其目的是查询目标在网络中活动的线索,而上述传统的基于显著度或事件驱动的视频浓缩往往导致目标活动线索的丢失,无法发挥监控网络的优势。面向稀疏监控摄像头网络的目标视频归纳以目标活动线索为核心,开展泛目标提取与跟踪、跨摄像头目标跟踪、摄像头网络拓扑重建以及目标视频归纳等关键算法和理论研究,实现目标活动线索的抽取和浓缩展示,无疑具有重大的理论研究意义和实践应用价值。

1. 研究稀疏监控摄像头网络的必要性

相比一般视频,监控摄像头网络视频具有新的特点:首先,视频来源于监控网络中的所有摄像头,覆盖范围大,涉及目标多;其次,监控摄像头网络是稀疏的,摄像头之间的视野没有重叠;再者,摄像头的拍摄角度不同,同一目标外观变化大。这些新的特点给目标视频归纳带来如下4类挑战。

一是目标提取与跟踪。监控视频中的目标种类和外观多样,通过预先训练目标检测器进行目标提取专业要求高、工作量大,而且无法适应摄像头角度变化造成的目标外观差异,而传统的背景减除、运动分割等方式受环境影响过大。另外,在进行多目标跟踪时,传统的光流、Meanshift等方法常常导致目标混淆或跟丢,Tracking-by-Detection方法虽然较为稳定,但仍需要构造、训练目标检测器,无法处理视频“大数据”。

二是跨摄像头目标跟踪。由于监控摄像头网络是稀疏的,摄像头视野之间没有重叠,因此无法通过“握手”方式实现跨摄像头目标跟踪。而且摄像头的角度多样导致目标外观变化大,使跨摄像头目标跟踪面临很大的挑战。

三是摄像头网络拓扑重建。虽然人们可以通过摄像头坐标确定其空间位置关系,但这些摄像头之间的“连接”关系却是未知的。为了准确提取并参数化目标在摄像头网络中的活动轨迹,就必须弄清其“连接”关系。然而,由于这些稀疏摄像头之间的视野缺少重叠,因此如何构造并学习摄像头网络拓扑结构是一个极具挑战性的问题。

四是目标视频归纳。与传统的视频浓缩不同,目标视频归纳不仅要生成目标在监控网络中的活动视频序列并进行浓缩,且归纳结果要能够反映目标之间的关联关系,从而抽取并展示摄像头网络中目标的活动线索,这无疑具有很大的挑战性。

综上所述,随着稀疏视频监控网络的广泛部署,研究面向稀疏监控摄像头网络的目标视频归纳技术成为业界的迫切要求。

2. 国内外研究现状及发展动态分析

(1)目标提取与跟踪研究现状

对于目标提取而言,利用背景减除或光流分割获得视频中的运动区域是一种简单、直接的目标提取方式。B.阿列克谢(B. Alexe)等提出了Objectness的概念,引入显著度估计策略进行“目标度”检测。贾斯珀·R.R.·乌伊林斯(Jasper R.R. Uijlings)等在此基础上提出了Selective Search进一步提高了目标度估计的性能。Cheng等基于二值化赋范梯度(Binarized Normed Gradient)更是实现了300帧/秒的高速目标度估计。然而,由于监控视频中目标较多、背景干扰大,因此上述方法常常无法准确提取目标。国内,浙江大学也提出了通过低层视觉先验估计目标显著度,再利用高层视觉先验确定目标空间分布,但由于未引入目标运动的时域约束,因此导致目标提取的精度不够。为了解决上述问题,人们通过有监督方式训练目标检测器来提取视觉目标。其中较具代表性的工作是由费尔森斯瓦尔布(Felzenszwalb)等人提出的DPM(Deformable Part Model,可变形部件模型),该模型将目标表达成多个可变形部件模型的混合体,对物体的非刚性弯曲等变化的鲁棒性较高。然而,摄像头网络监控视频中目标类别多样且角度变化较大,对每个目标和每个摄像头训练DPM显然是不可行的。

与目标定位不同,目标跟踪需要在连续的视频帧序列中给出目标的位置。中国科学院自动化研究所认为,传统的光流、Meanshift等方法受环境、遮挡等因素的影响大。美国南加州大学的Dinh等尝试利用局部特征点的共生性解决目标部分遮挡和外观变化问题。英特尔的Mei等基于l1范式优化稀疏编码提取鲁棒性更高的特征以解决遮挡和环境噪声问题。然而,上述方法不能在线更新目标特征,导致多个相似目标在运动中发生交叉时往往会发生“误跟”现象。此外,这类方法通常只能针对视频中的单个目标进行跟踪,无法应对多目标跟踪问题。为了克服上述方法的局限性,Tracking-by-Detection方法同时利用目标检测器的高区分能力和目标运动的连续性,使目标跟踪更为稳定,但因不能对目标特征进行在线更新,仍存在多目标交叉中的“误跟”现象。例如,Liu X等提出通过当前帧目标特征对已有的高区分性特征进行更新,实现对多目标的灵活、稳定跟踪。

总体而言,由于稀疏监控摄像头网络视频角度变化大、目标多,现有视频目标提取和跟踪方法与目标视频归纳所要求的性能有较大差距,因此需要研究新的目标提取和跟踪方法,使其既能够在避免烦琐的检测器训练的同时准确提取类别多样的“泛目标”,又能够在线更新目标特征实现稳定、准确的多目标跟踪。图1-35所示即为基于在线学习的目标跟踪。

(2)跨摄像头目标跟踪研究现状

由于不同摄像头的视野之间没有重叠区域,因此跨摄像头目标跟踪本质上是目标再识别问题。根据对特征处理方式的不同,跨摄像头目标跟踪方法大体可以分为两类:基于距离学习的方法和基于局部特征匹配的方法。

基于距离学习的方法通过学习不同摄像头中同一目标的最佳相似度度量获得不同摄像头之间目标表达的映射关系,从而实现准确的跨摄像头的目标跟踪。Zheng等通过缩小与身份目标的特征距离来增强不同身份目标之间的区分性,以此提高跨摄像头目标跟踪的准确率。国内,清华大学艾海舟教授课题组提出了基于统计推断的行人再识别算法,该算法基于人工标注的训练样本统计学习两幅行人图像的相似度度量函数,重置不同摄像头中行人特征之间的相似度,以此来搜索不同摄像头中相同身份的行人。为了减少距离学习的人工标注工作量,Liu X等提出了一种基于半监督耦合字典学习的行人表达方法,通过对带标签和不带标签的行人样本进行联合字典学习,为每一对成对的摄像头学习联合字典,因而可以由一个摄像头的行人特征重构得到另一个摄像头中的行人特征,从而实现行人特征的外观不变性(见图1-36),上述方法在小规模数据上提高了目标跟踪的准确率。然而,人们也注意到,由于稀疏监控摄像头网络节点和目标较多、监控角度多变,因此通过人工定义的特征进行度量学习往往无法灵活适应这一情况,与实际需求有较大差距。

*图1-36 基于深度网络模型的角度不变特征学习(表示投影,表示重建)

基于局部特征匹配的方法通过人工定义局部特征进行跨摄像头目标跟踪。Zhao R等采用无监督显著度学习模型取得可靠的高区分性局部Patch进行匹配实现行人再识别。国内,西安理工大学提出采用多种特征融合方式获得目标的外观描述,再基于EMD(Earth Mover Distance,地球移动距离)进行最近邻识别。但由于监控摄像头角度的变化,同一个人的外观变化往往很大,导致低层特征区分性和稳定性往往还不足,因此人们还尝试通过基于属性约束的隐话题模型(Attribute-Restricted Latent Topic Model)在目标再识别中通过属性描述取得更稳定的目标特征。上述基于局部特征匹配的方法不需要大量的人工标注数据,易于实施,但值得注意的是,仅靠人工定义方式获得的特征表达描述能力有限,特征区分性和稳定性都无法保证,特别是在网络中摄像头较多的情况下很难取得较高的再识别准确率。

总体而言,现有的跨摄像头目标跟踪所使用的特征是基于人工定义的,其表达能力和区分能力都无法适应稀疏摄像头网络中目标类型多样、摄像头角度复杂等情况。此外,现有的目标再识别方法大多都没有考虑摄像头网络中节点之间的关联性和时空距离,导致识别准确率随着网络规模的扩大迅速衰减。

(3)摄像头网络拓扑重建研究现状

摄像头网络拓扑重建的目的是获得摄像头之间的关联关系。然而,随着监控网络中摄像头数量增加,监控视频中具有相似外观的目标会越来越多,仅仅基于外观特征无法做到准确的身份再识别,这时候就要引入摄像头之间的关联关系作为约束。对于稀疏摄像头网络而言,进行拓扑重建主要分为有监督和无监督两种方式。

有监督摄像头网络拓扑重建的一个基本假设是,当监控网络中的两个摄像头在不同时刻发现同一目标时,这两个摄像头之间存在连接关系。Shah等对不同摄像头中的相同目标进行人工标注,基于标注的目标轨迹数据,学习稀疏摄像头网络中摄像头之间的相互关系,其中包含目标在摄像头间移动的概率。然而,对于大规模稀疏摄像头网络而言,该方法人工标注工作量过大,而且该模型中并未包含摄像头间的时间距离,因此拓扑重建结果是不完备的。

无监督摄像头网络拓扑重建在学习摄像头之间的关系时不需要人工标注数据,而是通过统计学习方式获得对摄像头网络拓扑的认知。K.肖(K. Tieu)和A.吉尔伯特(A. Gilbert)等提出了一种由粗到精的摄像头网络拓扑重建方法,首先假设所有摄像头之间都有直接的连接关系,然后基于目标颜色匹配不断调整这些连接关系,最终得到符合实际监控系统的摄像头网络拓扑。与之不同,C.C.洛伊(C.C.Loy)等提出了基于交叉典型相关分析对所有的摄像头视频场景进行量化分析的方法,从中发现摄像头之间的连接关系。然而,上述方法仅考虑了摄像头之间的连接关系,并没有对目标在摄像头之间的迁移概率和时间距离进行建模。当监控网络规模较大时,相似的场景越来越多,往往导致拓扑重建的失败。

总的来说,目前国外对稀疏摄像头网络拓扑重建的研究尚处于起步阶段,国内也尚未有代表性的研究成果发表。首先,现有的拓扑重建未能与跨摄像头目标跟踪有机结合,导致标注工作量大或相似场景多等问题,无法解决大规模稀疏摄像头网络条件下的拓扑重建问题。其次,现有的拓扑重建模型大都没有考虑节点之间的时间距离,缺少完备性。因此,如何以最少的人工干预获得准确、完备的拓扑重建,是一个在理论和实践上都有重要意义的挑战性课题。

(4)视频浓缩研究现状

传统的视频浓缩能够使人们快速地浏览或检索海量的视频数据,主要分为两类:一类是基于低层特征的视频浓缩;另一类是基于语义事件驱动的视频浓缩。

基于低层特征的视频浓缩通过低层视觉特征计算得到视频帧的重要度(Importance),并根据重要度提取视频中的关键帧或关键片段实现浓缩。南洋理工大学用通过CENTRIST低层特征构造的稀疏字典来提取用户个人视频的关键帧或关键片段。在国内,浙江大学先后提出了基于片段边界检测的关键帧提取和基于非负线性重建的视频浓缩,后者在公共数据集Open Video Project上取得了迄今为止最好的关键帧提取结果。

基于语义事件驱动的视频浓缩通过检测提取视频中重要的语义片段实现浓缩。UT-Austin提出的事件驱动的头戴摄像机视频摘要,可以利用事件检测器提取关键视频片段,再连接这些视频片段获得浓缩视频。合肥工业大学提出的基于标签定位和关键片段提取的事件驱动互联网视频摘要的方法,实现了视频事件的快速搜索。

总体而言,虽然上述视频浓缩技术大幅度压缩了视频长度,但由于没有考虑目标活动线索的提取和保留,往往会导致目标活动线索的中断或丢失,因此无法用于面向稀疏监控摄像头网络的目标视频归纳。

3. 可能的技术路径

针对监控摄像头网络涵盖目标多样、角度各异、稀疏性强等新的特点,本小节提出了面向稀疏监控摄像头网络的目标视频自动归纳研究。未来,业界将以目标活动线索提取为主线,对目标视频归纳相关的泛目标活动提取与跟踪、跨摄像头目标跟踪、摄像头网络拓扑重建以及目标视频归纳等关键技术展开研究。

首先,针对稀疏摄像头网络视频中目标种类多、数量大等特点,研究基于视觉先验学习的泛目标提取方法,并基于在线增强学习实现鲁棒、稳定和准确的多目标跟踪。其次,考虑到跨摄像头视频角度差异带来的目标外观变化,基于深度学习思想研究角度不变特征学习算法,并结合摄像头网络的时空域约束构造新的跨摄像头目标跟踪方法。再者,基于有向图对稀疏摄像头网络进行拓扑建模,利用跨摄像头目标跟踪提取的目标运动轨迹对该有向图进行统计学习,获取目标在相邻摄像头之间的转移概率和时间开销分布,并在此基础上构造摄像头网络拓扑重建与跨摄像头目标跟踪交替迭代优化框架,同时提高拓扑重建和目标跟踪的准确率。最后,基于目标在稀疏监控摄像头网络中的运动轨迹,对目标之间的关联关系进行建模,并以此为浓缩要素,构造新的视频浓缩算法和目标图谱自动生成算法,实现以目标活动线索为核心的稀疏监控摄像头网络视频自动归纳。

1.2.6 基于视觉的无人机地面目标自主跟踪系统

* 关键词:计算机视觉 无人机 目标自主跟踪

* 作 者:成慧 林立山 郑卓祺 杨睿

使无人机具备自主飞行能力是无人机发展过程中的必经阶段,其中最重要的技术是视觉跟踪技术。为了能使无人机实现自主视觉跟踪,无人机先后经历了ADS-B(Automatic Dependent Surveillance-Broadcast,广播式自动相关监视)与雷达定位、信号点跟踪、视觉/超声波定位、人工智能式的目标识别等多个技术阶段。本小节针对地面移动目标的跟踪问题,以搭载云台摄像机的四旋翼无人机为平台,对云台自主跟踪、目标状态估计和无人机控制进行分析,设计了基于视觉的无人机地面目标自主跟踪系统。

旋翼无人机的自主跟踪技术有着广泛的应用。近年来,国内外学者对无人机自主跟踪技术开展了广泛的研究,提出了许多性能优良的视觉跟踪算法和无人机控制律。

现阶段无人机视觉跟踪算法的研究尚存在如下问题;跟踪算法对目标遮挡或丢失的情况缺乏鲁棒性;无人机视觉跟踪算法与控制算法计算复杂度高,不适合机载计算机处理;分别考虑视觉跟踪、目标状态估计与无人机控制,而没有考虑三者之间的耦合和关联。

针对上述问题,本小节设计了一种基于视觉的无人机地面目标自主跟踪系统。为了解决目标遮挡与丢失问题,此处在KCF(Kernel Correlation Filter,核相关滤波)跟踪算法的基础上加入了目标丢失检测和目标重检测模块,使系统能判断目标状态,检测并继续跟踪重新出现在图像中的目标,并使用基于IMM-EKF(Interactive Multiple Model-Extended Kalman Filter,交互式多模型-扩展卡尔曼滤波)的状态估计器估计机动目标的运动状态。本小节设计了无人机的非线性控制律以实现稳定的飞行控制。此外,根据目标的运动状态及其与无人机的相对距离,无人机跟踪系统选择不同的模式以提升跟踪过程中的飞行稳定性。

1. 无人机自主跟踪系统结构

本小节采用大疆经纬Matrice 100(M100)无人机开发者平台作为无人机平台,M100具有灵活的可扩展性,搭载英伟达TK1机载计算机和云台相机。机载计算机利用视觉跟踪算法对云台相机采集的视频图像进行处理,获得目标在图像上的坐标,并将坐标数据反馈给云台控制器。同时,机载计算机融合IMU(Inertial Measurement Unit,惯性测量单元)和云台相机的数据估计运动目标的状态。根据目标状态信息及其与无人机的相对距离,可切换的跟踪控制策略使无人机在跟踪过程中飞行稳定。基于视觉的无人机地面目标自主跟踪系统如图1-37所示。

2. 视觉跟踪算法

本小节设计的视觉跟踪算法由KCF跟踪算法、目标丢失检测和重检测模块构成,对于处理目标被遮挡或丢失的问题具有一定的鲁棒性,且有较高的计算效率,算法流程如图1-38所示。

(1)KCF 跟踪算法

KCF跟踪算法利用不需要先验知识的在线学习方法来实现目标跟踪。在选中兴趣区域后,KCF跟踪算法将兴趣区域转换为多通道的HOG(Histogram of Oriented Gradients,方向梯度直方图)特征描述子。利用岭回归(Ridge Regression)和HOG特征描述子将兴趣区域z初始化为一个回归方程f(z)。对于新一帧图像,使用f(z)对原兴趣区域的邻近区域进行评估,选择具有最大响应的区域作为该帧的输出,并以此更新f(z)。

(2)目标丢失检测和重检测

在跟踪过程中,会出现目标被完全遮挡的情况,大多数视觉跟踪算法在此情况下无法正常工作。本小节提出了一种简单而有效的目标丢失检测和重检测方法,以检测目标是否丢失,并捕捉重新出现在视频图像中的目标。

在KCF跟踪算法中,回归方程值表征了兴趣区域与目标的相近程度。设定一个阈值,若回归方程的最大值fmax(z)低于该阈值,可认为目标丢失。

当目标丢失,无人机进入悬停状态并开始寻找目标时,可以根据运动目标的前景来检测目标。利用帧差法,用当前帧图像减去前一帧获得差分图像,得到运动前景,如图1-39所示。然后,利用高斯滤波去除部分噪声。在差分图像中,使用与初始兴趣区域同样大小的边界框选中多个运动前景,再利用回归方程进行相似度估计,最后选择具有最大响应且响应大于阈值的区域作为目标位置。

3. 目标状态估计

在保证云台摄像机能够获得目标坐标后,需要估计目标的运动状态和实际位置,以控制无人机跟随。

(1)距离估计方法

FB表示无人机坐标系,FC表示云台摄像机坐标系。选取云台摄像机光心作为FC的原点,XC-YC平面与成像平面平行,ZC轴沿光轴方向。无人机、云台摄像机与地面目标T的位置关系如图1-40所示。

根据标准小孔成像原理,用RBC表示FC转换到FB的旋转矩阵,目标T在无人机坐标系FB中的位置向量PB可表示为:

其中,齐次坐标(u, v, 1)为成像平面的目标位置,K为云台摄像机的本征矩阵,PB=(xt, yt, zt)T。由此,用h表示无人机的高度,则目标与无人机的相对距离可用式(1-3)估算:

(2)扩展卡尔曼滤波器

由于计算过程中存在测量噪声,且噪声会发生叠加,因此由式(1-3)估算得到的无人机与目标的相对距离一般是不精确的。要使无人机在跟踪目标时能有更小的跟踪滞后和更稳定的飞行轨迹,需要对目标相对位置进行滤波估计。

对于随机运动的目标,单一模型无法包含其运动情况。本小节使用以匀速运动模型与当前统计模型为模型集的IMM-EKF算法估计运动目标的状态。

匀速运动模型为:

其中,t为采样间隔,X为状态向量,w为离散白噪声。

当前统计模型的离散形式由式(1-5)表示:

其中,Φ(k)为状态矩阵,U(k)为控制矩阵,ā(k)为目标的加速度均值,w(k)为离散形式下的白噪声。该模型是具有自适应均值的Singer模型,不需要任何先验知识,并能对变加速运动的目标进行状态估计。

4. 控制器设计

(1)云台控制器

由于视频图像每帧间隔时间较短,因此可认为目标在相邻几帧图像上的运动在同一直线上,且加速度变化不大。在此假设下,用匀加速运动模型来预测目标下一时刻的坐标。令目标在图像坐标系x轴上第k时刻的位置为u(k),则第k+1时刻的位置u(k+1)用式(1-6)估算:

其中,Δt为第k时刻与第k+1时刻的时间步长,ü(k)可由4个相邻图像帧的差分得到:

类似地,可以估计得到目标在图像坐标系y轴的位置v(k)。由此,以PD(Priority-driven scheduling,基于优先级的调度)算法控制云台,将坐标估计值与预期位置的偏差作为控制器输入来计算云台的偏转角速度。

(2)跟踪策略

针对不同的目标运动状态,设计了模式可切换的跟踪策略。在观察模式下,设计PID(Proportional、Integral、Differential,比例、积分、微分)控制器,在偏航角速度不足时控制无人机移动以调整视角,使目标一直处于无人机前方;在跟踪模式下,采用李雅普诺夫方法根据目标运动状态设计控制器来控制无人机的飞行。

跟踪模式的切换取决于无人机和目标的相对距离d与阈值dmindmax的关系,该阈值由无人机的飞行高度h和使目标定位误差最小的俯仰角范围[θ1, θ2]决定:

通过实验验证,当[θ1,θ2]=[20°,70°]时,相对距离预测具有较好的效果。

① 观察模式

dmin<d<dmax时,目标在观察区域内, 如图1-41所示,无人机进入观察模式。

此时,为使目标留在视野内,仅需采用PID控制器对无人机的偏航角进行控制,而无须云台一直跟随目标,避免造成不必要的镜头抖动。

② 跟踪模式

d<dmind>dmax时,目标离开观察区域,无人机切换至跟踪模式。

假设无人机在跟踪过程中定高飞行,可将三维空间中的跟踪问题简化成二维平面上的位置跟随问题。

在跟踪过程中,无人机需与目标保持期望的距离,且偏航角尽量小。令无人机与目标间实际距离和期望距离的偏差为εd,无人机实际偏航角与期望偏航角的偏差为εσ

其中,

目标坐标、相对距离d和相对角速度σd间的关系如图1-42所示,σd=arctan(yd/xd)。对式(1-10)求导可以得到:

其中,vxvy是无人机在机体坐标系下的速度,vtσt是通过IMM-EKF估计得到的目标速度和偏航角速度。

控制系统需要对vxvy以及角速度w进行控制,使得εσεd收敛到0。根据李雅普诺夫第二定理,考虑方程:

显然,V(x)≥0,当且仅当[εd εσ]T=[0 0]T时有V(x)=0,故V(x)正定。对V(x)求导:

控制量取:

其中,k1k2为正常数。

将式(1-14)代入式(1-13)中,整理之后可以得到:

已知,由李雅普洛夫第二定理可知,控制系统在[εd εσ]T=[0 0]T处渐进稳定。

5. 实验测试

(1)视频目标跟踪测试

对跟踪算法在目标没有被遮挡、半遮挡和完全遮挡3种情况下的性能进行测试,测试结果如表1-13所示。

在表1-13中,Ns为每次测试的总视频帧数,Nt为包含目标的视频帧数,Ntd为正确跟踪和重检测目标的视频帧数,SB为简单背景,CB为复杂背景,IV为光照变化。在完全遮挡情况测试中,设置目标消失时间至少为3s,即约为90帧。此时,传统的KCF跟踪算法不能准确跟踪目标,而由KCF跟踪算法和重检测算法组成的跟踪方案则能良好地工作。算法的跟踪准确率随着情况复杂度的增加而下降。

(2)目标状态估计测试

本小节使用目标真实运动状态与算法估计结果的偏差,对目标状态估计算法性能进行测试。相对距离误差表示为:

其中,dtrue为无人机与目标的实际相对距离,dest为IMM-EKF估计得到的相对距离。

图1-43所示为相对距离误差与云台俯仰角及偏航角间的关系,图中相对距离误差最值出现在红色或蓝色区域。随着俯仰角的增大,相对距离误差增加,目标状态估计的准确率下降,其原因在于:镜头图像存在畸变;在图像边缘处应用成像公式计算得到的实际距离有较大误差;云台摄像机存在观测噪声。

实验结果表明,当云台姿态角的变化范围为3%~8%时,目标状态估计的结果是可接受的。当偏航角为[-20°,20°],且俯仰角为[30°,55°]时,相对距离误差最小。因而,云台俯仰角和偏航角应当控制在合适范围内,以得到准确的定位精度。

(3)控制系统仿真实验

本小节对非线性控制算法与PID算法进行了仿真对比。

在仿真中,无人机被视作质点,其参数设置如下:偏航角速度为90°/s,无人机最大速度为6m/s。目标的运动轨迹随机生成,且在运动中拥有可变速度和加速度。在两种控制算法的仿真实验中,跟随策略均可切换至不同模式,仿真结果如图1-44所示。

图1-44(a)说明在模式可切换的跟踪策略之下,无人机能平稳、准确地跟踪目标,且非线性控制律与PID算法的效果相近。图1-44(b)说明使用非线性控制律得到的速度比PID算法更为平稳,由此避免了无人机不必要的移动。非线性控制律相比PID算法参数少、取值范围广,参数整定更为简便。

(4)自主跟踪飞行实验

我们通过室外飞行实验对随机运动的人进行了跟踪。飞行测试时间约为3min,总跟踪路程约为330m。利用人身上的手机导航数据和机载导航数据得到二者的运动轨迹,如图1-45所示。对图1-45中A区域的放大显示如图1-46所示。

从图1-46可以看出,应用模式可切换的跟踪策略,无人机的跟踪轨迹相比目标的运动路径更平滑。当目标频繁变更方向时,无人机通过切换观察模式和调整偏航角使得目标留在摄像头的视野范围内,避免紧随目标而发生晃动。实验结果表明,本小节提出的视觉跟踪控制算法可使无人机准确、稳定地跟踪目标。

6. 总结

针对无人机自主跟踪问题,本小节对视觉跟踪、目标状态估计和无人机的控制进行了系统的分析,设计并实现了基于视觉的无人机地面目标自主跟踪系统。通过结合KCF跟踪算法和重检测算法解决了目标遮挡或丢失的问题,并利用基于IMM-EKF的状态估计器估计运动目标的状态信息。为了实现稳定的跟踪,提出了一种可切换模式的跟踪策略,包含跟踪模式和观察模式,并设计了实现无人机轨迹跟随的非线性控制律。飞行实验表明,所设计的基于视觉的无人机地面目标自主跟踪系统具有稳定而鲁棒的自主跟踪性能。

1.2.7 视觉内容自动描述的研究进展

* 关键词:计算机视觉 视觉内容 自动描述

* 作 者:韩亚洪 武阿明 许有疆 杨子伟 王慧云 王博

视觉内容自动描述(Visual Captioning),即计算机自动为视觉内容(图像或视频)生成自然语言的语义描述,是当前人工智能、多媒体和计算机视觉等领域的研究热点。视觉内容自动描述涉及计算机视觉和自然语言处理两个领域的相关技术,是跨模态多媒体分析的重要实践。与图像或视频的分类、检索、识别等单标签或多标签任务相比,该任务不仅需要对视觉内容的精确识别和理解,还需要合适的语言模型来建模视觉内容的高层语义,以生成符合语法规则的自然语言描述。图1-47所示为图像和视频内容自动描述的成功例子,是使用目前已有的自动描述方法得到的结果,这些结果已经能够比较准确地描述图像和视频内容。视觉内容自动描述的研究,不仅是跨视觉和语言两个领域的重要实践,还能服务于各种现实应用,如提高图像和视频检索的准确率和速度、帮助机器人视觉交互、辅助视觉障碍人士等。

传统的视觉内容自动描述方法通过不同的分类器检测物体、场景、动作以及它们的属性和关系,然后用预先设定好的句子模板生成目标句子。这些方法严重依赖手动设计,不仅效果较差、模式死板,而且生成的句子结构单一。随着深度学习的兴起以及其在计算机视觉问题上的突破性进展,目前视觉内容自动描述的方法大多基于深度学习技术,并使用编码器-解码器(Encoder-Decoder)的框架。

概括来说,目前的视觉内容自动描述方法先用CNN和循环网络编码图像或视频,生成视觉内容的深度特征表达。之后,基于不同的循环网络构造语言模型,并用语言模型解码视觉特征生成句子描述。对于图像,一般方法是先通过不同的CNN构造图像的深度特征,然后使用LSTM模型构造语言模型来解码图像特征,生成自然语言描述。对于视频,一般先用CNN提取单帧视频的深度特征,然后构造不同的循环神经网络来建模和融合视频帧特征间的时序依赖关系。最后,同样使用LSTM构造语言模型来生成句子描述。两种框架的结构一般都分为编码过程和解码过程。

考虑到不同视觉内容对预测句子的不同作用,一些方法在视觉内容自动描述任务中引入了注意力模型,在生成句子的时候,适应性地关注到显著性的视觉内容来弱化噪声信息和强化有效信息,从而提高句子预测的准确率。考虑到视觉内容深度特征和高层语义概念的语义鸿沟,相关工作在深度特征上加入了语义监督信息,或者直接从视觉内容中提取含有高层语义的概念,用以提升句子中语义概念的准确性。此外,由于视觉内容的丰富性和多样性,仅用一句话不能很好地描述复杂的视觉内容,因此尝试用多个句子或者一段话来描述图像和视频的高层语义,比如相关工作检测视频中的不同事件,然后对每个事件分别进行描述。

1.3 计算机视觉技术的应用落地发展

1.3.1 从蜜枣网案例谈微软认知服务

* 关键词:计算机视觉应用 认知服务

* 作 者:周岳骞

微软认知服务是微软云的众多服务之一,也是微软人工智能平台的一部分。微软认知服务为开发者提供了五大类的API:影像、语音、语言、知识、搜索。这些API后端搭载在微软云的计算资源之上,使用微软研究院不断迭代更新的机器学习算法,前端则以REST API的形式开放,帮助开发者在无须理解算法原理的情况下,仅通过简单的代码就可以在应用中实现人工智能。本小节以微软的合作伙伴蜜枣网在原大兴王府井百货落地的消费者体验项目为切入点,为大家介绍微软认知服务的功能、应用场景以及机器学习算法。

在各行各业都在讨论数字化转型的今天,传统零售行业正面临着前所未有的挑战。随着城市基础设施建设的不断完善,大型商业综合体在数量上不断增多,但商业综合体在品牌、店铺、消费方式上的同质化使得消费者不再将某个购物中心作为休闲购物的首选。同时,电商平台的兴起逐渐侵蚀传统的零售行业,在电商平台上,几乎消费者的一切行为(包括搜索、浏览和购买),以及购买后对消费体验的评价都会产生消费数据,而电商平台很容易就可以利用这些消费数据对消费者的行为和偏好进行分析。

如何在新的时代为消费者提供新的体验,以实现持续的发展,已成为每一个实体零售经营者需要考虑的问题。

1. “锐智眼”提供更多的未来应用场景

由于零售业以前没有利用技术手段来理解与分析消费者体验与销售额之间的关系,因此大多数经营者只能从价格促销方面来改善经营效果。而另外一些企业也开始探索新的方式优化顾客服务,例如,对于支付高达上百万元费用的情况,聘请专业的市场调研公司每年对客流进行统计分析。但在这样的调研中,报告的准确度需要依赖样本基数是否足以体现日常运营状况,同时由于报告缺乏实时性,因此在实际运营管理中无法起到良好的决策支持作用。

在深度分析行业现状和需求之后,蜜枣网在微软云平台上开发了基于微软认知服务的“锐智眼”消费者体验智能分析系统(简称“锐智眼”系统)。该系统已经在2017年8月末于北京原大兴王府井百货上线,在真实的业务环境中使用人工智能技术来提高业务效率。通过“锐智眼”系统,王府井百货的管理者不仅可以及时掌握客流动态,了解客流群体的精准分层,以性别圈层、年龄圈层、家庭圈层来精细改进品牌及消费区域布局规划,还可以通过对消费者的情绪精准捕捉来确定体验驱动点位,在客流动态线上根据数据分析来精确设定服务区域以及改进服务流程与方法,帮助管理者做到把消费者的体验变成经营KPI(Key Performance Index,关键绩效指标),把消费者的优质体验从经营口号变成经营动力。

如图1-48所示,在“锐智眼”系统中,商场的摄像头捕捉消费者在商场消费期间的图像,并通过商场的本地服务器上传至云端,通过蜜枣网的预处理算法,包含人脸的清晰图像将会被传输至认知服务,进行人脸特征识别和情感分析。之后,认知服务的分析结果将被写入Azure MySQL数据库中,并交由蜜枣网的BI(Business Intelligence,商务智能)分析算法进行进一步分析,分析结果最终存储在数据库中。商场管理者通过一个搭载在Azure虚拟机中的Web系统访问这些结果,系统将会通过多个维度的图标形式将结果展现出来。

蜜枣网基于Azure智能云和认知服务开发的“锐智眼”消费者体验智能分析系统在北京原大兴王府井百货应用之后,取得了良好的效果。利用分布在原大兴王府井百货5个楼层的21个人脸捕捉摄像头,认知服务API每天为“锐智眼”系统处理超过10 000张人脸图像,其分析能力比传统的客流统计系统功能多出5个维度,如图1-49所示,但成本却只有其1/5,因此原大兴王府井百货并不担心高科技带来的高成本,反而因此设计了更多的未来应用场景:会员无卡消费和个性服务体验。通过越来越高的人脸识别精度,未来会员在逛街时不需要带会员卡,也不需要报手机号,只要进入商场就会有对应的服务与优惠提供给不同会员:家庭会收到儿童乐园优惠券,女性则可直接看到自己心爱的长裙有优惠,男性收到的是最新款运动鞋的促销通知。人工智能让商场的服务能力有了巨大的提升空间,并将为消费者提供无与伦比的个性体验。

为了能够做到这样精确、详细的实时分析,“锐智眼”系统除了将所有的计算资源以及数据存储搭建在微软云Azure之上,最关键的还是对认知服务的充分利用。在认知服务的众多API中,“锐智眼”系统主要使用了其中的两个API:人脸API(Face API)和情绪API(Emotion API)。通过商场中专门设计和部署的摄像头,系统采集到的图像将会交由这两个API进行处理,如图1-50所示。

API返回到系统的结果则是每个图像中发现的人脸、人脸位置、人脸的大量视觉特征以及情绪信息。通过从图像中提取的结构化认知信息,“锐智眼”系统再结合自主研发的BI分析算法,如客流轨迹分析和家庭发现等,最终给管理者呈现简单明了且具备商业价值的信息。

人脸API用于检测图像中的一张或多张人脸,获取图像中人脸所在位置背面的矩形,以及包含基于机器学习的面部属性特征预测的人脸属性。提供的面部属性特征包括年龄、表情、性别、姿势、微笑和面部毛发等,以及图像中每张脸上的27个特征点。调用该API时需要提供图像链接或图像流文件作为参数,算法将检测出图像中的人脸,并向调用端返回如表1-14所示的信息。

情绪API以图像中的面部表情作为输入,并使用人脸API返回图像中每张脸对应一组情感中的可信度,以及面部的边界框。如果用户已调用人脸API,则可将面部矩形作为可选输入提交。可检测到的情绪包括愤怒、蔑视、厌恶、恐惧、幸福、中立、悲伤和惊喜等。这些情绪跨越了文化界限,通常由特定的面部表情传达,如图1-51所示。

情绪API的返回值见表1-15。

相比传统的人脸识别算法,认知服务中的人脸API提供了更加精确的人脸定位,精度最小可以定位到图像中36像素×36像素的人脸,同时分析的维度也更多,并且开发者可以根据API返回的27个人脸特征点位置来进行更多的个性化分析。

2. 微软认知服务的API应用

微软早在几年前就开始了名为“牛津计划”的项目,将微软研究院的机器学习成果包装成API和SDK供开发者使用。

随着底层算法日趋成熟以及微软云全球数据中心的建设,“牛津计划”目前已经登录了微软云Azure,成为可商用化的产品——认知服务。

利用微软云的底层计算资源,认知服务可以为商业应用开发者提供更加可靠和并发能力更强的接口,再加上API本身简单、易用的特性,可以让人工智能更快地应用到不同的商业场景中。比如Uber利用认知服务验证自拍,以便对驾驶者的身份进行快速验证。GrayMeta(工作室级媒体播放器和质量控制解决方案)利用认知服务对视频内容进行快速检测和标注。Dixons Carphone公司(欧洲的独立手机零售商)利用认知服务实现聊天机器人为客户提供更加人性化和快捷的售前、售后服务。国内的公益项目“宝贝回家”利用认知服务对失踪儿童进行人脸比对和识别。

前面提到的人脸API和情绪API是认知服务中的一部分,认知服务目前总共提供了五大类30种不同功能的API和服务,并为安卓等常见平台提供SDK(见表1-16)。

对开发者而言,理解这些API并不难,微软官方的文档提供了在不同开发语言中使用这些API的开发样例。开发者需要注册自己的微软云账户,获取唯一的认知服务访问密钥,然后在应用代码中通过网络对API进行调用。所有的调用请求都会被发送到微软云部署在全球42个区域的数据中心,开发者可以根据自己的需求选择不同的数据中心进行处理,每一个数据中心都会有计算集群来分布式进行认知服务的底层运算,从而保证结果的返回时间不受访问并发量的影响(注:目前国内的数据中心仅提供计算机影像、人脸识别和情感识别3个API的处理,其他API的访问均由国外数据中心提供服务)。

除了以上这些已经作为服务开放的认知服务API之外,微软还将尚未投入商业应用的API集成在“认知服务实验室”中。通过使用实验室,开发者可以预览这些最新的人工智能技术,同时订阅自己感兴趣的内容来关注这些技术研究的最新进展。

3. 微软研究院的底层研究

认知服务在商业上的成功建立在微软研究院20余年来在计算机视觉领域研究累积的基础之上。在学术界,微软研究院已经在人工智能的多个领域,尤其是基于深度学习的图像识别算法领域取得了长足的进步,这些先进的算法不仅通过认知服务等微软产品和服务,影响着用户的计算体验,同时还推动着整个计算机视觉产业的发展。

2015年由微软亚洲研究院研发的计算机视觉系统在计算机视觉识别挑战赛ImageNet中首次超越了人类进行对象识别分类的能力,并凭借前所未有的152层深层神经网络技术——ResNet(Residual Network,残差网络),实现了计算机视觉领域里程碑式的突破。如今,ResNet已经成为全球计算机学术和科研领域的一个标准概念,众多科技公司纷纷在不同领域采用这一先进的技术。

此外,微软亚洲研究院视觉计算组的研究员们还实现了一种称为SPP(Spatial Pyramid Pooling,空间金字塔聚合)的算法,通过内部特征识别,而不是每个区域从头检测,对整个图像只做一次计算。利用这种算法,在不损失准确率的前提下,物体检测速度有了上百倍的提升。

除了认知服务,微软亚洲研究院在计算机视觉领域的研究成果还转化到了众多微软的智能产品和服务中,例如,Windows 10中的Windows Hello“刷脸”开机功能、必应的图片搜索、微软小冰的多个图像“技能”,OneDrive中的图片分类功能,以及广受好评的口袋扫描仪Office Lens等,不胜枚举。

微软作为一家商业科技公司,在致力于前沿科技的研发之外,也一直在促进新科技的商用化和应用。认知服务就是在此理念上诞生的产品,微软希望认知服务可以帮助更多的企业更快地将人工智能应用于自己的产品中,进一步加强科技对人类生活的影响。

1.3.2 深度学习在医学影像分析中的应用进展

* 关键词:深度学习 医学影像分析

* 作 者:赵地

医学成像技术的不断突破,推动了生命科学的革命。将人工智能用于医学影像分析,可以帮助医生定位病症、分析病情、辅助做出诊断。目前医疗数据中超过90%的数据来自医学影像,这些数据大都要进行人工分析,如果能够运用算法自动分析影像,再将影像与其他病例记录进行对比,就能极大地减少医学误诊,帮助医生做出精准诊断。深度学习现已从原本主攻的视频、影像、语音识别分析等商业领域更多地转向了科研领域。对于医疗来说,深度学习将更加深植于医学影像、基于传感器的数据分析、转化生物信息学、公共卫生政策发展等方面。

1. 我国面临的健康问题

我国面临的健康问题主要包括人口老龄化带来的老年退行性疾病、环境污染带来的癌症、生活水平提高带来的营养过剩和慢性疾病等。因此,深度学习与医学影像分析的选题应主要解决这些问题。

(1)人口老龄化与老年退行性疾病

人口老龄化是我国面临的严重问题。根据《北京市老龄事业和养老服务发展报告(2016年—2017年)》,北京市60岁及以上户籍老年人口从2012年的262.9万人增长到2016年的329.2万人,老年人平均每年净增16.6万人,平均每天净增450人。而很多老年人存在不同程度的老年退行性疾病。老年退行性疾病,包括帕金森病、阿尔茨海默病等,给患者带来巨大痛苦,对社会医疗资源造成巨大浪费。以帕金森病为例,患病5年以上的治疗费用约为百万元之巨。

早期诊断是治疗老年退行性疾病的有效手段。以帕金森病为例,早期发现临床前患者,并采取有效的预防措施阻止多巴胺能神经元的变性死亡,能阻止疾病的发生与进展。如何早期发现临床前患者已成为帕金森病研究领域的热点之一。基因突变、快速动眼、睡眠行为障碍、嗅觉减退等帕金森病的非运动症状可出现在运动症状出现之前数年,它们可能是帕金森病发生的早期标示物。基于深度学习的医学影像分析是老年退行性疾病早期预警及标示物发现的新方法,为老年退行性疾病的早期发现与早期治疗提供了新的途径。

(2)环境污染与癌症

国家癌症中心2019年的统计数据表明,2015年我国平均每天超过1万人被确诊为癌症,每分钟有7.5人被确诊为癌症(由于全国肿瘤中心的数据一般滞后3年,2019年报告数据为2015年登记资料)。山东省肿瘤医院通过长期的肿瘤医学研究发现,环境污染问题导致我国的癌症发病率不断提高,建议要关闭环境重污染的行业和企业,要花大力气治理工业环境污染,解决大气环境污染、土壤环境污染、水环境污染等问题。

(3)生活水平提高带来的营养过剩与慢性疾病

慢性疾病主要包括心脑血管疾病、糖尿病等。心脑血管疾病包括脑血管疾病和心脏血管疾病。统计资料表明,近几年全世界死于心脏血管疾病和脑血管疾病的人数远远高于癌症的死亡人数。造成心脑血管疾病的原因有很多。经济的快速发展,生活水平的大幅提高,造成了部分人群摄入太多的动物和植物脂肪,即营养过剩。同时,酗酒和吸烟问题突出。这些原因直接导致血液流动出现问题。久而久之,这种状况就会导致脑血管疾病和心脏血管疾病。而糖尿病是一种代谢性疾病,其主要特征是高血糖。造成糖尿病的原因也有很多,主要原因之一就是营养过剩。

2. 深度学习在医学影像分析中的研究进展

基于深度学习的医学影像分析的几个关键步骤为:医学影像预处理、自适应深度学习、医学影像的大数据分析和基于GPU集群的异构并行算法。这几个关键步骤的研究进展分析如下。

基于深度学习的医学影像分析一般都需要做预处理。预处理的一个核心目标是降低数据的维度,以便后续的数据分类。医学影像分析常用的降维方法包括递归特征排除(Recursive Feature Elimination)、多维主成分分析(Multivariate Principal Component Analysis)、多维奇异值分解(Multivariate Singular Value Decomposition)、多维独立成分分析(Multivariate Independent Component Analysis)、张量分解(Tensor Decomposition)等。

医学影像分析的预处理可以选用的是大规模张量分解。张量分解将医学影像数据张量分解成多个小尺寸张量的张量积(Tensor Product)。1927年,希契科克(Hitchcock)提出了张量分解的想法。张量分解的算法包括L.R.塔克(L.R. Tucker)提出的Tucker张量分解和J.D.卡罗尔(J.D. Carroll)提出的CP张量分解,这些算法可以认为是PCA(Principal Component Analysis,主成分分析)和SVD(Singular Value Decomposition,奇异值分解)应用于张量的版本。其他张量分解的算法还包括INDSCAL、PARAFAC2、CANDELINC、DEDICOM、PARATUCK2等。

希契科克认为,任何张量都能够分解成有限个一次张量的乘积。1970年,卡罗尔提出了CANDECOMP(Canonical Decomposition),哈什曼(Harshman)提出了PARAFAC(Parallel Factors),统称为CP张量分解。CP张量分解能将任何一个张量分解成有限个一次张量的和。

1966年,塔克提出Tucker张量分解,其还被称为多模式主成分分析和多模式奇异值分解。Tucker张量分解将一个张量分解成一个核心张量G和多个矩阵,其中每一个维度包含一个因数矩阵:

Tucker张量分解有两个重要衍生版本:Tucker1和Tucker2。其中,Tucker1包含两个单位矩阵,Tucker2包含一个单位矩阵。

CP张量分解可以表示为如下形式:

1970年,卡罗尔等提出了INDSCAL(Individual Differences in Scaling),其是将CP张量分解应用于三维张量分解的特例。1978年,哈什曼等提出了DEDICOM(Decomposition into Directional Components)。1980年,卡罗尔等提出了CANDELINC(Canonical Decomposition with Linear Constraints)。当把CP张量分解应用于实际问题时,来自实际问题的信息可以以线性约束(Linear Constraint)的形式加入CP张量分解中。1996年,哈什曼等提出了PARATUCK2(PARAFAC and Tucker2)。

日本RIKEN研究所高级脑信号处理(Advanced Brain Signal Processing)实验室的安志伊·齐霍茨基(Andrzej Cichocki)教授及其研究小组对非负张量分解进行了深入的研究。齐霍茨基的张量分解研究集中在以下几个方面:多因子信号处理、潜在因子挖掘、快速分解和应用于大数据处理的因子分解。附加一些线性约束,齐霍茨基提出了一系列快速算法。2007年,齐霍茨基首先提出了稀疏非负张量分解(Sparse Nonnegative Tensor Factorization)。齐霍茨基等提出了一系列的基于非负张量分解的快速算法,如卷积、低阶逼近、降阶方法(Deflation Method)、正交等,并运用非负张量分解进行多因子的分离和潜在因子的挖掘。数据处理的另一个常见问题是数据的不完整性(Incompleteness)和异常值(Outlier),贝叶斯张量分解能够很好地解决这个问题。齐霍茨基等提出了多种用于医学影像大数据分析的张量分解。

芬兰阿尔托大学(Aalto University)计算机系的塞缪尔·卡斯基(Samuel Kaski)教授对用于医学影像数据处理的张量分解做了深入的研究。土耳其海峡大学(Bogazici University)计算机工程系的A.塔伊兰·塞姆尔(A. Taylan Cemgil)教授对贝叶斯张量分解也做了深入的研究。

美国佐治亚理工学院(Georgia Institute of Technology)计算机系的Jimeng Sun主要研究稀疏非负张量分解的方法。当张量分解用于医学影像分析预处理的时候,计算量非常庞大。高效地完成这样庞大的计算的一个有效的方法是GPU计算。2015年,Zou等提出了基于GPU计算的张量分解。

在对医学影像大数据进行预处理后,紧接着的一步是对影像数据进行分类。现有的医学影像数据分类算法包括决策树(Decision Tree)、支持向量机(Support Vector Machine)、贝叶斯网络(Bayesian Network)等。基于深度学习的医学影像分析的核心计算部件是基于GPU集群的自适应深度学习的异构并行实现。深度学习是人工智能领域的最新进展之一,国际上已有人在进行将自适应深度学习可应用于基于核磁共振影像分析的脑肿瘤诊断的研究。深度学习可应用于脑核磁共振影像的分类(Classification)、分割(Segmentation)、去噪声(De-Noising)等领域。与现有的应用于疾病早期诊断的决策支持的机器学习的算法相比,深度学习的算法具有更高的准确率与运算效率。2006年,第一个机器学习的框架Auto-Encoder发布了。常用的深度学习算法包括深度信念网络(Deep Belief Network)、深度卷积神经网络(Deep Convolutional Neural Network)、多任务深度学习(Multi-Task Deep Learning)等。深度学习开始应用于基于医学影像分析的疾病早期诊断的决策支持。

然而,应用于疾病早期诊断的决策支持的自适应深度学习,其很多方面需要深入研究,包括适用于疾病早期诊断的决策支持的自适应深度学习的网络拓扑结构、卷积核的设计、卷积操作的GPU高性能实现和基于GPU集群的异构并行自适应深度学习等。在自适应深度学习的拓扑设计上,已有的研究大都采用多次的卷积操作。贾因(Jain)等提出了人体姿势识别(Human Pose Estimation)的3层卷积神经网络。在卷积操作的高性能实现上,已有的研究都构建在GPU计算之上。拉文(Lavin)开发出了基于Maxwell架构GPU的卷积核。

随着神经影像(Neuroimaging)技术的发展,有关疾病的数据越来越多,而这些数据为构造疾病的医学影像分析的大数据集提供了可能。大数据集为基于医学影像的疾病早期诊断的决策支持的GPU算法提供了信息基础,而这些信息需要通过医学影像大数据分析和GPU计算挖掘出来。医学影像大数据分析是指对大规模的数据进行智能分析的一类方法的总称,主要包括医学影像大数据分类(Big Data Classification)、医学影像大数据聚类(Big Data Clustering)、医学影像大数据关联规则(Big Data Association)等。其中,医学影像大数据分类是大数据分析技术中一种最常用的方法,是指在大数据的环境下,对各项数据所属的类别进行判定的方法,主要应用于脑连接分析、大脑认知状态分析等。

基于深度学习的医学影像分析的最后一个关键步骤是基于GPU集群的异构并行算法的设计。先进的GPU集群系统配备InfiniBand路由系统,其中比较著名的有Mellanox公司的产品,它使各个GPU之间能够直接通信,即GPU Direct。支持GPU Direct的并行语言称为CUDA-Aware MPI,包括MVAPICH2、Open MPI、CRAY MPI、IBM Platform MPI等。基于CUDA-Aware MPI的并行算法设计已有相关的研究。同时,集群工作时需要保证各个GPU之间的负载均衡,包括动态负载均衡、静态负载均衡等。GPU集群的负载均衡也有大量的研究。

3. 深度学习在医学影像分析中的应用实例

本小节以脑肿瘤等疾病的早期检测与分级为例,介绍深度学习在医学影像分析中的应用。

脑肿瘤早期检测的有效手段是核磁共振(Magnetic Resonance)医学影像,包括结构(Structural)核磁共振医学影像、功能(Functional)核磁共振医学影像、扩散(Diffusion)核磁共振医学影像等。由于脑肿瘤早期诊断的重要性,因此业界基于核磁共振影像分类的脑肿瘤早期诊断的决策支持已进行了大量的研究。然而,现有的基于核磁共振影像分析的脑肿瘤早期诊断的决策支持的准确度和速度还不够高。原因有3个:第一,用于训练的数据集种类单一,样本数量有限;第二,大规模分类算法的速度需要提高;第三,用于诊断的机器学习算法准确度还需要提高。

随着神经影像技术的发展,公开的脑科学与脑医学的医学影像数据库越来越多。各个研究单位和临床医院在各自的实践当中也产生了大量的数据。以用于脑科学和脑医学研究的功能核磁共振为例,每天的研究和临床实践将产生数以吉字节计的数据。近年来,随着大科学与大医学的发展,医学影像的数据产生量变得更大。面对这些脑医学的资源,有两个问题值得思考。第一个问题是:这些宝贵的医学影像资源能否整合在一起,通过医学影像大数据分析和GPU计算,为脑肿瘤的早期诊断提供有价值的信息?第二个问题是:面对如此庞大的脑肿瘤医学影像大数据,如何从这些影像大数据中高效、快速地获取有价值的信息?

深度学习为解答如何从医学影像大数据中获得有价值的信息提供了技术手段。对于医生来说,根据患者的脑医学影像对脑肿瘤做出早期的诊断,是非常不容易的事情。随着公开的脑肿瘤的医学影像数据越来越多,深度学习带来了计算机辅助的脑肿瘤早期诊断决策支持的革命性进步。基于将要建设的脑肿瘤医学影像大数据集,现有的研究尝试使用深度学习的技术和GPU计算,对患者的脑肿瘤医学影像进行分类,提高临床医生进行脑肿瘤早期诊断的决策支持的准确率,即用于诊断决策支持(Clinical Decision Support)的算法。

脑肿瘤医学影像大数据是大量医学影像数据的某种形式的集合体。医学影像原始数据或重建以后的数据是一个含有多个维度的张量:长度、宽度、页面和时间等。这些维度的物理意义和医学意义各不相同。为了达到脑肿瘤进行早期诊断的决策支持的目的,首先要对脑肿瘤医学影像大数据进行预处理——降低维度(Dimension Reduction)。

作为深度学习预处理的方法,张量分解是一个热门的研究领域。相比其他预处理方法,基于医学影像数据张量分解及其多种衍生版本的预处理具有以下优点:第一,医学影像数据在降维的过程中保持原有的结构;第二,张量分解归纳出医学影像数据的主要因子(Main Factor),提高分类精度;第三,张量分解挖掘出医学影像数据的潜在因子(Latent Factor),也能提高分类精度。然而,现有的医学影像数据张量分解也有不少缺点。第一,没有考虑这些主要因子的主次关系,也没有考虑这些主要因子的相互作用,这些都与医学影像数据的原始信息的特点不相符。例如,在脑肿瘤研究中,人脑肿瘤疾病的致病原因多种多样,这些因素之间也有联系。第二,现有的医学影像数据张量分解无法适应大数据分析所必需的并行实现的要求。因此,基于深度学习的脑肿瘤早期诊断能够考虑医学影像多维数据的潜在因子之间的主次关系与相互关系,研究出新的医学影像数据张量分解的实现算法和GPU并行化版本,提高医学影像数据预处理的质量和速度。

医学影像大数据是多个医学影像按照规则组成的集合,医学影像大数据分类是由多个医学影像分类器同时工作实现的。因此,医学影像分类器的准确率和速度决定成败。医学影像分类广泛应用于脑肿瘤早期诊断的决策支持的研究中。然而,现有的医学影像分类算法的准确率和速度还不够,其缺陷如下:第一,现有的医学影像分类算法都是浅层算法,其分类的准确率还不够高;第二,现有的医学影像分类算法并行化程度低,无法充分利用GPU的加速性能。

为了弥补这两个缺陷,需要开发出基于自适应深度学习的脑肿瘤医学影像分类的GPU算法,其实现途径如下。第一,现有脑肿瘤医学影像分类算法是浅层结构,对提高脑肿瘤医学影像数据分类准确率的潜力有限。人脑是一个有深度的结构,对于事物的认知有一个过程。因此,以模拟人脑为出发点的自适应深度学习很可能是提高现有浅层的机器学习算法准确率的一个方向,需要探讨设计基于自适应深度学习的分类器,提高脑肿瘤医学影像分类的准确率。第二,现有医学影像分类算法非SIMD(Single Instruction Multiple Data,单指令多数据)结构,并行化程度低,造成其速度较慢。因此,基于深度学习的脑肿瘤早期诊断,能够开发基于自适应深度学习与SIMD结构的脑肿瘤医学影像分类算法,在单GPU上实现,提高其准确率和速度。

医学影像大数据集的数据来自各个不同的数据源,其格式、大小、样本的构成比例不一样。在这样的情况下,需要自适应深度学习的算法能够适应不同类型的数据,正常地工作。为了实现医学影像深度学习分析,单个医学影像分类器的处理能力不够,需要多个医学影像分类器同时工作。然而,不同类型的脑肿瘤医学影像的构成不一样,造成了自适应深度学习的运算分布不均匀,这对并行算法的设计构成了挑战。因此,第三种途径是,开发可适用于不同类型的脑肿瘤医学影像的异构并行算法,并将其部署到GPU集群上,满足脑肿瘤医学影像大数据分析的需要。

综上所述,深度学习立足于脑肿瘤早期诊断的决策支持的需要,开发出适用于脑肿瘤医学影像数据特点的自适应、高准确率和快速的预处理器和分类器,并开发出相应的异构并行算法部署在GPU集群上,通过大数据分析,为临床医生和研究人员提供下一代诊断决策支持。

基于深度学习的疾病的早期检测与分级是当前的热门话题,几乎所有疾病的诊断过程中都将使用基于深度学习的医学影像分析,包括超声、CT、核磁等。

1.3.3 计算机视觉技术助力京东无人零售店

* 关键词:计算机视觉 无人零售店

* 作 者:陈宇 安山 黄志标

在许多人感觉无人零售店距离我们尚远之时,它已经悄然来临。继亚马逊于2018年12月推出新型概念店AmazonGo后,阿里巴巴推出了“淘咖啡”,欧尚集团与大润发公司联手投资推出了“缤果盒子”,京东推出了无人零售店,参与成员包括传统零售商、跨界运营企业和互联网公司。但是,无人零售店之争的核心还是黑科技,它的发展越来越体现技术驱动的特点,主要使用的智能感知/认知技术包括RFID(Radio Frequency Identification,射频识别)技术、生物识别技术和计算机视觉技术。本小节主要揭秘京东无人零售店的计算机视觉技术应用。

1. 无人零售店的计算机视觉技术

“无人零售”概念的3个主要因素是人、商品以及人与商品连接起来的场景,本小节将从技术角度对这几个因素解析京东无人零售店的实现方法。

(1)顾客分析的技术

人是无人零售店的首要因素,即传统零售中的顾客,其是无人零售店的主要服务对象,无人零售店的技术都是为了提升顾客在店内外的体验。在顾客管理、提升顾客体验上,京东无人零售店的技术实现主要包括身份识别和验证技术、行为与事件分析技术、流量漏斗与热力图分析技术、商品检测与识别技术以及结算方案实现技术。

(2)身份识别和验证技术

身份识别和验证技术判断进入店内的是否是顾客、是哪位顾客以及顾客的年龄与性别等基本信息,它主要解决无人零售店中的顾客出入及支付问题。常见的身份识别方式包括人脸识别、步态识别、虹膜识别以及其他扫码识别等,当顾客在选购、结算商品或离开店铺时,需要进一步对身份进行验证。在此主要讲解人脸识别用于身份识别和验证的原理及存在的问题。

① 基于深度学习的人脸识别技术

该技术代表性的方法有DeepFace、DeepID以及FaceNet等,这些技术的基本方法都是将人脸图像映射为高维空间中的一个点,然后再训练一个分类器或者计算点之间的距离来判断人脸之间的相似度。我们在FaceNet的基础上对模型结构进行了改进尝试,在对顾客进行身份识别时,检测视频中人的头部区域,对其提取特征,获得性别、年龄等属性信息。当顾客走入店内后,为了对其身份进行验证,再对视频中的人脸进行检测、特征提取,并将特征缓存起来,再次验证时会在特征缓存池中进行搜索。利用人脸识别技术,采用多种分类器融合方法预测人群的性别、年龄、肤色后,可对无人零售店的广告进行个性化推送,特别是当识别出顾客属于老顾客时,可有针对性地在广告牌上播放其感兴趣的内容。此外,通过人脸关键点定位与检测技术,可有效识别出行人的面部表情。

② 行人重识别技术

无人零售店内安置有多个摄像头,对多个摄像头下的行人身份进行匹配、跟踪具有重要意义。首先采用卷积神经网络对视频中的行人进行检测。但由于摄像头获取的行人在图像中常有一些倾斜的角度,一般的神经网络检测模型存在较多的漏检、误检,因此提出了一种图像中倾斜的行人矫正方法,基于行人的头、脚连线对检测框进行矫正,最后得到的检测框是包含行人的面积最小的检测框。在获取了矫正的行人图像数据之后,由于没有大量标注过同一个行人在不同视角的图像数据,因此在提取特征时,往往会出现同视角、不同身份的行人特征之间的距离较近,同身份、不同视角的行人特征之间的距离较远,给行人重识别的模型训练增加了难度。因此,利用基于GAN的算法(如Pix2Pix算法)生成同身份、不同视角下的图像数据,用来训练卷积神经网络,使得训练更易收敛,同时提取的特征在特征空间上聚类更紧凑。

(3)流量漏斗与热力图分析技术

流量漏斗技术主要是对无人零售店内、外行人的总量及其性别、年龄等进行统计,并分析出店外到店内的人数、比例及其在不同时间段、不同商业区的变化。在积累了丰富的数据之后,流量漏斗技术可用于分析业务流程中的问题所在,为商店选址、营销的市场定位提供参考。流量漏斗可采用两种方法,即基于人脸识别技术和基于行人头肩识别技术。其步骤为先通过摄像头记录下店内外的视频数据,并将算法部署在终端设备或将数据传到云端,然后在视频中检测目标店内外的行人脸部或头肩区域后,再进行身份识别与人物计数。基于人脸识别和基于行人头肩识别这两种方法在实施时均采用目标检测、特征提取、特征匹配或分类的思路。其中目标检测可以通过SSD(Single Shot MultiBox Detector)、Faster R-CNN等方法;特征提取可先通过人工标注大量样本并训练一个分类任务的卷积神经网络得到一个深层网络模型,再采用该模型进行特征提取。实际中取得较好效果的深层网络模型有VGG、GoogLeNet、ResNet,或者采用传统的局部特征如Haar、HOG等,提取完特征后将特征存入特征池。在视频中检测出目标后,可采用目标跟踪方法对目标进行锁定,此时通过对检测框提取新特征并将其与特征池中的特征进行匹配,从而获取同一个目标在不同视角下的图像,同时对不同视角下同一个人物的检测框特征进行性别、年龄的分类,可提高算法的准确率。一种简单的计数方法是通过设定一个虚拟线,统计跨越该虚拟线的人数便可得到某个方向上的行人总数。实际中,为了降低将视频数据传入云端的成本,也可对深层网络模型进行压缩或加速,然后将其部署在移动终端,这些模型包括MobileNet、ShuffleNet以及它们在硬件CPU(Central Processing Unit,中央处理器)下的优化版本。

此外,对监控视频进行分析得到店铺或指定区域任意时段的人流密度和停留热度图,这种技术被称为“热力图”,其同样可以帮助分析人流特征,改善店铺布局和商品摆放顺序等。与热力图精度相关的技术包括深度学习、目标跟踪算法和人体关节点检测算法。无人零售店内安装有多个摄像头,但摄像头获取的图像数据存在透视畸变现象,我们希望获得的热力图应是俯视图下的结果,因此有必要对图像做透视变化。首先,通过目标检测算法检测出行人所在区域;其次,通过人体关节点检测算法得到行人脚部所处坐标;再者,根据透视变化将该坐标映射到俯视图下的坐标,从而获得热力图的坐标信息。在检测出目标之后,执行目标跟踪算法,将两帧之间人体脚部坐标中点作为当前时刻人的坐标,通过将两帧之间人体坐标的位移量除以两帧之间的时间间隔即可得到人体的移动速度。在热力图中,需要计算出顾客停留热力度n,其计算公式如下。其中ρ代表人均密度,vm代表行人的平均移动速度,υmax是行人的最大移动速度,Nf是某时间段的视频帧数,nNf帧中出现的行人总数,S是设定区域的面积。

从式(1-19)中可以看到,热力图综合考虑了客流密度和行人停留时间。通过查看热力图可以知道店铺内哪块区域是拥挤区域或某商品区域是畅销区域。

(4)行为与事件分析技术

行为与事件分析技术可用于无人零售店的防盗防损等意外、突发事件的监控。顾客在无人零售店的常见动作包括拿起、放下商品,蹲下身子或站起来,向店内走来、向店外走出去或向结算台走去等。而可能发生的事件包括不明物体突然闯入、火灾等。为了提高云端计算资源的利用率,有必要只将摄像头拍摄的关键画面传入云端,因此对这些特殊行为、事件的检测显得尤为重要。

行为的识别主要是指个体行为的识别,对群体的行为识别可归为事件识别中。对个体行为的识别可通过在视频的帧序列上先进行行人检测,再运行人体关键点检测算法得到人体骨架运动序列,在此基础上以骨架运动序列为特征,以行为类别为标签训练深度学习模型,从而对新个体行为进行预测。另一个思路是基于光流的行为识别,该思路通过提取一段视频片段中的光流特征,在此基础上进行行为识别。无人零售店场景下对行为、事件识别算法的实时性要求较高,因此不常采用准确率高但计算量大的方法。

(5)商品检测与识别技术

商品是无人零售店的核心要素,无人零售店中的主要售卖对象就是商品。商品一般固定摆放在货架上,店内的摄像头或货架可感知商品的存在并同时识别出商品。

在电子商务中,商品按粒度划分为SPU(Standard Product Unit,标准化产品单位)、SKU(Stock Keeping Unit,存货单位)。SPU是同类款式商品的统称,SKU是某种款式商品中的具体一件商品,比如所有的iPhone 6手机算作一个SPU,而不同颜色、价格的iPhone 6手机算作不同的SKU。

商品检测与识别技术主要是在结算阶段和货架管理的整个流程中,通过事先拍摄商品的各个角度的图像并提取特征,将特征与商品的SKU存入数据库中。到了真实场景中时,通过摄像头获取图像数据,采用卷积神经网络模型进行检测并进行实例分割,在分割后的图像中提取特征,再从数据库中搜索匹配的特征及其SKU,根据SKU便可获得商品价格、生产日期等其他详细信息。我们提出了一种半监督式的商品识别策略,在获取商品的少量标注图像的基础上,结合视频流中未标注的商品图像,通过提取特征并进行特征匹配,从而获得同一种商品在不同视角下的大量图像数据,给这些新的图像数据赋予标注信息,重新训练深度学习模型,反复进行该过程,从而获得与通过大量标注数据进行模型训练相似的效果。

商品的检测、识别技术应用于货架管理时,可用于监测商品的特定摆放需求,针对没有露出标签、品牌的情况及杂乱的摆放方式会给出友情提示,同时还可用于商店自动理货,就商品缺货、供货不足的情况给出报告,极大地方便相关人员对店铺的管理。

(6)结算方案实现技术

结算方案是对无人零售店商家和顾客来说最敏感的一环,其是否方便、安全直接关系顾客是否会再次进入无人零售店。无人零售店的结算方式总体来说可以分为三大类:付款出货结算;自助扫描并扫码付款;“即买即走”账户自动扣款结算。前两种结算方式的特点在于不需要收银员的参与,然而并没有满足顾客无须排队的需求,而后一种结算方式恰好能满足需求。目前京东无人零售店实现“即买即走”的思路是通过商品检测、识别技术获得顾客需要购买的商品种类、数量并计算其总价,同时通过身份识别、验证,确认顾客的京东会员账户可正常交易。在顾客授权免密支付的情况下,当顾客走出店铺时,获取顾客的人脸图像,系统可自动扣款结算。

由于顾客购买的商品分为标准品类与非标准品类,标准品类的价格以SKU为单位计价,非标准品类的价格可采用称重计价方式。因此,具体实施时,无人零售店内采用多种结算方式相结合的方式来满足顾客对不同商品的购买需求及顾客的不同结算喜好。例如,针对水果、蔬菜等采用称重计价,针对贵重商品可采用RFID计价,其他带条形码的商品可采用扫描条形码计价。

2. 总结和展望

(1)面临的挑战

京东无人零售店案例主要包括身份识别、智能商品识别与管理、自动结算、远程视频监控、流量与热力图分析等模块,其中广泛采用了计算机视觉和深度学习技术,如摄像机标定,目标检测、跟踪,视频中行为、事件分析,图像分类、聚类、分割、检索,深度学习模型压缩等。

计算机视觉技术在无人零售店的应用,目前还存在两个有待解决的问题。一是视频数据的传输与处理过程耗费较高成本。比如每天都产生大量的视频数据,而真正有用的视频数据占的比例不大。又如深度学习模型的运行需要价格昂贵的GPU资源,每个无人零售店配备一台GPU则成本过高,因此,若算法可方便地部署在终端,则可提高存储资源、计算资源的利用率。二是准确率提升需要大量的标注数据。在商品的入库过程中,需要花费大量人力获取商品的图像数据并进行标注,同时行人检测、跟踪,行为、事件分析准确率的提升也需要大量标注数据的积累,因此若算法能从少量标注数据集或大量无标注数据集中进行自学习,则智能化程度将更高。

(2)前景

无人零售店是电商企业进攻线下场景的一个突破口,未来将是在技术驱动下,以提升用户体验为目标,以降低人力成本、运营成本为发力点,综合利用计算机视觉、云计算、物联网、大数据分析以及区块链技术,将无人零售店部署到各个城市、各个社区,构成新的赢利增长点。

计算机视觉技术在快速发展,视觉领域三大国际顶级会议的每年投稿量在快速增加,体现了该方向在学术上吸引了足够的人才去研究,华人作者所占的比例逐渐增多,优秀人才的获取更加便捷,学术界与工业界的结合更加密切,在大量资金投入下,最新学术成果产出转化为实际产品的周期缩短。在此背景下,无人零售店的发展可获得源源不断的技术支持。计算机视觉算法和技术的广泛应用,一个重要的技术突破是以卷积神经网络为代表的深度学习技术获得了较传统手工设计的算法难以取得的准确率,享受在大量标注数据下进行端到端训练、预测方便性的同时,我们仍期待在新场景中可以依靠其他学习策略(如强化学习、GAN以及对偶学习)来强化算法的表现。

1.3.4 商汤科技助力中国移动在线打造移动端实名认证系统

* 关键词:计算机视觉 认证系统

* 作 者:杨帆

商汤科技领先的图像视觉技术为中国移动上亿用户手机卡实名制计划提供基于人脸识别技术的整套身份验证类解决方案,包括身份证/银行卡OCR解决方案、线上公民信息认证比对解决方案、人脸门禁考勤系统等,全方位、一体化满足实名制身份认证技术的高标准需求,帮助中国移动在国家出台手机卡实名制规范要求后,短时间内掌握行业先机,顺利展开战略化布局。

近年来,中国的移动互联网行业飞速发展,4G网络广泛应用,通信安全也随之成为不可忽视的重要议题。2016年,工业和信息化部出台了“史上最严”的手机卡实名制规范,面对数亿规模的移动端用户,如何利用当前技术建立全新的实名制认证系统,成为各大运营商发展的重中之重。作为最大的实名制认证类需求方之一,中国移动通信集团有限公司下属专业化子公司——中移在线,以最前沿的人工智能技术取代传统的服务方式,联合商汤科技打造以人脸识别为核心技术的全智能实名制身份认证服务。

面对电信行业线下开户业务新增的人证一致性校验环节,中移在线通过使用商汤科技提供的具备身份证信息芯片读取及人像比对验证功能,可同时在屏幕上提醒用户操作流程及显示验证结果的身份验证一体机设备,减少人工审核,实现了高效、快捷、准确的用户身份验证,提升了用户体验。

基于商汤科技深度学习和人脸识别算法的身份验证一体机,具备识别速度极快,准确率高,1s内即可核验人证一致,防3D打印、电子屏、面具、头套类黑客攻击,支持活体验证检测,可识别证照文字等诸多强大功能,可广泛应用于电信营业厅、民政办事大厅、银行、酒店、网吧、学校、机场、高铁等诸多场景中。凭借超过人眼精确度的人脸识别准确率,这种通过人脸识别智能终端提取并验证身份证信息真伪的方式,将极大地提高服务机构的办事效率,降低营业风险,有效保障公民个人身份信息安全,避免虚假开户,在防止虚假号码诈骗等方面具有重要价值。

身份验证类解决方案采用商汤科技的人脸识别算法,结合身份证阅读器应用技术,通过高清摄像头采集人脸特征后与身份证阅读器提取的身份证照片图像进行比对。当人员进行比对时,软件界面会显示比对结果。也可以通过网络或USB,使后台审核人员一目了然,快速判断人员所持身份证是否为本人所有,如图1-52所示。

以人证比对为核心,系统通过提取身份证内的信息与现场拍摄到的身份证持有人图像进行比对,可以快速辨别出证件与持证人是否一致,识别率达到98%以上,真正实现人证统一,杜绝盗用、冒用现象。

静默活体检测则利用了人脸防伪检测方面的核心技术,通过深度学习的方法,学习活体及非活体的特征和差异,判断人脸图像是否来源于活体,可有效防范来自视频、图像、面具类的伪造人脸攻击。相比主流的交互式活体检测,静默活体检测过程中基本不需要交互,极大地简化了检测流程,集便捷性与安全性于一身。

除了高效准确的人证对比系统,实名认证业务环节还需要大量使用OCR图像识别技术。中移在线与商汤科技合作OCR识别项目,应用了商汤科技的OCR识别算法模型和技术,进一步解决了实名认证和单据电子化涉及的银行卡、行驶证、驾驶证、营业执照识别以及工单电子化和自拍照防黑客等技术问题,极大地节约了公司存储成本,并能实现快速定位查询业务工单信息,提高用户的服务效率,极大地满足不断丰富的业务场景需要。

随着移动互联网用户规模和市场规模的高速增长,行业结构正在不断进化,服务形式也越来越呈现出多样化、高效化、智能化的特点。中移在线和商汤科技通过人脸识别技术所实现的智能身份认证服务,可以看作全自助服务中的创新模式,也是未来推动产业变革及智能化服务的决定性途径。中移在线希望能够和商汤科技开展更多创新性的技术尝试,将人工智能技术应用到更加复杂的服务中,开启更加便利、人性化的在线服务体验。

如何将最前沿的计算机视觉技术,与发展最蓬勃的互联网行业进行有效结合,对未来商业和经济形态产生颠覆,是目前行业最关注的方向。我国的移动互联网用户规模巨大,需要通过实名认证管控业务风险的场景非常多样,这为商汤科技技术优势的发挥提供了一个理想的舞台。商汤科技与中移在线携手共同实现了人证对比系统、证件OCR系统,以及门禁考勤系统等多个项目的成功部署,不仅节约了时间和人力成本,简化了认证流程,提高了身份认证的精确度,未来也有利于提高移动支付等功能的安全性,增强接入其他互联网应用的便利性,并能够有效打击通信诈骗犯罪,为移动用户提供一个安全的移动互联网使用环境。

商汤科技与中移在线的合作,不仅为我国移动互联网用户的使用环境提供了高效、安全、稳定的保障,更为人工智能技术在其他领域的复制、推广打造了一个成功范例。未来,商汤科技将与中移在线在更多的业务领域内积极拓展,充分利用中国移动强大的渠道推广能力和企业服务整合能力,配合商汤科技计算机视觉和深度学习技术优秀的研发能力,共同推动移动互联网产业的升级。

点评

视觉是一种非常重要的感觉,普通人大脑中约80%的知识和记忆都是通过眼睛获取到的,人类大脑皮层约70%的活动用于处理视觉信息。人工智能要让机器可以像人一样思考和行为,就必须让机器能够像人一样去“看”事物和“认知”事物,这就使计算机视觉成为人工智能领域最重要的技术之一。

近年来,技术方法的突破和实践应用的普及,推动计算机视觉成为本轮人工智能热潮中最早实现显著成果的领域之一。当前,计算机不仅能够处理静态的图像,还能够处理动态的视频,而且识别和理解能力也持续提高,应用也逐步从消费端向产业端推进,场景识别、物体定位、工业质量控制、农业畜牧业管理、无人驾驶、医疗影像等方面的应用不断涌现。全球计算机视觉市场迅速崛起,促进了计算机视觉产业的加速发展。

我国的计算机视觉技术与产业发展快速推进,在部分领域居于全球先进水平,在高铁验票、酒店入住身份核对等民生领域实现了广泛应用,在行业领域的应用场景和应用案例也持续增多。据统计,我国计算机视觉行业的市场规模已居世界首位,涌现出了多家有技术优势和市场经验的领军企业。未来,随着智慧城市、智能制造、现代农业、智慧医疗等的发展,我国计算机视觉行业的市场需求将持续旺盛,进而推动技术从感知迈向认知、从识别迈向检测,进一步提升计算机视觉产业的发展水平。

相关图书

GPT图解 大模型是怎样构建的
GPT图解 大模型是怎样构建的
大语言模型:基础与前沿
大语言模型:基础与前沿
扩散模型从原理到实战
扩散模型从原理到实战
ChatGPT原理与应用开发
ChatGPT原理与应用开发
人工智能(第3版)
人工智能(第3版)
ChatGPT写作超简单
ChatGPT写作超简单

相关文章

相关课程