新一代人工智能:无代码人工智能开发平台实践

978-7-115-60103-2
作者: 芦碧波张建春王春阳苏柏顺
译者:
编辑: 秦健

图书目录:

详情

本书是人工智能和机器学习领域专家多年实践的结晶。它深入浅出地讲解了无代码人工智能开发平台实践,可以激发读者对人工智能的兴趣、学习人工智能知识、明确人工智能要素、掌握人工智能应用流程,并在学习和工作中不断拓展人工智能的应用领域,探索新的人工智能落地应用场景。本书首先介绍了人工智能和无代码人工智能平台EasyDL的基本用法,涉及图像智能分析、文本智能分析、语音智能分析、EasyDL OCR等;然后,重点阐释了人工智能模型调用、人工智能模型部署方面的内容;最后,分析人工智能在各个领域的应用案例并介绍相关的学科竞赛。 本书不仅可以作为高等院校各专业的人工智能通识教育教辅,而且可以作为计算机类、人工智能类专业低年级本科学生的入门教辅。此外,本书也可以作为人工智能比赛参赛人员及对人工智能感兴趣人员的参考书。

图书摘要

版权信息

书名:新一代人工智能:无代码人工智能开发平台实践

ISBN:978-7-115-60103-2

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

编  著 芦碧波 张建春 王春阳 苏柏顺

责任编辑 秦 健

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

读者服务:

微信扫码关注【异步社区】微信公众号,回复“e60103”获取本书配套资源以及异步社区15天VIP会员卡,近千本电子书免费畅读。

内 容 提 要

本书是人工智能和机器学习领域专家多年实践的结晶。它深入浅出地讲解了无代码人工智能开发平台实践,可以激发读者对人工智能的兴趣、学习人工智能知识、明确人工智能要素、掌握人工智能应用流程,并在学习和工作中不断拓展人工智能的应用领域,探索新的人工智能落地应用场景。本书首先介绍了人工智能和无代码人工智能平台EasyDL的基本用法,涉及图像智能分析、文本智能分析、语音智能分析、EasyDL OCR等;然后,重点阐释了人工智能模型调用、人工智能模型部署方面的内容;最后,分析人工智能在各个领域的应用案例并介绍相关的学科竞赛。

本书不仅可以作为高等院校各专业的人工智能通识教育教辅,而且可以作为计算机类、人工智能类专业低年级本科学生的入门教辅。此外,本书也可以作为人工智能比赛参赛人员及对人工智能感兴趣人员的参考书。

前  言

作为第四次工业革命的关键技术之一,人工智能(Artificial Intelligence,AI)不仅在多个领域得到应用,而且受到社会大众的广泛关注,越来越多的人希望学习和了解人工智能。自1956年人工智能的概念提出以来,人工智能在六十多年的发展中经历了三次高潮和三次低谷,形成了庞大的理论体系,但最近广泛应用的是以深度学习为代表的新一代人工智能,这也将是本书介绍的主要内容。

算力、算法和数据作为新一代人工智能的三要素,具有一定的学习门槛。近年来,国内很多高校增设了人工智能专业。为培养人工智能方面的高级专门人才,高校、教师和学生需要付出很多努力:高校需要购买昂贵的设备以解决算力问题,教师需要通过漫长的过程教授复杂的理论以解决算法问题,学生需要编写代码来验证和实现神奇的人工智能算法。

根据笔者多年的教学经验,对于业余人士,如果采用传统的教学模式,一行代码可能会吓跑一半的学习者,两行代码会吓跑剩余的学习者,更不要说代码背后复杂的理论和算法了。那么,非人工智能专业人士能不能学习新一代人工智能呢?

答案是肯定的。

本书旨在为所有人工智能爱好者(包括但不限于非人工智能专业的高校学生、希望使用人工智能解决所在领域问题的工程技术人员)提供零门槛的人工智能学习方法,即使用无代码的人工智能开发平台来学习新一代人工智能。本书选用了百度公司开发的零门槛无代码人工智能开发平台——EasyDL平台,其含义为“容易学习的深度学习”。该平台基于百度公司深厚的人工智能积累和多年的产业沉淀,功能多样、操作方便、界面友好、使用限时免费。

目前,市场上常见的人工智能教程可以分为两类:一类是以讲授人工智能基本算法和理论为主,学习成本高且不直观;另一类以介绍人工智能概念理解、应用和人工智能伦理为主,长于叙事而短于实践。

与传统的人工智能教程不同的是,本书试图破解算力、算法和数据三要素难以具备的难题,为人工智能的快速普及和推广开辟新的路径。

1.算力要素的解决保证“人人都能学AI”

基于百度公司的EasyDL平台提供的限时免费在线算力服务,读者无须准备计算设备和进行框架安装和配置。这扫清了人工智能学习算力要素的障碍。

2.算法要素的解决保证“人人都能用AI”

百度公司的EasyDL平台很好地封装了人工智能算法,可以实现全程无代码、真正零门槛,读者无须学习前置课程和高深理论。这扫清了人工智能学习在算法要素方面的障碍。

读者只需跟随本书教程,点击鼠标即可训练人工智能模型、查看模型结果、测试模型性能,甚至可以使用智能手机扫描二维码调用模型并分享给亲朋好友,轻松享受AI学习过程,真切感受AI学习成果。

3.数据要素的拓展保证“人人都能创作AI”

在传统的人工智能学习中,限于知识和能力,初学者只能使用固定数据实现和验证前人建好的模型,即采用“走别人走过的路”的模式进行学习。

本书选择的EasyDL平台为用户使用人工智能解决问题提供了极大的自由度:支持和鼓励读者自己定义和设计问题、自己收集和上传数据、自己标注数据,最终创作属于自己的AI模型。这些问题可能与读者深耕多年的专业/行业背景经历有关,也可能来自读者生活中的灵光一现,但无论如何,每位读者都可以尝试创作AI模型,使自己成为一名“AI创客”。

从数据要素角度来看,EasyDL平台极大地拓宽了数据要素的来源,为人工智能在更多行业的应用提供了无限可能,在人工智能尚未应用的领域开疆拓土,即“走一些别人没有走过的路”。

通过本书的学习,读者能够对如下问题有深刻且直观的认识。

人工智能可以做什么?

本书介绍了人工智能在图像、语音和文本3个方面的多项处理实例。通过这些实例,读者可以沉浸式地体验人工智能的能力,并培养初步的判断能力:人工智能能否解决某个问题,以及应该选择哪种人工智能功能来解决问题。

人工智能需要什么?

数据是人工智能的燃料,但并非所有的数据都是可用的。通过实践操作,读者可以具备初步的数据感知、判断和编辑能力:对某个具体问题而言,人工智能需要什么样的数据,什么样的数据是有效的以及什么样的数据是无效的,如何对数据进行标注和编辑。明确人工智能对数据的要求,有助于读者在今后人工智能开发中设计合理的数据收集方案,少走弯路,缩短模型开发周期。

人工智能处理结果是什么?

基于EasyDL平台强大且丰富的功能,读者不仅可以直观地看到模型的处理结果,培养“AI感觉”,提高AI素养,而且可以使用该平台创作人工智能模型,验证自己的判断并部署和调用模型。

良好的判断能力、数据感知能力和结果阅读能力将有助于读者扩展人工智能应用范围,缩短人工智能产品开发周期,加速人工智能落地。

本书包括正文和附录两部分,其中正文分为9章。第1章介绍人工智能的概念、产业结构和应用领域,引导读者在百度AI能力体验中心体验人工智能的魔力;第2章介绍人工智能产品开发流程以及EasyDL平台的功能和使用方法;第3章介绍图像智能分析,包括图像分类、物体检测和图像分割;第4章介绍文本智能分析,包括文本分类、短文本相似度分析和情感倾向分析;第5章介绍语音智能分析,包括声音分类和语音识别;第6章介绍EasyDL OCR的应用方式;第7章介绍EasyDL平台训练的AI模型如何在EdgeBoard上部署;第8章介绍基于EasyDL平台的人工智能学科竞赛;第9章介绍EasyDL平台对多个行业进行赋能的案例。

本书附录包括4部分,附录A介绍了EasyDL平台的功能更新记录;附录B介绍了飞桨EasyDL桌面版的操作;附录C介绍了如何利用labelImg对物体检测任务进行数据标注;附录D补充了人工智能在其他行业的案例。

芦碧波撰写了第1章、第2章和第6章,王春阳撰写了第3章、第9章、附录A、附录B和附录C,张建春撰写了第4章、第5章和附录D,苏柏顺撰写了第7章和第8章。

感谢百度公司长久以来对高校人工智能教育的支持,感谢百度公司飞桨事业部谢梦、钱芳、刘芸在本书筹划过程中的帮助,感谢百度公司校园品牌事业部对本书撰写的鼓励,感谢人民邮电出版社编辑在本书撰写和修改过程中付出的辛勤工作。

感谢参与本书所用数据集制作、数据标注、案例测试的河南理工大学计算机科学与技术学院人工智能和计算摄影研究室多名研究生和其他本科生,由于人员众多,此处不再一一列出。

本书受到河南省教育科学“十四五”规划重点课题“河南高校AI+X人才培养与应用创新体系建设研究”(编号:2021JKZD06)的资助,在此一并致谢。

撰写一本无代码的人工智能教程,不仅对本书作者是一种新的尝试,对国内人工智能教育领域也是一种新的思路。由于作者水平有限,书中可能存在诸多不足,欢迎广大读者提出宝贵意见,以便今后能够持续改进。

希望本书的出版和发行能够促进人工智能的普及,培养更多的人工智能应用人才和“X+AI”的复合型人才。

编著者

资源与支持

本书由异步社区出品,社区(https://www.epubit.com)为您提供相关资源和后续服务。

您还可以扫码二维码, 关注【异步社区】微信公众号,回复“e60103”直接获取,同时可以获得异步社区15天VIP会员卡,近千本电子书免费畅读。

提交勘误

作者、译者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“发表勘误”,输入错误信息,单击“提交勘误”按钮即可,如下图所示。本书的作者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

扫码关注本书

扫描下方二维码,您将会在异步社区微信服务号中看到本书信息及相关的服务提示。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们;有意出版图书的作者也可以到异步社区投稿(直接访问www.epubit.com/contribute即可)。

如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。

“异步图书”是由异步社区编辑团队策划出版的精品IT图书的品牌,依托于人民邮电出版社几十年的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、人工智能、测试、前端、网络技术等。

异步社区

微信服务号

第1章 人工智能概述

作为当今流行的、重要的技术之一,人工智能已经在很多领域得到广泛应用,并深刻地改变了人们的日常生活和生产方式。其实人工智能是一个非常宽泛的概念,被称为第四次工业革命的导火索的人工智能主要指“新一代人工智能”。因此,在学习人工智能之前,首先需要了解人工智能的概念及其发展历史和应用。

1.1 什么是人工智能

1.1.1 人工智能的定义

人工智能(Artificial Intelligence,AI),意为“人工的智能”(与之形成对立的是“天然智能”或“自然智能”),即人类的知识、智力和多种才能的总和,表现为人类通过大脑的运算和决策产生有价值的行为,包括人的大脑思考及决策、耳朵听力及判断、眼睛视觉及判断、鼻子嗅觉及判断、皮肤触觉及判断等,这些能力是人类经过长久进化得到的。顾名思义,人工智能即“人工制造的智能”,通常指的是利用机器来模拟和实现人类所具有的智能,这里的机器主要指的是计算机,也可以是各种软件及相关的智能终端设备。

1.1.2 人工智能的起源

1950年,英国科学家艾伦·图灵(Alan Turing)提出了著名的“图灵测试”,这是一个有趣的实验。假如一台计算机宣称自己会“思考”,那么应该如何辨别计算机是否真的会思考呢?为此,科学家安排测试者和被测试者(一个人和一台计算机)通过幕布隔开,二者借助键盘和屏幕进行对话,测试者并不知道与之对话的到底是计算机还是人。若测试者分不清幕后的对话者是人还是机器,即计算机能在测试中表现出与人等价或至少无法区分的智能,那么说这台计算机通过了图灵测试,并具备了人工智能。

图灵测试开启了人们对人工智能的研究,并且自诞生以来产生了巨大影响,图灵也因此被冠以“人工智能之父”的称号。美国计算机协会(Association for Computing Machinery,ACM)于1966年设立了图灵奖,专门奖励对计算机事业做出重要贡献的个人,奖项设立目的之一是纪念这位科学家,图灵奖因此得名。获奖者的贡献必须在计算机领域具有持久而重大的技术先进性。图灵奖对获奖者的要求极高,评奖程序也极严,一般每年只奖励一名计算机科学家。图灵奖是计算机领域的国际最高奖项,被称为“计算机界的诺贝尔奖”。2021年7月,英国的中央银行(英格兰银行)宣布,艾伦·图灵将成为英国50英镑纸币上的人物,以表彰他在人工智能等方面做出的贡献,而之前英国流通的50英镑纸币的背面人物是蒸汽机的发明者詹姆斯·瓦特(James Watt)和他的合伙人——令蒸汽机实现量产的企业家马修·博尔顿(Matthew Boulton)。

1.2 人工智能的发展历史

人工智能的发展并非一帆风顺,而是经历了漫长而曲折的发展道路。如何描述人工智能自1956年以来的发展历程,学术界可谓仁者见仁、智者见智。这里暂且将人工智能的发展历程划分为如下6个阶段。

起步发展期:1956年—20世纪60年代初期

1956年,约翰•麦卡锡(John McCarthy)、马文•闵斯基(Marvin Lee Minsky)、克劳德•艾尔伍德•香农(Claude Elwood Shannon)等学者在美国汉诺斯小镇召开了达特茅斯会议,共同讨论机器模拟智能的一系列问题。这次会议的召开标志着人工智能的诞生。

反思发展期:20世纪60年代—70年代初期

人工智能发展初期的突破性进展激发了人们对人工智能的期望,人们开始尝试更具挑战性的任务。但研发结果并不令人满意,这使得人工智能的发展走入第一个低谷。

应用发展期:20世纪70年代—80年代中期

20世纪70年代出现的专家系统模拟人类专家的知识和经验解决某个特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。斯坦福大学开发DENDRAL系统的目的是对火星土壤进行化学分析,这也是早期知名的专家系统。斯坦福大学开发MYCIN专家系统用于传染性血液病的研究,该系统成为后来专家系统的重要典范之一。专家系统在医疗、化学、地质、汽车制造等领域取得成功,推动人工智能进入新的发展高峰。

低迷发展期:20世纪80年代中期—90年代中期

随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来,人工智能进入了一个低迷而缓慢的发展时期。

稳步发展期:20世纪90年代中期—21世纪初期

网络技术(特别是互联网技术)的发展加速了人工智能的创新研究,促使人工智能进一步走向实用化。1997年,国际商业机器(International Business Machine,IBM)公司的深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫;2008年,IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。Yann LeCun提出了LeNet5卷积神经网络模型并用于手写字体识别,其结构被后来的网络结构广泛借鉴。Geoffrey Hinton提出了一种适用于多层感知器的反向传播算法——BP算法。这些网络结构和算法都为人工智能的蓬勃发展奠定了良好的基础。

蓬勃发展期:21世纪初期至今

2006年,Geoffrey Hinton在世界顶级学术期刊Science上发表了一篇文章,提出了深度学习的概念。2012年,在ImageNet图像识别大赛中,Hinton和他的学生Alex Krizhevsky设计的深度学习模型AlexNet一举夺冠。2016年,基于深度学习开发的AlphaGo以4:1的比分战胜了国际顶尖围棋高手李世石。

最近,基于人工智能的内容生成技术发展迅速。2022年8月,百度推出“文心一格”AI艺术和辅助绘画平台,可以实现“人人皆可一语成画”。2022年11月,美国OpenAI公司发布智能聊天机器人程序ChatGPT,能够通过理解和学习人类的语言进行对话,甚至能完成撰写邮件、论文、代码等多种任务,颠覆了大众对于人工智能的认知。

本书主要介绍基于深度学习和深度神经网络的新一代人工智能。为了方便介绍,接下来将不再严格区分“新一代人工智能”与“人工智能”,而是将“新一代人工智能”简称为“人工智能”。

1.3 新一代人工智能的三要素

数据、算法和算力是新一代人工智能的三要素,也是人工智能取得成功的必要条件。数据是人工智能的燃料,算法是人工智能的大脑,算力是人工智能的动力。

1.3.1 数据与数据集

大量高质量、精准、安全的数据是深度学习训练的基础。数据是人工智能必备的学习资源。人工智能领域有“garbage in garbage out”的说法,即如果数据精度达不到标准,那么训练出来的模型也是不可靠的。

在使用深度学习技术训练模型时,一般把数据集划分为训练集、验证集和测试集。数据集的划分方式与作用如图1-1所示。

图1-1 数据集的划分方式与作用

在模型训练过程中,训练集用于训练神经网络模型,通过不断学习数据特征来更新网络模型参数。验证集用于检验模型的状态、调整超参和防止过拟合。如果模型验证效果良好,在验证集上的各项指标均满足要求,后面需要继续用测试集进行模型评估。测试集用来评价模型的泛化能力。泛化能力指的是训练得到的算法是否具有推广能力和对新问题的适应能力,即模型在训练集和验证集上学习的能力能否很好地推广到新的数据集——测试集上。若在测试集上的识别率较高,则表明模型的泛化能力较强;若在测试集上的识别率较低,则表明模型可能存在一定的过拟合,需要调整训练策略。

下面讨论训练集、验证集和测试集三者的关系。首先,3个集合中的数据应该具有某种一致性,即数据的关键属性、数据特征和应用场景等情况是一致的。其次,训练前无法获得测试集,因此测试集在训练过程中是不可见的,原因在于人工智能应用中的数据是未知的。最后,需要将训练之前获得的数据进行合理划分,划分为不重叠的训练集和验证集。通常采用随机选取的方式划分训练集和验证集,常见的数据比例为8:2或者7:3,也可以根据实际情况设定。

关于3个集合的关系有一个形象的比喻:若将训练集比作课堂的教学内容,那么验证集是课后作业,测试集是考试题目。学生通过长时间学习课程获得知识和能力,然后通过课后作业检验学习效果,最后通过考试检验学习水平。通常课后作业和课堂教学内容不一样但紧密相关,考试的题目应该是平时没有见过的。

1.3.2 算法与深度学习框架

算法决定了人工智能模型训练的速度、准确率和有效性。大量研究人员专注于利用深度学习框架设计新的算法和网络结构,并优化算法,同时不断拓展人工智能新的应用领域。

目前常用的深度学习框架有TensorFlow、PyTorch、Caffe、MXNet、Keras和飞桨(PaddlePaddle)等。TensorFlow是谷歌公司推出的计算框架,也是当前的主流框架,基于该框架的深度学习模型和算法非常多。该框架生态丰富、使用广泛,但是上手使用相对困难。PyTorch具有简洁易用、案例丰富的特点。飞桨是百度公司提供的国产深度学习开源框架,相关文档均为中文撰写,具有阅读方便、封装较好、代码简单的特点,比较符合中国人的使用习惯。另外,百度公司为飞桨准备了一站式开发平台AI Studio,提供AI课程、案例项目、数据集、图形处理器(Graphics Processing Unit,GPU)算力及存储资源等多种学习资源,其中“教育合作”栏目专为高校师生提供课程教学、实习实训、作业测评、比赛组织等教学服务。

1.3.3 算力

算力体现了人工智能的速度和效率。它依附于硬件设备。硬件设备包括但不限于中央处理器(Central Processing Unit,CPU)、图形处理器、张量处理器(Tensor Processing Unit,TPU)等。GPU等算力设备是非常昂贵的,高效的算力设备可以加速训练过程、大大缩短模型训练的时间。训练时间长、预测时间短是深度学习模型的特征。一般来说,参数数量越多,则训练时间越长,模型效果也越好。2021年12月8日,百度公司联合鹏城实验室重磅发布双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心(模型版本号:ERNIE 3.0 Titan),该模型的参数达到2600亿个,在60多项自然语言处理(Natural Language Processing,NLP)任务中取得世界领先效果。

1.4 新一代人工智能产业全景结构

1.4.1 基础层

人工智能基础层是支撑人工智能应用模型开发及落地的必要资源,包括硬件基础和软件基础两个方面。硬件基础指的是CPU、GPU和AI芯片等设备,可以为人工智能提供算力;软件基础指的是人工智能的计算和求解方法、深度学习框架、云计算平台等,主要为人工智能提供算法和数据支撑。

发展人工智能基础层可多环节提效人工智能价值的释放,解决需求方人工智能生产力稀缺问题。依托人工智能基础层资源,人工智能企业可有效应对下游客户的长尾应用需求,将其高频应用转化为新主营业务,寻找业务增长突破点。基础层的出现标志着人工智能产业社会化分工的出现,基础层的初步成型是人工智能产业链成熟的标志。

1.4.2 技术层

技术层是人工智能产业的核心,以模拟人的智能相关特征为出发点,将基础理论和数据转化成面向细分应用的人工智能。技术层的关键领域技术包括计算机视觉、语音识别和自然语言理解等;关键通用技术包括机器学习和知识图谱等。其中,计算机视觉作为应用场景最广的人工智能,在分类、检测、分割等任务上已有很好的表现,在各种真实场景中也得到了很好的应用。近年来,我国在技术层围绕垂直领域重点研发,例如计算机视觉、语音识别等领域的技术比较成熟,国内头部企业脱颖而出,竞争优势明显。

1.4.3 应用层

应用层是人工智能产业的延伸,为特定应用场景提供软硬件产品或解决方案。在应用层中,各行业集成一类或多类人工智能基础应用技术,面向特定应用场景需求形成软硬件产品或解决方案。行业解决方案涵盖领域包括智慧医疗、智慧农业、智慧安防、智慧教育等;人工智能相关行业热门产品包括智能汽车、机器人、智能家居和可穿戴设备等。这些应用可以为人工智能提供丰富的应用场景和数据。

上述的每一层都需要人员进行研究,以推动其发展。掌握上述3层的知识不仅需要长期、系统的学习过程,也需要显卡、深度学习框架等软硬件的支持,因此人工智能人才培养的学习成本高、学习周期长、学习难度大。针对这样的情况:一方面造成人工智能项目开发成本高,从而推高了人工智能项目的开发成本,减缓了人工智能落地的过程;另一方面也使得很多热爱人工智能的非专业人士对该技术望而却步,阻碍了人工智能在更多领域的推广和应用。

幸运的是,百度公司开发了零门槛的AI开发平台——EasyDL。本书将借助EasyDL平台介绍人工智能应用技术和开发流程,从而忽略基础层,跳过技术层,关注应用层,达到降低开发门槛、快速拓展应用领域的目的。毕竟,可以使用人工智能但尚未使用的领域还有很多。

1.5 人工智能产业和应用领域

1.5.1 人工智能产业

2021年3月我国“十四五”规划纲要出台,提出“打造数字经济新优势”的建设方针并强调了人工智能等新兴数字产业在提高国家竞争力上的重要价值。人工智能作为关键性的新型信息基础设施,也被视为拉动中国数字经济发展的新动能,成为数字经济时代的核心生产力和产业底层支撑,是激活数字经济相关产业由数字化向智能化升级的核心技术。

近年来,人工智能应用已从消费、互联网等领域,向制造、能源、电力等传统行业辐射,体现出AI+X的趋势。以图像与视频、文本、语音等作为输入的人工智能产品的商业价值已得到市场充分认可,并且应用领域还在不断拓展。此外,机器学习、知识图谱、自然语言处理等技术主导的决策智能类产品也在客户触达、管理调度、决策支持等企业业务核心环节体现出价值。金融、医疗、工业、交通等为目前人工智能应用的热门领域。

目前,计算机视觉产品技术在多个领域的应用正受到极大关注,智慧现场安监、智能辅助运输、工业视觉质检以及智能工业机器人等方向正在孕育一批新兴的AI企业。据专业机构推断,预计到2026年,中国计算机视觉核心产品市场规模将突破2000亿元,带动相关产业规模将超过6700亿元。

1.5.2 人工智能在智慧城市中的应用

在新型城市建设和规划中,以卫星遥感图像处理为代表的地理信息技术正在发挥非常重要的作用,通过对城市范围内的人、事件、基础设施和环境等要素进行全面感知、实时动态识别和快速目标提取,为智慧城市的建设提供更多有价值的信息。当前,基于人工智能的遥感图像处理技术已广泛应用在城市规划、违章建筑监管、工程环境监测、废弃物管理、交通治理、城市安防等场景。

1.居民地数据提取

居民地数据是基础地理信息的核心要素之一。利用遥感技术及时、准确地发现并确定居民地变化,对于灾害评估、城市扩张、环境变化、空间数据更新等有重要意义。利用人工智能对居民地大类下的普通街区、高层建筑、独立房屋、体育场等二级类进行遥感监测,大大提升了制作基础测绘底图的工作效率,能够快速地分割出居民地并生成测绘级地图。利用人工智能进行居民地数据提取,相比于传统人工地图矢量化的方法,工作效率提高了85倍,检出准确率可以达到90.2%。

2.土地利用类别动态解译

土地利用类别是水土流失的重要影响因子。全国水土流失动态监测采用遥感调查、定位观测与模型计算相结合的技术方法,每年开展一次区域土地利用类别解译工作。如果采用传统的人工目视解译方式,需要耗费大量的人力、物力资源,每人每天只能够解译300~400平方千米,在时效性方面难以满足区域水土流失动态监测工作的需要。北科博研利用人工智能分析宁夏土地遥感图像,提取准确率达到90%以上,相对传统的人工解译项目有了很大的提升。使用AI进行土地利用解译,只需要两台GPU工作站,即可快速完成全省的解译工作,能够大幅提高土地利用识别效率,保障当地区域水土流失动态监测工作的顺利开展。

3.高尔夫球场检测

目前高尔夫球场滥建和侵占城市建设空间的问题已经引起国家相关部门的高度重视。利用人工智能中的目标检测算法,根据高尔夫球场的特性对输入图像的长宽比进行调优,大大提升了遥感图像解译工作的效率,为高尔夫球场检测提供了半自动化技术手段。项目实施后,周期性、自动化的高尔夫球场遥感检测成为可能,相对于传统方法效率大大提高。在京津冀地区的遥感影像中取得的面积检测率为86%,数量检测率为95%,单景遥感影像检测耗时10 min。

1.5.3 人工智能在智慧现场安监中的应用

安全生产事关社会影响、企业发展、家庭幸福等多个方面。但目前工厂在安全生产管理方式比较单一,主要包括例行检查、教育培训和定期评估等。受时间和人力条件约束,安全生产管理的工作效率和精细化管理水平均有待提升,因人员懈怠或疏忽导致的安全生产事故时有发生。

使用人工智能,将分布在厂区内的摄像头采集的视频数据作为输入,通过前置计算设备或服务器集成的定制化识别模型进行分析,针对不同的摄像头,灵活配置监控的事件及使用的模型,实时将危险事件及各种统计结果反馈给工厂安全生产管理系统,实现生产管理联动。

通鼎互联集团开发的通鼎互联智慧安监系统充分利用了图像和视频识别技术,可以实现如下功能。

员工安全着装规范识别。检测员工着装(如安全帽、静电帽、工作服、手套、口罩、绝缘靴)是否符合安全防护标准。

作业区危险行为监测。实时监测作业区使用手机、抽烟、跌倒、人员违规闯入、车辆违规停留等行为,及时预警。

生产机械安全监控。监控各种生产设备、工作区的安全作业情况,如行吊的起吊高度、绞龙启动后防护区是否有人员逗留等。

仪表盘读数识别。实时监控各种仪表盘指针读数,判断指标是否合格,如液化气罐异常指标报警、厂区内粉尘浓度监测等。

综合利用上述智能检测基础能力,可以有效提高企业安全生产过程、危险品日常管理、事故防范等方面的管控能力,切实提升政府与企业监管人员的日常安全监控手段及效率,解决依赖人力无法全时监控生产过程的问题。

1.6 人工智能体验

人工智能应用领域广泛、应用场景丰富。除用于无人车等看起来高大上的应用场景以外,人工智能正渐渐走进日常生活,为用户带来“看得见摸得着”的近距离体验。

1.6.1 百度AI能力体验中心

为了更好地传播和推广人工智能,百度公司建立了AI能力体验中心。通过该体验中心,用户可以沉浸式地体验人工智能的魔力,感受人工智能给人们生活带来的便捷。在搜索网站搜索“百度AI能力体验中心”即可找到AI能力体验中心的网址。网站页面如图1-2所示。

图1-2 AI能力体验中心网站页面

AI能力体验中心提供图像识别、图像增强与特效、人脸与人体识别、语音技术、自然语言处理、通用文字识别、卡证文字识别、交通文字识别、票据文字识别和其他文字识别共10类72个体验项目,其中图像识别可以继续细分为文字识别、图像识别、图像效果增强、图像审核4个小类。表1-1给出了10个类别各自的输入数据、输出结果和项目数量。AI能力体验中心不仅预置了输入数据供用户浏览各种功能,而且支持用户自己上传数据进行沉浸式体验。

表1-1 百度AI能力体验中心提供的体验功能

类别序号

功能分类

输入数据

输出结果

项目数量

1

图像识别

图像

图像中的文字信息

12

2

图像增强与特效

图像

增强之后的图像

11

3

人脸与人体识别

图像

图像中人体和人脸包含的目标描述及其传达的信息

12

4

语音技术

文字

文字生成的语音

1

5

自然语言处理

文字

文本生成,文字的结构、语义特征及其判定结果

10

6

通用文字识别

图像/二维码

图像/二维码中的文字信息

6

7

卡证文字识别

图像

卡证图像中的关键字段信息

5

8

交通文字识别

图像

交通相关图像中的关键字段信息

5

9

票据文字识别

图像

票据图像中的关键字段信息

7

10

其他文字识别

图像

其他行业相关图像中的关键字段信息

3

接下来针对这10类技术进行介绍。

1.6.2 图像识别

表1-2给出了图像识别技术类中12个体验项目的功能描述与应用场景。图像识别的功能是根据输入图像识别出关键内容。

表1-2 图像识别技术类中12个体验项目的功能描述与应用场景

序号

项目名称

功能描述

应用场景

1

通用物体和场景识别

可识别超过10万类常见物体和场景,接口返回大类及细分类的名称,并支持获取识别结果对应的百科信息;还可使用EasyDL定制训练平台和定制识别分类标签。广泛适用于图像或视频内容分析、拍照识图等业务场景

1)图片内容分析与推荐

对用户浏览的图片或观看的视频内容进行识别,根据识别结果给出相关内容推荐或广告展示。广泛应用于新闻资讯类、视频类App等内容平台中

2)拍照识图

根据用户拍摄的照片识别图片中物体的名称及百科信息,提升用户交互体验,广泛应用于智能手机厂商、拍照识图及科普类App中

3)拍照闯关趣味营销

设计线上营销活动,根据用户拍摄的照片自动识别图片中物体信息是否符合活动要求,提升用户交互体验,减少人工审核成本

2

植物识别

可识别超过2万种常见植物和近8000种花卉,接口返回植物的名称,并支持获取识别结果对应的百科信息;还可使用EasyDL定制训练平台和定制识别分类标签。适用于拍照识图、幼教科普、图像内容分析等场景

拍照识图

根据拍摄的照片识别图片中植物的名称,可配合其他识图能力对识别的结果进一步细化,提升用户体验,广泛应用于拍照识图类App中

3

动物识别

识别近8000种动物,接口返回动物名称,并可获取识别结果对应的百科信息;还可使用EasyDL定制训练平台和定制识别分类标签。适用于拍照识图、幼教科普、图像内容分析等场景

拍照识图

根据拍摄的照片识别图片中动物的名称,可配合其他识图能力对识别的结果进一步细化,提升用户体验,广泛应用于拍照识图类App中

4

菜品识别

识别超过9000种菜品,支持客户创建属于自己的菜品图库,可准确识别图片中的菜品名称、位置,并获取百科信息。适用于客户识别菜品的多种业务场景

1)餐饮健康

根据拍摄的照片识别图片中菜品的名称,获取菜品参考卡路里含量和百科信息,可结合识别结果进一步提供饮食推荐、健康管理方案等相关功能,增强用户体验,广泛应用于餐饮娱乐类和健康管理类App中

2)智能结算

根据拍摄的照片识别图片中菜品的名称和位置,提高结算效率,减少人工录入成本,广泛应用于餐饮行业中

5

地标识别

支持识别12万种中外著名地标、热门景点;还可使用EasyDL定制训练平台和定制地标分类标签。广泛应用于拍照识图、幼教科普、图片分类等场景

1)拍照识图

将地标识别服务集成到识图App/小程序中,识别照片中出现的中外著名地标、景点,广泛应用于综合识图场景中

2)图片分类

集成地标识别服务,自动给地标、景点图片打标签并进行分类,适用于旅游类网站/App和智能相册

6

果蔬识别

识别近千种水果和蔬菜的名称,适合识别只含有一种果蔬的图片,可自定义返回识别结果数。适用于与果蔬介绍相关的美食类App中

果蔬介绍

根据拍摄的照片识别图片中果蔬的名称,可结合识别结果进一步为用户提供营养价值、搭配禁忌、果蔬推荐等相关信息,广泛应用于美食类App中

7

红酒识别

识别图像中的红酒标签,返回红酒名称、国家、产区、酒庄、类型、糖分、葡萄品种、酒品描述等信息,可识别数十万种中外红酒;支持自定义红酒图库,在自建库中搜索特定红酒信息

1)红酒介绍与推荐

识别用户拍摄图片中的红酒,提供详细的红酒介绍,同时可结合识别结果进一步为用户提供商品推荐、营养搭配等服务,适用于酒类电商平台、红酒展销、拍照识图软件、美食健康App等

2)智能酒柜

根据拍摄的红酒照片自动识别图片中红酒的名称、产区、糖分、品尝温度等关键信息,为用户提供更优质的选酒、品酒体验

8

货币识别

识别图像中的货币类型,返回货币的名称、代码、面值、年份信息。可识别百余种国内外常见货币;还可使用EasyDL定制训练平台和定制识别货币种类

外汇兑换

金融机构外汇兑换时,自动识别货币类型,弥补人工判断知识面受限、主观失误等问题,提升兑换效率

9

图像主体检测

检测图片中的主体,支持单主体检测、多主体检测。可识别出图片中主体的位置和标签,方便裁剪出对应主体的区域,用于后续图像处理、海量图片分类打标签等场景

1)智能美图

根据用户上传的照片进行主体检测,实现图像裁剪或背景虚化等功能,可应用于含美图功能的App中

2)图像识别辅助

可使用图像主体检测裁剪出图像主体区域,配合图像识别接口提升识别精度

3)图片主体定位、打标签

检测出图片中多个主体的坐标位置,并给出主体的大类标签和标签的置信度得分,对海量图片进行分类、打标签

10

车型识别

识别车辆的具体车型,以小汽车为主,输出图片中主体车辆的品牌、型号、年份、颜色、百科词条信息;可识别3000种常见车型,准确率90%以上

1)拍照识车

根据拍摄的照片快速识别图片中车辆的品牌型号,提供有针对性的信息或服务,可用于相册管理、图片分类打标签、电子汽车说明书、一键拍照租车等场景

2)智能卡口

监控高速路闸口、停车场出入口的进出车辆,识别详细车型信息,结合车牌、车辆属性对车辆身份进行校验,形成车辆画像

11

车辆检测

识别图像中所有车辆的类型和位置,并对小汽车、卡车、巴士、摩托车、三轮车5类车辆分别计数,同时可定位小汽车、卡车、巴士的车牌位置

1)违章停车检测

监控分析城市道路、园区/厂区等公共场所的车辆停放情况,结合区域围栏等方式,判断核心区域是否有违章停车,并可进一步分析违停的车辆类型、数量

2)智能停车场

实时监控室外停车场的车位状态,代替人工计数的方式,自动识别、统计停放车辆的数目、位置,显著降低人工巡查的工作量,提升停车调度效率

12

车流统计

根据视频抓拍的图片序列进行车辆检测和追踪,识别各类车辆(包括小汽车、卡车、巴士、摩托车、三轮车)在指定区域内的驶入、驶出数量,实现动态车流统计

路况分析

实时监控交通道路、卡口的车流量,自动统计不同时段各类车辆的进出数量,分析路口、路段的交通状况,为交通调度、路况优化提供精准参考依据

图1-3展示了菜品识别实例,图像右上角按照置信度高低给出了可能的菜品名称、对应的置信度和菜品热量信息。置信度越高,表明归属于该类别的概率越大。置信度结果表明,该菜品最大的可能性应该是烤鸭。为了便于进行饮食控制和健康管理,识别结果自动关联了菜品对应的热量信息。在“菜品识别”项目中,系统预置了一些图片供演示使用,用户也可以自己上传图片进行测试。

图1-3 菜品识别实例

1.6.3 图像增强与特效

表1-3给出了图像增强与特效技术类中11个体验项目的功能描述与应用场景。图像增强与特效的功能是对输入图像进行处理,并返回增强处理之后的图像。

表1-3 图像增强与特效技术类中11个体验项目的功能描述与应用场景

序号

项目名称

功能描述

应用场景

1

黑白图像

上色

智能识别黑白图像内容并填充色彩,使黑白图像变得鲜活

图像趣味处理

开展怀旧等主题活动时,可接入服务,开发活动小程序或网页等。参与活动者只需上传黑白照片,即可立刻获得彩色照片

2

图像

风格转换

将图像转换成卡通画、铅笔画、哥特油画等9种艺术风格,可用于开展趣味活动,或集成到美图应用中对图像进行风格转换

图像趣味处理

将服务集成到美图应用、趣味活动页面等。只需上传图片,即可立刻将照片转换成卡通画或素描等多种风格

3

人像动漫化

运用对抗生成网络技术,结合人脸检测、头发分割、人像分割等技术,为用户量身定制千人千面的二次元动漫形象,并支持通过参数设置,生成戴口罩的二次元动漫人像

人像图片趣味处理

将自拍图像1:1生成动漫二次元人像效果,可用于开展趣味H5活动或者集成到相册、美图应用等,用户只需上传人脸图片,即可立刻获得千人千面的动漫人像

4

天空分割

可智能分割出天空边界位置,输出天空和其余背景的灰度图和二值图,可用于图像二次处理,进行天空替换、抠图等图片编辑场景

抠图与美化

将原始图片中的天空区域识别并分离出来,可选择新的天空图片进行替换、合成,提供更加丰富的图片处理效果及娱乐体验

5

图像去雾

对浓雾天气下拍摄,导致细节无法辨认的图像进行去雾处理,还原更清晰真实的图像

视频监控

在安防监控/车载系统场景下,对受浓雾天气影响拍摄的视频/图像进行优化处理,重建更可辨析的监控材料

6

图像

对比度增强

调整过暗或者过亮图像的对比度,使图像更加鲜明

1)海量图片优化

可用于提升网站图片、手机相册图片、视频封面图片的质量,智能调节图片的对比度,解决图片过暗或过亮的问题

2)视频监控

在安防监控/车载系统场景下,对受光照、极端天气影响拍摄的视频/图像进行优化处理,重建更可辨析的监控材料

3)彩印照片美化

帮助彩印工作室在彩印前优化处理照片,智能调节图片的对比度,解决图片过暗或过亮的问题,减轻设计师的工作量。也可用于开发照片冲洗App、小程序等

7

图像

无损放大

将图像在长宽方向各放大两倍,保持图像质量无损;可用于彩印照片美化、监控图片质量重建等场景

1)视频监控

在安防监控/车载系统场景下,将视频关键帧/图像进行无损放大优化,重建更可辨析的监控材料,展示更多细节

2)彩印照片美化

帮助彩印工作室在彩印前优化处理照片,毫秒级时间内即可将图片的长宽各放大两倍并保持质量无损,减轻设计师工作量

8

拉伸图像

恢复

自动识别过度拉伸的图像,将图像内容恢复成正常比例

视频、图片质量提升

对视频截图/封面图、网站图片进行处理,找出并修复存在过度拉伸问题的视频、图片,提升内容质量

9

图像修复

可集成到图像美化、创意处理等软件中,对图片进行智能修复,去除图片中不需要的物体,并使用背景内容进行填充;也可用于内容生产平台批量优化图像质量

1)图像美化

集成到图像美化、创意处理等软件中,对用户上传的照片进行处理,去除图像中不需要的遮挡物;也可用于内容生产平台、图像处理厂商提升图像质量

2)破损照片修复

开展怀旧等主题活动,用户上传破损照片,标注出破损位置,即可获得修复后的照片

10

图像

清晰度增强

对压缩后的模糊图像实现智能快速去噪,优化图像纹理细节,使画面更加自然清晰

1)图像美化

可用于提升网站图片、手机相册图片、视频抽帧的图像质量,对压缩后变模糊的图片进行智能去噪,强化图像纹理细节,使图像画面更加清晰

2)破损照片修复

在安防监控/车载系统场景下,提高图像清晰度,重建画面更可辨析的监控材料

11

图像

色彩增强

可智能调节图片的色彩饱和度、亮度、对比度,使得图片内容细节、色彩更加逼真

海量图片优化

可用于提升网站图片、手机相册图片、视频封面图片的质量,智能调节图片的色彩饱和度、亮度、对比度,使得图片色彩更加逼真

1.6.4 人脸与人体识别

表1-4给出了人脸与人体识别技术类中12个体验项目的功能描述与应用场景。人脸与人体识别是对输入的图像进行人脸与人体检测,并返回检测后的图像。

表1-4 人脸与人体识别技术类中12个体验项目的功能描述与应用场景

序号

项目名称

功能描述

应用场景

1

人脸检测与属性分析

快速检测人脸并返回人脸框位置,输出人脸150个关键点的坐标,准确识别多种属性信息

1)智慧校园管理

将人脸识别技术应用于摄像头监控,对学生、教职工及陌生人进行实时检测定位,解决校园安防监控、校内考勤、学生自助服务等场景的需求,打造智能化校园细分管理,提升校园生活体验和安全性

2)人脸特效美颜

基于150个关键点识别,对人脸五官及轮廓自动精准定位,可自定义对人脸特定位置进行修饰美颜;同时获取表情、情绪等人脸属性信息,实现特效相机、动态贴纸等互动娱乐功能

3)互动娱乐营销

基于人脸检测和属性分析,精准识别图片中人脸150个关键点信息,实现多种线上互动娱乐营销模式,如脸缘测试、名人换脸、颜值比拼等,提升用户体验和趣味性,有助于娱乐产品的市场推广

2

人脸对比

两张人脸进行11比对,得到人脸相似度,支持生活照、证件照、身份证芯片照、带网纹照、红外黑白照5种图片类型的人脸对比

3

人脸搜索

给定一张照片,对比人脸库中N张人脸,进行1:N检索,找出最相似的一张或多张人脸,并返回相似度分数。支持百万级人脸库管理,毫秒级识别响应,可满足身份核验、人脸考勤、刷脸通行等应用场景

1)智能安防监控

结合人脸识别技术,在工厂、学校、商场、餐厅等人流密集的场所进行监控,对人流进行自动统计、识别和追踪,同时标记存在安全隐患的行为及区域,并发出告警提醒,加强信息化安全管理,降低人工监督成本

2)工厂安全生产

3)提供软硬结合的安全生产监控方案,基于厂区、车间内摄像头采集的图像,识别是否有陌生人闯入,减少安全隐患

4)刷脸闸机通行

将人脸识别功能集成到闸机中,快速录入人脸信息,创建安全可靠的人脸库,用户刷脸通行,解决用户忘带工卡、盗刷等问题,实现企业、商业、住宅等多场景门禁通行

5)智慧人脸考勤

提供移动考勤、摄像头无感知考勤、一体机考勤3种方案,实现1秒内快速搜索与用户最相似的人脸,确保签到识别准确性,有效防止代打卡等作弊行为,增强企业安全管理

4

人体关键点识别

检测图像中的人体并返回人体矩形框位置,精准定位21个核心关键点,包含头顶、五官、颈部、四肢主要关节部位,支持多人检测、大动作等复杂场景

1)体育健身

根据人体关键点信息,分析人体姿态、运动轨迹、动作角度等,辅助运动员进行体育训练,分析健身锻炼效果,提升教学效率

2)娱乐互动

视频直播平台、线下互动屏幕等场景,可基于人体检测和关键点分析,增加身体道具、体感游戏等互动形式,丰富娱乐体验

3)安防监控

实时监测定位人体,判断特殊时段、核心区域是否有人员入侵;基于人体关键点信息进行二次开发,识别特定的异常行为,及时预警管控

5

人体检测与属性识别

检测图像中的所有人体,返回每个人体的位置坐标;识别人体的17类属性信息,包含性别、年龄、服饰类别、服饰颜色、戴帽子(可区分安全帽/普通帽)、戴口罩、背包、抽烟、使用手机等

安防监控

识别人体的性别、年龄、衣着、外观等特征,辅助定位追踪特定人员;监测预警各类危险、违规行为(如公共场所跑跳、抽烟、未佩戴口罩),减少安全隐患

6

人流量统计

统计图像中的人体个数和流动趋势,以头肩为主要识别目标统计人数,无须正脸、全身照,适应人群密集、各种出入口场景

1)安防监控

实时监测机场、车站、展会、展馆、景区、学校、体育场等公共场所的人流量,及时导流、限流,预警核心区域人群过于密集等安全隐患

2)驾驶监测

针对客运车辆,实时监控上下车和车内乘客数量,分析站点客流量、车内超载情况,为线路规划、站台设计提供精准参考依据

7

手部关键点识别

检测图片中的手部并返回手部矩形框位置,定位手部的21个主要骨节点,可用于自定义手势检测、AR特效、人机交互等场景

1)AR特效

短视频、直播等娱乐交互场景中,基于指尖点检测和指骨关键点检测,可实现手部特效、空间做画等多种创意玩法,丰富交互体验

2)自定义手势识别

根据手部骨节坐标信息,可灵活定义业务场景中需要用到的手势,例如面向智能家电、可穿戴等硬件设备的操控类手势,面向内容审核场景的特殊手势

8

驾驶行为分析

针对车载场景,识别驾驶员使用手机、抽烟、不系安全带、未佩戴口罩、闭眼、打哈欠、双手离开方向盘等动作姿态,分析预警危险驾驶行为,提升行车安全性

1)营运车辆驾驶监测

针对出租车、客车、公交车、货车等各类营运车辆,实时监控车内情况,识别驾驶员抽烟、使用手机、未系安全带、未佩戴口罩、疲劳、视线偏离等违规行为,及时预警,降低事故发生率,保障人身财产安全

2)社交内容分析审核

汽车类论坛、社区平台,对配图库以及用户上传的UGC图片进行分析识别,自动过滤出涉及危险驾驶行为的不良图片,有效减少人力成本并降低业务违规风险

9

人脸融合

对两张人脸进行融合处理,生成的人脸同时具备两张人脸的外貌特征。此服务也支持对图片进行热门人物过滤,为业务提供安全的人脸服务

1)美颜相机

在美颜相机中,通过让用户上传两张人脸图片,实现对目标人脸进行美颜的目的,增加美颜功能的种类,提升用户体验

2)活动营销

以H5/小程序的形式,在微信、微博等渠道进行活动营销,将用户与代言明星的人脸进行融合,生成趣味换脸图片,提升活动效果

3)影视剧宣传

电影、电视剧或游戏在宣传时可采用人脸融合功能将需要宣传的人物对象形成模板,进行市场活动推广,强化观众或用户对影视/游戏产品的认知

10

人像分割

识别图像中的人体轮廓,与背景进行分离,适应单人体、多人体、复杂背景、各类人体姿态;广泛应用于人像抠图美化、照片背景替换、证件照制作、隐私保护等场景

1)人像抠图与美化

将原始图片中的人像分离出来,选择新的背景图像进行替换、合成;同时可以对背景进行虚化处理,突出人像,实现大光圈人像拍照效果

2)人体特效

视频直播过程中,识别用户的人体轮廓,为人像实时增加各种设定的背景特效、贴纸道具,提供更加丰富的娱乐体验

3)影视后期处理

识别影视作品中的人像区域,进行一键抠像、背景替换、人像虚化等后期处理

11

人脸属性编辑

对人脸属性特征进行编辑,实现性别互换、年龄改变等特效,为用户生成多种特效照片,可应用在趣味社交、短视频等娱乐场景

1)趣味社交

在社交领域,可以使用人脸属性编辑功能打造创意社交活动,好玩的创意通过社群裂变,形成爆款活动

2)短视频

实现趣味人脸属性编辑的短视频制作,具有趣味性的同时,满足用户对自己形象的认知和展示需求

3)市场营销

应用人脸属性编辑特效制作创意内容,让用户在体验“好玩”的技术的同时,自主传播市场营销活动或广告,达到品牌宣传的效果

12

皮肤分析

提供肤色、皮肤光滑度、眼袋、黑眼圈、皱纹、毛孔、黑头、痘、斑、痣等多维度的分析

1)皮肤管理

在健康管理类软件中记录皮肤的日常分析结果和护理记录,形成护肤日记,帮助用户或商家记录客户的皮肤状态变化,追踪护肤效果

2)化妆品营销

以H5的形式,在线上护肤品与化妆品营销页面中提供有针对性的护肤品效果演示,提供趣味的玩法和体验

3)智能医美

在医疗美容场景中提供医疗美容前的分析与自我诊断,提供皮肤状态的分析数据,为产品选取提供参考

图1-4展示了驾驶行为分析实例。输入图像中包含驾驶员,处理结果返回是否吸烟、是否使用手机、是否未系安全带、是否双手离开方向盘、是否闭眼等典型危险驾驶行为/状态。图1-4的右上角给出了各种行为的置信度。置信度数据表明,驾驶员很大可能性存在双手离开方向盘、视角未看前方、未正确佩戴口罩3种危险驾驶行为。

图1-4 驾驶行为分析实例

1.6.5 语音技术

表1-5给出了语音技术类中语音合成项目的功能描述与应用场景。对于给定的文字,该项目返回合成之后的语音作为输出。

表1-5 语音技术类中语音合成项目的功能描述与应用场景

项目名称

功能描述

应用场景

语音合成

基于业界领先的深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,让你的应用、设备开口说话,更具个性

1)阅读听书

使用语音合成技术的阅读类App,能够为用户提供多种音库的朗读功能,释放用户的双手和双眼,提供更极致的阅读体验

2)资讯播报

提供专为新闻资讯播报场景打造的特色音库,让手机、音箱等设备化身专业主播,随时随地为用户播报新鲜资讯

3)订单播报

可应用于打车软件、餐饮叫号、排队软件等,通过语音合成进行订单播报,让你便捷地获得通知信息

4)智能硬件

可集成到儿童故事机、智能机器人、平板设备等智能硬件设备,使用户与设备的交互更自然、更亲切

图1-5展示了语音合成实例。图的左侧为用户输入的文字,右侧提供了各种分割的音库,用户还可以设置语速、音调、音量等选项。单击“播放”按钮即可听到输出的语音。

图1-5 语音合成实例

1.6.6 自然语言处理

表1-6给出了自然语言处理类中9个体验项目的功能描述与应用场景。自然语言处理是对输入的文字进行识别与检测,并输出对应的标签等信息。

表1-6 自然语言处理类中9个体验项目的功能描述与应用场景

序号

项目名称

功能描述

应用场景

1

词法分析

基于大数据和用户行为的分词、词性标注、命名实体识别,定位基本语言元素,消除歧义,支撑自然语言的准确理解

1)语音指令解析

以分词和词性标注为基础,分析语音命令中的关键名词、动词、数量、时间等,准确理解命令的含义,提高用户体验

2)多轮交互式搜索

通过专名识别定位多轮对话中的核心实体,自动判断后续对话中对该实体的进一步信息需求

3)法律术语识别

分析处理法律案由与案例信息,提取法律行业专业术语做信息结构化

4)新闻人物信息提取

以定制词表为基础,提取新闻源中涉及的参会代表的人名和机构名、职务等,进行精准匹配,为所有参会代表提供专属的新闻档案

5)品牌舆情信息提取

通过定制化词法分析,准确定位网络文章中的品牌舆情关键词,并通过词性判断提炼出与品牌词强关联的话题,助力品牌舆情监测及社交推广参考

2

文本纠错

识别文本中有错误的片段,进行错误提示并给出正确的建议文本内容

1)写作辅助

在内容写作平台上内嵌纠错模块,可在作者写作时自动检查并提示错别字情况。从而降低因疏忽导致的错误表述,有效提升作者的文章写作质量,同时给用户更好的阅读体验

2)搜索纠错

用户经常在搜索时输入错误,通过分析搜索query的形式和特征,可自动纠正搜索query并提示用户,进而给出更符合用户需求的搜索结果,有效屏蔽错别字对用户真实需求的影响

3)语音识别对话纠错

将文本纠错嵌入对话系统中,可自动修正语音识别转文本过程中的错别字,向对话理解系统传递纠错后的正确query,能明显提高语音识别准确率,使产品整体体验更佳

3

情感倾向

分析

对包含主观信息的文本进行情感倾向性判断,为口碑分析、话题监控、舆情分析等应用提供帮助。还可使用EasyDL定制训练平台,结合业务场景深度定制高精度情感倾向分析服务

1)评论分析与决策

通过对产品多维度评论观点进行倾向性分析,给用户提供该产品全方位的评价,方便用户进行决策

2)电商评论分类

通过对电商评论进行情感倾向性分析,将不同用户对同一商品的评论内容按情感极性予以分类展示

3)舆情监控

通过对需要舆情监控的实时文字数据流进行情感倾向性分析,把握用户对热点信息的情感倾向性变化

4

评论观点

抽取

自动抽取和分析评论观点,帮助实现舆情分析、用户理解,支持产品优化和营销决策

1)商品口碑分析

对商品点评内容进行观点提取和分析,为每个商品定义点评标签,让购买者和售卖者直观了解商品在用户中的口碑

2)辅助消费决策

通过对比不同商家对同一类型产品的评论观点信息,可以辅助用户进行消费决策

3)互联网舆情分析

商家对针对自己产品的评论观点进行分析监控,可以及时发现用户对产品的评价及舆情信息

5

智能创作

集合了百度公司领先的自然语言处理和知识图谱技术,提供自动创作和辅助创作的能力,全面提升内容创作效率,旨在成为更懂你的智能创作助手

1)媒体与内容创作行业

适用于财经新闻、体育新闻、天气新闻、娱乐事件等多种内容的自动创作与辅助创作,大幅提升创作效率

2)商业智能

适用于企业内外部数据的自动分析与报告生成,提升企业信息同步效率与管理效率

3)行业报告与咨询机构

适用于对行业热点咨询、最新动态等信息的追踪、监测与报告的自动生成,大幅提升信息处理效率

4)市场营销与活动

运用智能写诗与智能春联技术,帮助企业打造更多让用户有参与感的营销活动,提升营销的用户体验与传播价值

6

对话情绪

识别

自动检测用户日常对话文本中蕴含的情绪特征,帮助企业更全面地把握产品体验、监控客户服务质量

1)客服质检与监控

识别用户在客服咨询中的情绪,在自动回复系统外,如检测出用户负面不满情绪,则触发人工客服介入。在人工客服场景下,也可用于监控客服人员的服务态度

2)闲聊机器人

识别用户在聊天中的情绪,帮助机器人产品选择出更匹配用户情绪的文本进行回复

3)任务型对话

识别用户的情绪,根据不同的对话情绪,选择不同的回答策略进行答复(例如回复语速和文本简洁程度差异等)

7

文章标签

对文章进行核心关键词分析,为新闻个性化推荐、相似文章聚合、文本内容分析等提供技术支持

1)个性化推荐

通过对文章进行标签计算,结合用户画像,精准地对用户进行个性化推荐

2)话题聚合

根据文章计算的标签,聚合相同标签的文章,便于用户对同一话题的文章进行全方位的信息阅读

8

新闻摘要

基于深度语义分析模型,自动抽取新闻文本中的关键信息并生成指定长度的新闻摘要。可用于热点新闻聚合、新闻推荐、语音播报、App消息推送等场景

1)语音播报

语音播报场景往往有严格的字数要求,新闻摘要能够自动生成符合字数规范且表达通顺的信息,提升用户体验和播报效率

2)智能写作

通过对大量的新闻文本进行语义分析和快速摘要,可以快速形成热点汇总类、新闻聚合类、事件盘点类的新闻稿件,进行自动写作和辅助写作,提升新闻生产效率

3)新闻展示和推送

对新闻文本的内容进行分析,快速抽取核心内容摘要并展示或推送给用户,吸引用户点击并提升用户阅读效率

9

地址识别

精准提取快递填单文本中的姓名、电话、地址信息,通过自然语言处理辅助地址识别,生成标准规范的结构化信息,大幅提升企业效率

快递单据识别

解析并提取快递单据中的文本信息,标准规范地输出结构化信息,包含姓名、电话、地址,帮助快递或电商企业提高单据处理效率

图1-6展示了智能创作实例。该实例可以将用户提供的关键词作为题目进行创作,最后输出与主题对应的诗句。

图1-6 智能创作实例

智能创作的“自动创作”功能还支持智能春联、结构化数据写作;智能创作的“辅助创作”功能提供热词分析、事件脉络、文本纠错、用词润色、自动摘要、文本审核、文章分类、文章标签和标题生成9种功能。

1.6.7 通用文字识别

表1-7给出了通用文字识别类中6个体验项目的功能描述与应用场景。通用文字识别是对输入的文字或者图片进行识别,返回输出识别的文字和相关信息。

表1-7 通用文字识别类中6个体验项目的功能描述与应用场景

序号

项目名称

功能描述

应用场景

1

通用文字识别

多场景、多语种、高精度的整图文字检测和识别服务,在多项场景文本检测和识别比赛中居世界第一,可识别中、英、日、韩等20余种语言

1)拍照/截图识别

使用通用文字识别技术实现拍照文字识别、相册图片文字识别和截图文字识别,可应用于搜索、书摘、笔记、翻译等移动应用中,方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验

2)内容审核与监督

自动提取图像中的文字内容,结合文本审核技术识别违规内容,提示相应风险,协助进行违规处理,可应用于电商广告审核、舆情监管等场景,帮助企业有效规避业务风险

3)视频内容分析

检测识别视频中的字幕、标题、弹幕等文字内容,并根据文字位置判断文字类型,可应用于视频分类和标签提取、视频内容审核、营销分析等场景,有效提升内容分类、检索的效率

4)纸质文档电子化

识别提取各类医疗单据、金融财税票据、法律卷宗等纸质文档中的文字信息,并可基于位置信息进行比对、结构化处理,提高信息录入、存档、检索的效率

2

网络图片与文字识别

针对网络图片进行专项优化,支持识别艺术字体或背景复杂的文字内容,还可返回文字的位置信息、行置信度、单字符内容和位置等

内容审核

使用网络图片文字识别技术,实现对艺术字体或背景复杂的文字内容进行识别,应用于社交、电商、短视频、直播等场景,同时结合图像审核技术对图片或视频进行审核,识别其中存在的违规和广告内容,有效规避业务风险

3

办公文档识别

可对办公类文档的版面进行分析,输出图、表、标题、文本、目录、栏、页眉、页脚、页码和脚注的位置,并输出分版块内容的OCR识别结果,支持中、英两种语言,手写、印刷体混排等多种场景

办公场景文档识别

对办公场景的各类文档进行结构化识别,如企业年报、论文、行业报告等,可以分别返回标题、图片、表格、文本、栏、页眉、页脚、页码和脚注的信息,并支持返回单行、单字结果,方便对文档类图片进行结构化分析

4

数字识别

对图片中的数字进行提取和识别,自动过滤非数字内容,仅返回数字内容及其位置信息,识别准确率超过99%

1)快递面单识别

使用数字识别技术,对快递面单、物流单据、外卖小票中的电话号码进行识别和提取,大幅度提升收货人信息的录入效率,方便进行收件通知,同时可识别纯数字形式的快递三段码,有效提升快件分拣速度

2)仪表读数识别

使用数字识别技术,对各类仪器仪表的读数进行识别和提取,可应用于对仪器仪表读数具有定时记录、数据统计、实时监控等需求的场景,有效降低人工录入成本,控制仪器使用风险

5

手写文字识别

支持对图片中的手写中文、手写数字进行检测和识别,针对不规则的手写字体进行专项优化,识别准确率可达90%以上

1)智能阅卷

使用手写文字识别技术,对学生日常作业及考试试卷中的手写内容进行自动识别,实现学生作业、考卷的线上批阅及教学数据的自动分析,大幅度提升教师工作效率及质量,促进教学管理的数字化和智能化

2)手写表单电子化

使用手写文字识别技术,实现对活动签到表、信息登记表、数据统计表等纸质表单内手写文字的识别,满足对纸质表单内信息进行统计整理、数据计算的需求,有效降低人工录入成本,便于登记信息的保存和传输

3)书摘、笔记电子化

使用手写文字识别技术,实现对手写书摘、读书笔记、课堂笔记等内容的识别,实现对手写文字内容的扫描及线上存储,便于用户对书摘及笔记内容进行快速编辑、查找及传输,大幅度提升内容管理效率,优化用户使用体验

6

二维码识别

对图片中的二维码、条形码进行检测和识别,返回存储的文字内容

物品信息管理

对各类物品的二维码或条形码信息进行解析识别,获取相应信息,可应用于商品、药品出入库管理及货物运输管理等场景,轻松一扫即可快速完成对物品信息的读取、登记和存储,大幅度简化物品管理流程

图1-7展示了网络图片与文字识别实例。该实例针对网络图片中的文字进行识别,并在右侧给出识别结果。从识别结果中可以看到,该实例文字识别准确、文字方向正确、空间顺序合理。

图1-7 网络图片与文字识别实例

1.6.8 卡证文字识别

表1-8给出了卡证文字识别类中5个体验项目的功能描述与应用场景。卡证文字识别是对输入的卡证图片进行识别,并根据卡证的先验知识,返回输出识别的文字/数字信息和关联的其他信息。

表1-8 卡证文字识别类中5个体验项目的功能描述与应用场景

序号

项目名称

功能描述

应用场景

1

身份证识别

结构化识别二代居民身份证正反面所有8个字段,识别准确率超过99%;支持身份证混贴识别,自动检测识别同一张图片上的多张身份证正反面;同时可检测身份证正面头像,返回头像切片的base64编码及位置信息

远程身份证

使用身份证识别和人脸识别技术,自动识别、录入用户身份信息,可应用于金融、保险、电商、O2O、直播等场景,对用户、商家、主播等进行实名身份认证,有效降低用户输入成本,控制业务风险

2

银行卡识别

对主流银行卡的卡号、有效期、发卡行、卡片类型4个关键字段进行结构化识别,识别准确率超过99%

1)金融远程身份认证

综合应用银行卡和身份证识别技术,结构化识别、录入客户银行账户和身份信息,可应用于金融场景的用户实名认证,有效降低用户输入成本,提升用户体验

2)电商支付绑卡

接入银行卡识别API服务以实现拍照识别,或集成移动端离线SDK以实现设备端扫描识别,结构化返回卡号、卡片类型等信息,有效提升信息录入的准确性,并降低用户手工输入成本,提升用户使用体验

3

营业执照识别

可结构化识别各类版式的营业执照,返回证件编号、社会信用代码、单位名称、地址、法人、类型、成立日期、有效日期、经营范围等关键字段信息

1)商家资质审查

结构化识别、录入企业信息,应用于电商、零售、O2O等行业的商户入驻审查场景,实现商户信息的自动化审查和录入,大幅度提升服务标准和运营效率

2)企业金融服务

自动识别、录入企业信息,应用于企业银行开户、抵押贷款等金融服务场景,大幅度提升信息录入效率,并有效控制业务风险

4

护照识别

支持对中国护照个人资料页的11个字段进行结构化识别,包括国家码、护照号、姓名、姓名拼音、性别、出生地点、出生日期、签发地点、签发日期、有效期、签发机关

1)境外旅游

使用护照识别技术实现对用户护照信息的结构化识别和录入,可应用于境外旅游产品预订、酒店入住登记等场景,满足护照信息自动录入的需求,有效提升信息录入效率,降低用户输入成本,提升用户使用体验

2)留学信息登记

使用护照识别技术实现对用户护照信息的结构化识别和录入,可应用于留学机构信息收集或个人留学手续办理等场景,满足护照信息自动录入的需求,有效提升信息录入效率,降低用户输入成本,提升用户使用体验

5

户口本识别

结构化识别户口本内常住人口登记卡的22个字段,以及户主页的5个关键字段,包括户号、姓名、与户主关系、性别、出生地、民族、出生日期、身份证号、曾用名、籍贯、宗教信仰等

1)身份信息登记

识别户口本上的姓名、性别、出生地、出生日期、身份证号等信息,应用于新生儿建档、户口迁移、个人信贷申请、社会救济金申请等政务办理场景,帮助政务部门快速完成核验和登记,提升办事效率

2)亲属关系登记

识别提取户口本上的姓名、与户主关系、身份证号等信息,应用于婚姻登记、遗产继承、子女入学登记等需证明亲属关系的民政业务场景,帮助政务部门快速提取申请人身份信息及关系,完成登记,提升办理效率

图1-8展示了银行卡识别实例。该实例对上传的银行卡进行识别,不仅输出了银行卡上的文字和数字信息,还自动关联并添加了各种信息对应的具体含义,如银行卡卡号、有效期、银行名称、银行卡类型、持卡人等未在卡片上显示的隐含卡片信息。

图1-8 银行卡识别实例

1.6.9 交通文字识别

表1-9给出了交通文字识别类中5个体验项目的功能描述与应用场景。交通文字识别是对输入的交通相关的图片进行识别,并根据交通场景的先验知识,返回输出识别的文字/数字信息及其关联的其他信息。

表1-9 交通文字识别类中5个体验项目的功能描述与应用场景

序号

项目名称

功能描述

应用场景

1

行驶证识别

结构化识别机动车行驶证主页及副页所有22个字段,包括号牌号码、车辆类型、所有人、品牌型号、车辆识别代码、发动机号码、核定载人数、检验记录、发证单位等

1)司机身份认证

综合应用行驶证、驾驶证和身份证识别技术,自动识别、录入用户身份信息和车辆信息,可应用于网约车用户注册、货车司机身份审查等场景,有效提升信息录入效率,优化用户体验

2)车主信息服务

基于驾驶证和行驶证识别能力,结构化识别、录入用户身份信息和车辆信息,可应用于个性化信息推送、违章信息查询等场景,有效降低用户输入成本,为用户提供信息推送和查询服务

3)汽车后市场服务

使用汽车场景下多种卡证和票据识别服务,结构化识别、录入用户身份信息和车辆信息,可应用于新能源汽车国家补贴申报、汽车金融保险、维修保养等后市场服务场景,有效提升信息录入效率,优化用户体验

2

驾驶证识别

结构化识别机动车驾驶证主页及副页所有15个字段,包括证号、姓名、性别、国籍、住址、出生日期、初次领证日期、准驾车型、有效期限、发证单位、档案编号等

1)司机身份认证

综合应用驾驶证、行驶证和身份证识别技术,自动识别、录入用户身份信息和车辆信息,可应用于共享汽车用户注册、网约车司机身份审查、货车车主信息录入等场景,有效提升信息录入效率,优化用户体验

2)车主信息服务

基于驾驶证和行驶证识别能力,结构化识别、录入用户身份信息和车辆信息,可应用于个性化信息推送、违章信息查询等场景,有效降低用户输入成本,为用户提供信息推送和查询服务

3

车牌识别

识别中国各类机动车车牌信息,支持蓝牌、黄牌(单双行)、绿牌、大型新能源车牌(黄绿)、领使馆车牌、警牌、武警牌(单双行)、军牌(单双行)、港澳出入境车牌、农用车牌、民航车牌,并能同时识别图像中的多张车牌

1)车辆进出场识别

自动识别车辆车牌信息,应用于停车场、小区、工厂等场景,实现无卡、无人的车辆进出场自动化、规范化管理,有效降低人力成本和通行卡证制作成本,大幅度提升管理效率

2)道路违章检测

自动识别、定位违章车辆信息,实时检测、记录道路违章行为,有效降低人力监控成本,提升管理效率

4

车辆识别代码(Vehicle Identification Number,VIN)的识别

识别车辆挡风玻璃处的VIN,可应用于4S店车辆出入库管理、车辆出租管理等场景,快速完成车辆信息统计及管理

1)车辆信息管理

自动识别、录入各种车辆的VIN,可应用于4S店车辆出入库管理、车辆出租管理等场景,快速完成车辆信息统计及管理,有效降低人工录入成本,实现车辆管理的自动化

2)车辆维修登记

精准识别车辆信息,应用于车辆维修保养场景,作为唯一识别信息,登记并读取车辆型号、制造厂商、发动机型号等关键信息,降低维修人员的信息录入成本

5

车辆合格证识别

结构化识别车辆合格证的28个关键字段,包括合格证编号、发证日期及制造企业名、品牌、名称、型号等车辆信息

1)车辆信息登记

自动识别购买车辆的各项关键信息,应用于车辆信息核对、车辆上户、车牌申领等场景,快速录入车辆信息,有效降低人工成本,实现车辆信息登记的自动化

2)汽车后市场服务

对车辆信息进行结构化识别,应用于汽车金融保险办理、车辆抵押贷款等场景,自动化录入车辆信息,有效降低车主手动输入成本,提升用户使用体验

图1-9展示了行驶证识别实例。该实例对上传的行驶证图片进行识别,返回结果不仅包含行驶证本身的文字信息,还给出了“发证单位”等关联信息。

图1-9 行驶证识别实例

1.6.10 票据文字识别

表1-10给出了票据文字识别类中7个体验项目的功能描述与应用场景。票据文字识别是对上传的票据图片进行识别,返回图片中包含的文字信息。

表1-10 票据文字识别类中7个体验项目的功能描述与应用场景

序号

项目名称

功能描述

应用场景

1

银行回单识别

支持对各大银行的收付款回单关键字段进行结构化识别,包括收/付款人户名、账号、开户银行、交易日期、大小写金额、流水号等

财税记账

使用银行回单识别技术,对企业对外交易产生的银行回单凭证进行识别和录入,可应用于企业内部做账及税务核算等场景,能够有效减少人工录入工作量,实现财税报销的自动化

2

增值税发票识别

结构化识别增值税普票、专票、电子发票、卷票、区块链发票的所有关键字段,包括发票基本信息、销售方及购买方信息、商品信息、价税信息等,其中五要素识别准确率超过99%

1)财税报销

快速识别录入增值税普票或专票各字段信息,应用于企业税务核算及内部报销等场景,有效减少人工核算工作量,实现财税报销的自动化

2)发票验真

智能识别发票代码、号码、开具金额、开票日期4个关键字段,以便快速接入税务机关发票查验平台进行真伪查验,有效降低人力成本,控制业务风险

3)账单记录

对发票金额、开票日期等信息进行自动识别和录入,应用于理财记账场景,帮助用户快速录入账单信息,降低用户输入成本,提升使用体验

3

火车票识别

支持对红、蓝火车票的13个关键字段进行结构化识别,包括车票号码、始发站、目的站、车次、日期、票价、席别、姓名、座位号、身份证号、售站、序列号、时间

1)财税报销

使用火车票识别技术,实现对始发站、目的站、乘车人、票价等信息的自动识别和录入,应用于企业税务核算及内部报销等场景,能够有效减少人工核算工作量,降低人力成本,实现财税报销的自动化

2)日程记录

使用火车票识别技术,实现对车次、日期等信息的识别和录入,可应用于个人行程规划与记录类移动应用,高效准确的识别服务可以满足用户快速录入行程信息的需求,有效降低用户输入成本,提升使用体验

4

出租车票识别

识别全国各大城市出租车票的16个关键字段,包括发票号码、代码、车号、日期、总金额、燃油附加费、叫车服务费、上下车时间等

1)财税报销

自动识别并录入出租车票的关键字段,应用于企业税务核算及内部报销等场景,能够有效减少人工核算工作量,降低人力成本,实现财税报销的自动化

2)日程记录

自动识别并录入乘车日期、时间等信息,可应用于个人行程规划与记录类移动应用,用户无须手动录入行程信息,有效提升使用体验

5

飞机行程单识别

对飞机行程单的24个字段进行结构化识别,包括电子客票号、印刷序号、姓名、始发站、目的站、航班号、日期、时间、票价、身份证号、承运人、保险费、燃油附加费、其他税费、合计金额、订票渠道等;同时,可识别单张行程单上的多航班信息

1)财税报销

自动识别并录入乘机人姓名、日期、始发站、目的站、票价等信息,应用于企业内部报销等场景,有效减少人工录入、核算成本,实现财税报销的自动化

2)日程记录

快速录入航班号、日期、始发站、目的站等信息,应用于个人行程规划与记录类移动应用,一键录入行程信息,有效降低用户输入成本,提升使用体验

6

网约车行程单识别

对各大主要服务商的网约车行程单进行结构化识别,包括滴滴打车、花小猪打车、高德地图、曹操出行、阳光出行,支持识别服务商、行程开始及结束时间、车型、总金额等14个关键字段。可用于企业税务核算及内部报销等场景,有效提升财税报销的业务效率

财税报销

使用网约车行程单识别技术,自动识别并录入服务商、行程开始时间、行程结束时间、车型、总金额等字段信息,应用于企业税务核算及内部报销等业务场景,有效减少人工核算工作量,降低人力成本,实现财税报销的自动化

7

智能财务票据识别

针对财务场景的13类常见票据进行智能分类及结构化识别,无须提前进行手动分类处理,上传图片即可完成自动分类、识别及信息提取。助力企业内部报销、代理记账等业务场景效率升级,降低企业运营成本

1)财税报销

针对企业员工提交的原始票据粘贴单,快速完成各类报销凭证的自动切分及结构化识别,应用于内部报销、核算、记录等场景,减轻员工报销难度,提升财务核算效率,简化报销流程

2)代理记账

应用智能票据识别能力,帮助代理记账企业实现票面信息采集、结构化信息提取、发票验真、财务核算等全流程自动化,有效提升代账企业的服务效率

图1-10展示了银行回单识别实例。该实例通过对上传的银行回单进行识别,返回回单上的关键性内容,并对其进行整理后输出,方便用户查阅和自动录入。

图1-10 银行回单识别实例

1.6.11 其他文字识别

表1-11给出了其他文字识别类中3个体验项目的功能描述与应用场景。其他文字识别是对人们上传的其他种类的图片进行识别,返回图片中的文字信息。

表1-11 其他文字识别类中3个体验项目的功能描述与应用场景

序号

项目名称

功能描述

应用场景

1

试卷分析与识别

可对作业、试卷的版面进行分析,输出图、表、标题、文本、目录、栏、页眉、页脚、页码和脚注的位置,并输出分版块内容的OCR结果,支持中、英两种语言,手写、印刷体混排等多种场景

智能阅卷

通过拍照设备将纸质作业、作文、试卷信息转化为图片,自动提取识别题目、答题内容,可在提取结果上二次开发,如与答案库进行正确性匹配,方便教师快速判卷,提升工作效率及质量,促进教学管理的数字化和智能化

2

仪器仪表盘读数识别

适用于不同品牌、不同型号的仪器仪表盘读数识别,广泛适用于各类血糖仪、血压仪、燃气表、电表等,可识别表盘上的数字、英文、符号,支持液晶屏、字轮表等表型

仪器仪表数据快速录入

自动识别采集到的仪器仪表数值信息,快速录入业务系统中,有效解决人工抄录过程中抄错、抄漏等问题,减少人工录入工作量,降低企业人力成本

3

印章识别

检测并识别合同文件或常用票据中的印章,输出文字内容、印章位置信息以及相关置信度,已支持圆形章、椭圆形章、方形章等常见印章

合同、票据合法性检测

检测合同文件、常用票据中有无印章,快速确认合同及票据的合法性,并可识别文字内容、定位印章位置,提取、对比印章内容,提高验证效率,降低财税及商务合同签订过程的业务风险

图1-11展示了试卷分析与识别实例。该实例对上传的试卷图片进行文字识别,输出试题上的汉字与其他符号内容,方便进行试卷的自动批阅。

图1-11 试卷分析与识别实例

小结

本章介绍了人工智能的定义、人工智能的发展历程、人工智能产业结构、人工智能应用领域,并以百度AI能力体验中心的项目为例介绍了部分人工智能的典型应用。读者可以选择百度AI能力体验中心的其他技术项目,结合自己的生活经历和专业背景,构造新的应用场景。

练习

1.使用百度AI能力体验中心的图像识别技术,给出识别成功和识别失败的例子,并分析技术的适用范围和局限性。

2.使用百度AI能力体验中心的人脸与人体识别技术,给出识别成功和识别失败的例子,并分析技术的适用范围和局限性。

3.使用百度AI能力体验中心的自然语言处理技术,给出成功和失败的例子,并分析技术的适用范围和局限性。

4.使用百度AI能力体验中心的通用文字识别技术,给出成功和失败的例子,并分析技术的适用范围和局限性。

5.以某个智能化产品或设备为例,根据产品的功能分析用到的人工智能,并识别各项技术的输入和输出。

相关图书

GPT图解 大模型是怎样构建的
GPT图解 大模型是怎样构建的
大语言模型:基础与前沿
大语言模型:基础与前沿
扩散模型从原理到实战
扩散模型从原理到实战
ChatGPT原理与应用开发
ChatGPT原理与应用开发
人工智能(第3版)
人工智能(第3版)
ChatGPT写作超简单
ChatGPT写作超简单

相关文章

相关课程