智能浪潮:大数据时代的AI革命

978-7-115-67892-8
作者: 凌晨
译者:
编辑: 李瑾

图书目录:

详情

本书是一部系统阐述人工智能与大数据融合发展的专业著作。本书从人工智能发展 的历史进程出发,解读了深度学习革命的成功与挑战,以及大数据技术体系的核心特征。在数据价值与治理方面,本书构建了完整的数据治理方法论体系,涵盖数据资产管理、价值挖掘、安全隐私保护等关键环节,并通过典型案例展示了数据治理在企业管理中的实际效果。书中详细介绍了大数据技术在科研项目管理、军事应用、电子政务、金融、工业、医药生物、交通运输等多个领域的深度应用实践。本书系统梳理了人工智能技术方法论的演进历程,从传统的经验范式、结构范式、行为范式到新兴的数据范式、综合或集成范式、类脑范式等。产业智能化转型部分深入探讨了智能制造、智慧城市、智能医疗、智能金融等八大应用场景,分析了人工智能推动商业变革的机遇与挑战。本书还深度关注人工智能与大数据的伦理治理问题,系统分析了各国政府和国际组织的伦理实践,构建了人工智能伦理治理的技术框架。最后,本书展望了人工智能的未来发展,介绍了人工智能核心技术的五大演进趋势,深入分析了智能机器人、通用人工智能、量子计算、脑机接口等前沿技术,以及它们对产业变革的深远影响。 本书理论与实践并重,可为政府决策者、企业管理者、技术人员和研究学者提供把 握智能时代发展方向的重要参考。

图书摘要

版权信息

书名:智能浪潮 : 大数据时代的AI革命

ISBN:978-7-115-67892-8

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

著    凌 晨

责任编辑 李 瑾

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

本书是一部系统阐述人工智能与大数据融合发展的专业著作。本书从人工智能发展的历史进程出发,解读了深度学习革命的成功与挑战,以及大数据技术体系的核心特征。在数据价值与治理方面,本书构建了完整的数据治理方法论体系,涵盖数据资产管理、价值挖掘、安全与隐私保护等关键环节,并通过典型案例展示了数据治理在企业管理中的实际效果。书中详细介绍了大数据技术在科研项目管理、军事应用、电子政务、金融、工业、生物医药、交通运输等多个领域的深度应用实践。本书系统梳理了人工智能技术方法论的演进历程,从传统的经验范式、结构范式、行为范式到新兴的数据范式、综合或集成范式、类脑范式等。产业智能化转型部分深入探讨了智能制造、智慧城市、智能医疗、智能金融等八大应用场景,分析了人工智能推动商业变革的机遇与挑战。本书还深度关注人工智能与大数据的伦理治理问题,系统分析了各国政府和国际组织的伦理实践,构建了人工智能伦理治理的技术框架。最后,本书展望了人工智能的未来发展,介绍了人工智能核心技术的五大演进趋势,深入分析了智能机器人、通用人工智能、量子计算、脑机接口等前沿技术,以及它们对产业变革的深远影响。

本书理论与实践并重,可为政府决策者、企业管理者、技术人员和研究学者提供把握智能时代发展方向的重要参考。

前  言

我们正站在一个历史性的变革节点上。人工智能与大数据技术的深度融合,正在以前所未有的速度重塑人类社会的方方面面。从日常生活中的智能助手到工业生产中的自动化系统,从医疗诊断中的辅助分析到金融服务中的风险管控,智能技术已经深深嵌入现代社会的运行机制之中。这不仅是一场技术革命,更是一次思维方式、商业模式和社会结构的根本性变革。

回顾人工智能的发展历程,从1956年达特茅斯会议确立人工智能概念至今,我们经历了近七十年的探索与实践。这个过程充满了起伏跌宕:有过20世纪70年代专家系统的兴起,也有过两次“AI寒冬”;有过符号主义和联结主义的激烈争论,也有过统计学习方法的静默发展。然而,正是在这些看似曲折的历程中,人工智能逐渐积累了深厚的理论基础和技术储备,为今天深度学习革命的爆发奠定了坚实基础。

2006年Geoffrey Hinton等人提出深度信念网络,为训练深层神经网络提供了新思路;2012年AlexNet在ImageNet竞赛中取得突破性表现,成为深度学习革命被广泛认可的引爆点,标志着深度学习时代的正式到来。在随后的十余年中,从语音识别到图像处理,从自然语言理解到游戏智能,深度学习技术在各个领域都取得了令人瞩目的成就。特别是近年来生成式人工智能的崛起,以ChatGPT、DeepSeek为代表的大语言模型展现出了接近人类水平的语言理解和生成能力,让我们看到了通用人工智能的曙光。

与此同时,大数据技术的发展为人工智能提供了不可或缺的“燃料”。互联网、物联网、移动设备的普及产生了海量数据,云计算、分布式存储、流式处理等技术的成熟为数据的存储、处理和分析提供了强大的基础设施支撑。数据已经从简单的信息记录演变为企业的核心资产,从被动的信息载体转化为主动的价值创造源泉。如何有效管理、治理和挖掘数据价值,已经成为所有组织面临的重要课题。

然而,技术的快速发展也带来了前所未有的挑战,数据隐私与安全、算法偏见与公平性、人工智能的可解释性、技术垄断与数字鸿沟等问题日益凸显。这些挑战不仅是技术问题,更是社会问题、伦理问题。如何在推动技术发展的同时确保其安全、公平与可持续,已经成为全球共同关注的重要议题。各国政府、国际组织、企业和学术机构都在积极探索人工智能治理的有效路径。

正是在这样的背景下,本书应运而生。本书旨在系统地梳理人工智能与大数据技术的发展脉络,深入分析其技术原理和应用实践,客观评估其带来的机遇与挑战,并为读者提供把握智能时代发展方向的重要参考。

本书努力在技术深度和可读性之间找到平衡,既要确保内容的专业性和前沿性,又要让不同背景的读者都能从中获得有价值的启发。

在结构安排上,本书从人工智能的历史进程出发,逐步深入到技术细节、应用实践、方法论体系、产业转型、伦理及治理,最终展望未来发展。希望读者通过本书,不仅能够了解人工智能与大数据“是什么”,更能理解其“为什么”和“怎么做”。对于政府决策者,本书提供了制定相关政策的重要参考;对于企业管理者,本书展示了推动企业数字化转型的实践路径;对于技术人员,本书梳理了前沿技术的发展脉络;对于研究学者,本书提供了跨领域思考的新视角。

智能浪潮已经到来,没有人能够置身事外。我们每个人不仅是这场变革的见证者、参与者,更应该成为其积极的推动者和理性的思考者。希望本书能够为读者提供一份有价值的智能时代“导航图”,帮助大家在这个充满机遇与挑战的时代找到自己的方向,作出正确的选择。技术改变世界,智慧引领未来。让我们一起拥抱这个伟大的智能时代!

第1章 人工智能与大数据技术概述

达特茅斯学院的一次学术聚会开启了人工智能研究的历史征程。从那时起,人工智能经历了从符号主义的理性探索到联结主义的智能模拟、从专家系统的知识工程到深度学习的数据驱动,几经起落,终于在 21 世纪迎来前所未有的飞跃。

与此同时,信息技术的飞速发展催生了大数据时代。当人、机、物三元世界深度融合,数据量呈指数级增长时,传统小样本统计方法已无法应对海量、多样、高速变化的数据挑战。大数据不仅改变了信息获取与处理的方式,更重塑了科学研究、商业决策和社会治理的基本范式。

人工智能与大数据技术的融合发展正在推动一场深刻的技术革命。从GPU并行计算到专用AI芯片、从开源框架到云端平台、从传统机器学习到大语言模型,技术体系的每一次迭代都标志着智能化程度的显著提升。特别是近年来Transformer架构的提出、BERT 和 GPT 系列模型的突破,以及ChatGPT、DeepSeek等的爆发式应用,让我们看到了通用人工智能的曙光。这场革命不仅重新定义了计算的边界,更深刻影响着经济结构、社会治理和科学发现的模式,预示着智能化新时代的来临。

本章将系统回顾人工智能的发展历程,深入分析深度学习的成功与挑战,并全面阐述大数据技术的核心特征与应用价值。

1.1 人工智能发展的历史进程

1956年的夏天,在美国新罕布什尔州达特茅斯学院的校园里,一群年轻的研究者聚集在一起,展开了一场持续两个月的头脑风暴。这次后来被称为“达特茅斯会议”的聚会,正式开启了人工智能的研究征程。约翰·麦卡锡、马文·明斯基、克劳德·香农等人在会议期间首次提出了“人工智能”这一术语,并描绘了一幅令人振奋的未来图景:机器将能够模仿人类的学习和思考过程,解决复杂的问题。

人工智能概念正式提出之后,经过了几个主要时期,大致可以分为形成期、平稳发展期和飞跃期。

1.1.1 形成期

人工智能的形成期大约从1956年开始,到1970年前后结束。1956年8月达特茅斯会议之后,相继出现了一批显著的成果,如机器定理证明、跳棋程序、通用问题求解程序、LISP表处理语言等。

符号主义成为早期人工智能研究的主导范式。符号主义研究者们相信,人类的思维过程本质上是对符号的操作,因此只要建立起足够完备的符号系统和推理规则,就能实现人工智能。在这种思想的指导下,人们展开了一系列开创性的工作。

纽厄尔和西蒙开发了“逻辑理论家”程序,该程序模拟了人们用数理逻辑证明定理时的思维规律。该程序还证明了怀特海和罗素的《数学原理》一书的第2章中的38条定理,后来经过改进,又于1963年证明了该章中的全部52条定理。这一工作受到了人们高度的评价,被认为是计算机模拟人的高级思维活动的一个重大成果,是人工智能的真正开端。他们宣布:“这个圣诞节我们发明了一台有思维的机器”。

在纽厄尔和西蒙开展研究的同时,最早研究人工智能的华人科学家之一、洛克菲勒大学教授王浩在“自动定理证明”上获得了瞩目的成就。1959年,王浩用他首创的“王氏算法”,在一台速度不高的IBM 704机器上再次向《数学原理》发起挑战。不到9分钟,王浩的机器把这本被视为数学史上里程碑的著作中全部(超过350条)的定理统统证明了一遍。

塞缪尔研制了跳棋程序,该程序具有学习功能,能够从棋谱中学习,也能在实践中总结经验,提高棋艺。它在1959年打败了塞缪尔本人,又在1962年打败了美国一个州的跳棋冠军。这是模拟人类学习过程的一次卓有成效的探索,是人工智能的一个重大突破。

1961年,第一台工业机器人Unimate开始在美国新泽西州通用汽车工厂的生产线上工作。1965年鲁宾孙提出的归结法被认为是一个重大的突破,掀起了定理证明研究的又一次高潮。同一年,哲学家德雷福斯为兰德公司撰写了一篇关于人工智能的极具批判性的报告,并发表了题为《炼金术和人工智能》的文章,他后来在其著作《计算机不能做什么》中系统阐述了观点。德雷福斯对构建人工智能的批评动摇了推理规则可以给机器“智能”的想法。

20世纪60年代初,继承自控制论的联结主义方法由于罗森布拉特提出的感知机产生了一股热潮。这一时期也是人工智能发展的第一个高峰期。在当时,有很多学者认为:“20年内,机器将能完成人能做到的一切。”

然而,初期的乐观很快就遭遇了现实的挑战。研究者们发现,看似简单的任务背后往往隐藏着难以预料的复杂性。例如,机器视觉研究者马文·明斯基在1966年曾给一个本科生布置了一项暑期作业:让计算机连接摄像头,描述它所看到的场景。这个看似简单的任务直到50年后才得以解决,它涉及视觉感知、知识表示、常识推理等多个层面的深层问题。

1969年召开了第一届国际人工智能联合会议(International Joint Conference on Artificial Intelligence,IJCAI),这次会议是人工智能发展史上的一个重要里程碑,标志着人工智能这门新兴学科已经得到世界的肯定和公认。

20世纪60年代末,明斯基通过对单层感知机的分析,和西摩尔·派伯特一起证明了神经网络不能实现异或操作,所以认为它们是没有未来的。由此,人工神经网络被抛弃,相关项目的资金资助被停止。由于人工神经网络研究受到打击,到了20世纪70年代初,人工智能研究进入了第一次低潮期。这一时期被称为“人工智能的第一个冬天”。

1.1.2 平稳发展期

人工智能的这个“冬天”其实也孕育着新的希望。研究者们开始认识到,要实现真正的人工智能,需要更加务实的方法。专家系统的出现标志着这种转变。这些系统不再追求通用的人工智能,而是专注于特定领域的问题求解。1972年斯坦福大学开发的MYCIN系统是一个典型的例子。该系统能够诊断血液感染疾病并推荐抗生素治疗方案,其诊断准确率甚至超过了一些资深医生。专家系统的成功,进一步巩固了符号主义学派在人工智能领域的地位,这一地位大致延续到 20世纪末。

1.多重困境导致人工智能发展的第一次低潮

这一时期是人工智能发展的低潮时期。科研人员在人工智能的研究中对项目难度预估不足,这不仅导致与美国国防部高级研究计划署的合作计划失败,还让大家对人工智能的前景蒙上了一层阴影。

当时,人工智能面临的技术瓶颈主要体现在三个方面:第一,计算机计算能力不足,导致早期很多程序无法实际应用;第二,问题的复杂性,早期人工智能程序主要解决特定的问题,因为特定的问题复杂性低,一旦问题复杂性提升,计算机程序和硬件就不堪重负;第三,数据不足,当时没有大量数据来支撑人工神经网络程序学习,导致机器无法通过数据实现智能化。 

尽管人工智能处于低潮,但这一时期仍不乏重要的理论探索和技术储备,为未来的复苏埋下了种子。

1970年,《人工智能》国际杂志创刊,该杂志对人工智能国际学术活动和交流、人工智能研究和发展起到了积极的促进作用。

1974年,哈佛大学的博士生韦伯斯初步阐述了采用反向传播算法来训练一般的人工神经网络,但当时没有引起学术界的重视。

1975年,明斯基首创框架理论,该理论利用多个有一定关联的框架组成框架系统,进而完整、确切地把知识表示出来。

1976年,格罗斯伯格创建了关于自组织的新理论——自适应共振理论,为新型神经网络的发展奠定了基础。

1977年,费根鲍姆在第五届国际人工智能联合会议上提出“知识工程”概念。知识工程强调知识在问题求解中的作用,其主要应用是专家系统。专家系统使人工智能由理论化走向实际化,从一般化转为专业化,是人工智能的重要转折点。专家系统在当时取得的成功,在很长一段时间内使人们认为知识是智能的基础,对人工智能的研究必须以知识为中心来进行,直到2000年后大数据和深度学习的出现,才提供了一条不同于知识工程的实现智能的新路径。

2.专家系统促进了人工智能研究的相对繁荣

专家系统的成功推动了20世纪80年代初人工智能研究的复苏。这一时期人工智能的发展使得机器在特定领域的诊断、规划和决策能力等有了较大的提升。

从1980年到1987年,很多公司采用了专家系统人工智能程序。与此同时,日本政府启动了一项关于人工智能的大规模资助计划,并启动了第五代计算机系统计划。

然而,专家系统的局限性很快就显现了出来。首先是知识获取的瓶颈,将专家的知识转化为计算机可以处理的规则是一项极其耗时的工作。其次,这些系统缺乏学习能力,无法适应新的情况。更重要的是,它们依赖的规则库越来越庞大,维护成本急剧上升。到了20世纪80年代末,许多公司发现专家系统的维护成本超过了它们所带来的收益,这导致了人工智能投资的锐减和第二次发展低潮的到来。

3.第二次人工智能发展低潮中的潜流

然而,由专家系统建设者建造的崇高圣殿没有实现承诺,更新和重新编制专家系统除了高昂的维护成本之外,还过于复杂,且性能非常有限。人们发现日本人的“第五代工程”(智能计算机)并没有实现。与早期的人工智能一样,人们的期望比真正可能实现的要高得多。提出的目标没有实现,导致原本充满活力的市场大幅崩溃,对人工智能的投资下降,从而引发了第二次人工智能发展低潮。

但是,这一时期,人工神经网络、机器学习等很多方法仍在不断发展。

1)第二代人工神经网络

20世纪八九十年代是一个非凡的创造性时期,联结主义的关键技术在这一时期得到承接发展。人工神经网络理论和算法相比以前都有了巨大进步。

即使在人工神经网络发展的低潮时期,仍有少数学者坚持人工神经网络的研究。

20世纪80年代初,基于传统的感知机结构,辛顿等研究者开始探索采用多个隐含层的深度结构来克服单层感知机的局限,为后来的深度学习奠定了基础。多层感知机是其中最具代表性的,而且多层感知机也是最早的深度学习人工神经网络模型。后来,辛顿、贝尔实验室研究员杨立昆等人将BP算法用于训练具有深度结构的神经网络。

1980年,日本学者福岛邦彦完善了卷积神经网络的原始模型——神经认知机,该模型部分实现了卷积神经网络中卷积层和池化层的功能,是卷积神经网络中卷积和池化思想的直接先驱。

1982年,美国加州理工学院物理学家霍普菲尔德提出了以其名字命名的“霍普菲尔德网格”模型,成为人工神经网络新一轮的复兴的催化剂。他将物理学的相关思想(动力学)引入神经网络的构造中,提出了“计算能量”

概念,给出了网络稳定性判断标准。这种人工神经网络提供了模拟人类记忆

的模型,在机器学习、联想记忆、模式识别、优化计算等方面有着广泛应用。

1985 年,辛顿和谢泽诺斯基发明了玻尔兹曼机(Boltzmann Machine,BM),其原理起源于统计物理学,它是一种基于能量函数的建模方法,是建立在离散霍普菲尔德网络基础上的一种随机递归神经网络。辛顿和霍普菲尔德也因此获得2024年诺贝尔物理学奖。

1985年,现代深度学习创始人之一、加拿大多伦多大学教授辛顿和安德森在美国加州组织召开了一个会议,由生物学家、物理学家和计算机科学家组成跨学科研究小组,提出人工神经网络发展的新思路。

人工神经网络的真正突破发生在 1986 年,鲁梅尔哈特和麦克利兰等人提出并行分布式处理(Parallel Distributed Processing,PDP),重新提出反向传播算法。

1987年,贝尔实验室成功在霍普菲尔德神经网络的基础上研制出了神经网络芯片。这一年,韦贝尔等提出了时间延迟网络,这是一种应用于语音识别问题的具有卷积思想的神经网络结构。同年,第一届国际神经网络会议(ICNN)在美国加州圣迭戈召开,成立了国际神经网络学会,标志着神经网络进入快速发展期。

此时,人工智能的研究悄然发生了转向。卡内基·梅隆大学的实验室里进行着一项看似疯狂的实验:让人工神经网络通过学习来实现自动驾驶。这个项目虽然只是一次初步尝试,却预示着人工智能研究即将迎来重大转变:从基于规则的方法转向基于数据的学习。

同一时期,邮政系统面临着一个实际问题:如何自动识别手写的邮政编码。1989年,AT&T贝尔实验室的杨立昆对邮政编码进行了识别,他通过使用美国邮政服务数据库,设法利用多层人工神经网络LeNet来识别邮寄包裹上的手写体邮政编码。LeNet的成功不仅解决了实际问题,更为后来深度学习的发展奠定了重要基础。

SVM(Support Vector Machine,支持向量机)由于理论完备且表现强劲而流行,而训练深度卷积神经网络则面临计算和数据量的瓶颈,因而其在当时未成为主流。辛顿、杨立昆和本吉奥以及其他新联结主义技术研究者们,形成了一个孤立却团结的小团体。

1992年德国慕尼黑工业大学的施米德胡伯团队提出的长短时记忆网络是一种革命性的循环神经网络,为语音识别和自然语言翻译提供了重要的模型。

20世纪90年代初,人工神经网络获得商业上的成功,它们被应用于光字符识别和语音识别软件。这一时期,科学家已在研制神经网络计算机,并把希望寄托于光芯片和生物芯片上。

2)具身智能开端

20世纪80年代后期,一些研究者根据机器人学的成就提出了一种全新的人工智能方案。他们相信,为了获得真正的智能,机器必须具有躯体——机器需要感知、移动,与这个世界交互。他们认为这些感知运动技能对于常识推理等高层次技能是至关重要的,而抽象推理不过是人类最不重要也最无趣的技能。他们号召“自底向上”地创造智能,这一主张复兴了从20世纪60年代开始就沉寂下来的控制论。

计算神经科学领域的一位先驱、在理论神经科学上造诣深厚的马尔,于20世纪70年代来到麻省理工学院并开创了他的视觉研究工作。他提出了著名的计算机视觉理论,认为实现人工智能需要自顶向下地理解视觉等信息系统,这一框架与当时主流的依赖直觉的符号化方法形成了鲜明的对比。

来自机器人学这一相关研究领域的布鲁克斯提出了一种全新的人工智能方案。在发表于1990年的论文《大象不玩象棋》(“Elephants Don’t Play Chess”)中,机器人研究者布鲁克斯反对传统的“物理符号系统假设”,认为符号是可有可无的,因为“这个世界就是描述它自己最好的模型”。20世纪八九十年代也有许多认知科学家反对基于符号处理的智能模型,认为身体是推理的必要条件,这一理论被称为“具身的心智/理性/ 认知(Embodied Mind/Reason/Cognition)”,也启发了如今研究人员从大脑、身体、环境相互作用的角度研究所谓的“具身人工智能”(简称具身智能)这一新方向。

1.1.3 飞跃期

1.智能体兴起

20世纪90年代,随着计算机网络、计算机通信等技术的发展,关于智能体(Agent)的研究成为人工智能领域的热点。1993年,肖哈姆提出面向智能体的程序设计。1995年,罗素和诺维格出版了《人工智能》一书,提出“将人工智能定义为对从环境中接收感知信息并执行行动的智能体的研究”。1997年5月11日,IBM的计算机系统“深蓝”战胜了国际象棋世界冠军卡斯帕罗夫,这是人工智能发展史上的一个重要里程碑。

2.机器学习大发展

从20世纪90年代中期起,机器学习的发展变得十分迅猛:人们开始以数据为驱动提出预测模型算法。从本质上讲,这种方法的理论基础是统计学与概率论,而不是神经科学或心理学。它们旨在执行特定的任务,而不是赋予机器通用的智能。

这一时期,新的数据科学的统计方法借用并发展了贝叶斯方法、决策树、随机森林等机器学习技术,在一些特定问题方面表现不俗。研究者们从概率和模糊逻辑等多个角度将统计学习等领域与人工智能联系起来,以处理决策的不确定性,这为人工智能带来了新的成功应用,超越了专家系统。这些新推理技术更适合应对智能体状态和感知的不确定性,并在从家用电器到工厂设备智能控制方面取得良好效果。

珀尔早在1988年发表的“Probabilistic Reasoning in Intelligent Systems”将概率论和决策理论引入人工智能。在此基础上,这一时期发展起来的机器学习工具包括贝叶斯网络、隐马尔可夫模型等概率图模型。针对人工神经网络和进化算法等“计算智能”范式的精确数学描述也在探索之中。基于统计学习理论,支持向量机、集成学习、稀疏学习等机器学习方法开始成为主流。

3.联结主义重生:深度学习崛起

2006年,多伦多大学的辛顿和他的学生在《科学》杂志上发表了一篇划时代的论文“A Fast Learning Algorithm for Deep Belief Nets”,提出了一种深度学习模型——深度信念网络,并提出了深度学习的概念,给出了一种逐层预训练策略,巧妙地解决了深层网络训练困难的问题,打破了长期以来深度网络难以训练的僵局。这项工作被认为是深度学习复兴的起点。

2006年后,本吉奥等研究者成功将类似的逐层训练思想应用于堆叠自动编码器,并在2009年发表的论文中系统展示了其强大的性能。该模型成为深度学习的另一核心架构。

2010年,斯坦福大学教授李飞飞创建了一个名为ImageNet的大型数据库,其中包含数百万个带标签的图像,为深度学习技术性能测试和提升提供了一个舞台。

从2011年开始,谷歌研究院和微软研究院的研究人员先后将深度学习应用于语音识别,使识别错误率下降了20%~30%。

2012年是人工智能发展史上的重要转折点。在这一年的ImageNet图像识别竞赛中,辛顿及其学生的团队开发的AlexNet以压倒性优势获得冠军,将Top-5分类错误率从上一届的25.8%降低到15.3%。AlexNet之后,深度学习的发展进入快车道。在视觉领域,VGGNet、GoogLeNet、ResNet等网络结构不断刷新纪录。特别是ResNet提出的残差连接机制,解决了超深网络训练的难题,使得构建千层级别的神经网络成为可能。

2012年6月,谷歌首席架构师迪恩和斯坦福大学教授吴恩达等主导著名的Google Brain项目,采用1.6万个CPU核心来构建一个深层神经网络,并将其应用于图像和语音的识别,最终大获成功。

在自然语言处理领域,谷歌于2013年提出的word2vec词向量模型为文本的数值化处理提供了新思路。

2016年,谷歌旗下DeepMind公司的AlphaGo围棋程序战胜人类冠军棋手,该程序采用了包括人工神经网络和搜索技术在内的多种人工智能技术。

2017年,谷歌公司的研究者们发表了“Attention is All You Need”论文,提出了Transformer架构。这个架构彻底改变了序列数据处理的范式。传统的循环神经网络需要按顺序处理输入,而Transformer架构通过自注意力机制实现了并行计算,既提高了效率,又能捕捉更长距离的依赖关系。Transformer架构的影响远超预期,它不仅推动了BERT、GPT等大语言模型的发展,还被证明在计算机视觉、语音处理等领域同样有效。

2018年,谷歌公司发布的基于Transformer架构的BERT模型,在多项自然语言处理任务上取得突破性进展。后来,OpenAI发布的GPT系列模型展现出更加惊人的能力。

2019年1月24日至25日,DeepMind公司开发的AlphaStar在《星际争霸2》游戏中以10胜1负的战绩战胜人类冠军团队。

自2019年以来,Transformer架构逐渐成为人工智能任务的主流技术,广泛应用于自然语言处理、计算机视觉和多模态任务。自监督学习(Self- Supervised Learning)的兴起也是一大亮点,它允许我们在大规模未标注数据上对模型进行预训练,随后通过少量标注数据对模型进行微调,这种方法显著提高了模型的性能和通用性。

2020年11月,DeepMind继AlphaStar之后的另一突破性成果是AlphaFold2系统。AlphaFold2 在第 14 届蛋白质结构预测关键评估(Critical Assessment of protein Structure Prediction,CASP)竞赛中表现出色,大幅提高了蛋白质折叠预测的准确性。AlphaFold使得科学家能够更快、更精确地预测蛋白质的三维结构,解决了生命科学领域的一个长期难题,推动生物医学研究取得重大进展。

OpenAI在2020年发布的GPT-3(Generative Pre-trained Transformer-3)是当时参数规模最大且最先进的自然语言处理模型。它拥有1750亿参数,具备令人惊叹的语言理解和生成能力,能够完成从语言翻译、问答到代码生成等多项复杂任务。GPT-3的发布掀起了生成式人工智能模型在自然语言处理领域的研究热潮,推动了智能对话、内容生成和自动化文档处理的应用。

OpenAI在2021年年初发布了DALL·E和CLIP,它们开创性地将生成式人工智能模型扩展到图像生成和理解领域。DALL·E能够通过给定的文本描述生成相应的图像。CLIP则能够根据图像和文本之间的相关性,精确地识别图像内容。这两项技术推动了人工智能在艺术创作、图像生成和视觉理解中的应用。

2022年,Stable Diffusion基于扩散模型(Diffusion Model),能够生成高质量的图像,并应用于艺术创作、设计和数字内容生成领域。Midjourney作为一种创新的文本到图像生成平台,提供了独特的用户体验,广泛应用于数字艺术创作。2022年也被称为生成式人工智能(Generative AI,GAI)或人工智能生成内容(Artificial Intelligence Generated Content,AIGC)进入大众化应用的元年。

OpenAI在2022年年底发布了ChatGPT,这是一款基于GPT-3.5架构,并经过人类反馈强化学习微调的对话模型,之后又于 2023 年推出了基于GPT-4的版本。ChatGPT展现出强大的对话生成能力,能够进行自然流畅的交互,回答复杂问题并生成各类文本内容。ChatGPT一经推出便迅速引发全球关注,现已广泛应用于教育、商业、编程辅助等多个领域。

2023年,Meta发布了Llama(Large Language Model Meta),它是针对更高效语言模型的一个重要探索。与此同时,Google、Anthropic等公司也在大模型竞赛中不断推进。Google的研究者们进行了一项雄心勃勃的实验。他们的PaLM2模型用较少的参数在多个任务上展现出接近甚至超越人类的能力。特别是在推理任务上,PaLM模型能够解决复杂的数学问题,理解因果关系,甚至能够解释笑话。Anthropic公司于2024年发布的Claude 3系列模型用更少的参数达到了与GPT-4相当的性能。

从2024年开始,各种大语言模型、AIGC技术如雨后春笋般涌现,尤其是杭州深度求索人工智能基础技术研究有限公司推出的DeepSeek系列突破了已有的大语言模型的训练模式,极大地加速了大语言模型与实际应用场景的结合。这些成果让研究者们开始思考:我们是否正在接近通用人工智能的门槛?

这一时期,人工智能模型不仅追求参数规模的增加,还重视推理效率、可解释性和环境影响。

1.2 深度学习的成功与挑战

深度学习的成功带来了应用范式的根本转变。传统的机器学习方法往往需要专家精心设计特征,而深度学习模型能够直接从原始数据中学习特征表示。这种端到端的学习方式大大简化了应用开发流程,使得人工智能技术更容易落地。例如,在语音识别领域,传统方法需要进行复杂的声学特征提取,而现代的端到端语音识别系统可以直接从原始波形信号学习。

深度学习的影响已经深入各个领域。在医疗领域,深度学习模型改变了疾病诊断的方式。2020年,Nature上发表的一项基于深度学习的乳腺癌筛查系统的研究显示,它的诊断准确率超过了经验丰富的放射科医生。这个系统不是要取代医生,而是作为“第二双眼睛”,帮助医生提高诊断的准确性。

在气候研究领域,深度学习也发挥着越来越重要的作用。DeepMind的研究者们开发的人工智能系统能够准确预测短临降雨情况,其准确率超过了传统的数值模拟方法。更重要的是,这个系统的计算效率要高得多,这对于气候变化研究来说具有重要意义。

在科学发现领域,深度学习正在开创新的范式。2020年,DeepMind的AlphaFold2在蛋白质结构预测问题上取得突破性进展,这被Science杂志评选为 2021 年度最重要的科学突破。这个成就不仅展示了人工智能在科学研究中的潜力,也暗示了未来科学发现可能会越来越依赖于人工智能系统的协助。

然而,这些成就的背后也隐藏着深刻的问题。大语言模型面临的几个关键挑战如下:可靠性问题,这些模型有时会产生“幻觉”,即生成看似合理但实际上错误的内容;偏见问题,这些模型可能会继承训练数据中的社会偏见;解释性问题,我们仍然不完全理解这些模型是如何工作的。

这些问题推动了新的研究方向。在Berkeley的实验室里,研究者们正在探索“可解释人工智能”的方法,试图理解深度神经网络的决策过程。MIT的团队则在研究如何将可靠的因果推理能力引入深度学习模型。这些工作可能会为下一代人工智能系统的发展指明方向。

对于深度学习而言,计算资源也是一个大问题。训练大语言模型需要消耗大量能源,这与环境保护的目标有所冲突。据统计,训练一个GPT-3规模的模型所消耗的电量相当于120户美国家庭一年的用电量。

此外,还存在数据质量的问题。随着模型规模的增大,获取高质量的训练数据变得越来越困难。互联网上的公开数据中充满噪声和偏见,如何确保模型学习到正确的知识成为一个关键问题。

面对这些挑战,研究界在多个方向展开探索。在耶鲁大学的实验室里,研究者们正在研究“小而精”的模型架构。他们的理念是,通过更好的算法设计和训练方法,可以用更小的模型实现相同或更好的性能。这个方向得到了工业界的积极响应。

另一个重要的研究方向是多模态学习。2024年,Google Research发布了Flamingo模型,该模型能够同时理解图像和文本,并能进行自然的跨模态对话。这个突破意味深远:真实世界的信息是多模态的,要实现真正的智能,人工智能系统必须能够像人类一样综合处理不同形式的信息。

在纽约大学,杨立昆长期推动自监督学习的研究。他认为,现有的深度学习系统过分依赖监督学习,这与人类和动物的学习方式有很大差异。他提出的世界模型框架试图让人工智能系统能够通过观察和交互来自主学习,这可能是迈向更高级人工智能的关键一步。

与此同时,工业界的实践也在推动深度学习的革新。特斯拉的自动驾驶人工智能系统能够处理复杂的实时环境感知。这个系统完全基于视觉输入,不依赖激光雷达,这种设计选择大大推动了视觉人工智能的发展。特斯拉的工程师们开发了新的训练方法和网络架构,使得系统能够在边缘设备上实时运行复杂的神经网络。

北京智源人工智能研究院和清华大学的研究团队于2021年开发了悟道2.0大模型,这是当时中国参数规模最大的预训练模型之一,参数规模达到1.75万亿,支持中英双语并具备多模态能力。腾讯AI Lab的研究人员在多智能体强化学习领域取得了显著进展,他们开发的“绝悟”多智能体强化学习系统在《王者荣耀》的5V5对战中达到了顶尖职业水平。中国科学院自动化研究所开发的深度学习肺部CT影像分析系统在新型冠状病毒感染诊断中发挥了重要作用,大大提高了诊断速度和准确率。

1.3 人工智能技术体系的发展

2015年,在特斯拉的超级计算机实验室里,工程师们进行了一项雄心勃勃的实验。他们试图利用数千块NVIDIA GPU构建一个专用的神经网络训练集群,用于自动驾驶系统的开发。这个项目揭示了现代人工智能技术体系的一个关键特征:算力革命正在重塑人工智能的发展路径。

传统的CPU(Central Processing Unit,中央处理器)难以满足深度学习日益增长的计算需求。GPU(Graphics Processing Unit,图形处理器)的并行计算能力为训练神经网络提供了理想的硬件平台。NVIDIA公司敏锐地把握住了这个机遇,推出了专门针对深度学习优化的GPU产品线。从最初的CUDA框架到后来的Tesla系列产品,NVIDIA实际上重新定义了人工智能计算的基础设施。

然而,通用GPU并非深度学习加速的终点。TPU(Tensor Processing Unit,张量处理器)是Google专门为深度学习设计的一种芯片,其性能和能效比都远超通用GPU。TPU的成功启发了整个人工智能行业:人工智能计算可能需要全新的处理器架构。很快,从英特尔到亚马逊,从华为到阿里巴巴,各大科技公司纷纷投入人工智能芯片的研发。

硬件的进步催生了软件生态的繁荣。2015年,Google开源了TensorFlow框架,为深度学习的普及带来重大转机。在此之前,深度学习工具往往是学术实验室的内部产品,使用门槛较高。TensorFlow的出现改变了这一状况。它提供了直观的编程接口,支持分布式训练,能够自动进行性能优化。更重要的是,它构建了一个开放的生态系统,允许开发者自由分享模型和经验。

Facebook(现改名为Meta)也不甘落后,推出了PyTorch框架。相比TensorFlow的静态图设计,PyTorch采用动态计算图,提供了更灵活的开发体验。这种设计特别适合研究人员进行快速实验。有趣的是,PyTorch的成功最终也影响了TensorFlow的发展方向。在2019年发布的TensorFlow 2.0中,Google显著简化了API设计,使其更接近PyTorch的使用方式。

云计算领域也发生了重大变革。2016年,亚马逊云科技(AWS)推出了首个云端机器学习平台SageMaker。这个平台让中小企业也能够负担得起人工智能开发的成本。用户不需要购买昂贵的硬件,就能在云端训练和部署机器学习模型。Microsoft Azure和Google Cloud Platform很快跟进,推出了类似的服务。云人工智能平台的竞争,大大降低了人工智能技术的使用门槛。

2018年,一个意想不到的现象引起业界的关注:人工智能系统的训练成本开始呈指数级增长。OpenAI的研究人员发现,从AlexNet到AlphaGo Zero,人工智能系统对算力的需求每3.4个月就翻一番。这个增长速度远超摩尔定律。

在这些技术进步的背后,是人工智能基础设施的整体升级。现代人工智能系统越来越依赖于完整的技术栈,从底层的专用硬件,到中间层的系统软件,再到上层的开发框架和工具,每一层都在不断演进。这种复杂的技术体系,使得开发和部署人工智能系统变成了一项系统工程。

以自动驾驶为例,人工智能系统需要处理来自多个摄像头和传感器的实时数据流,进行环境感知和决策控制。这要求整个技术栈都必须经过优化:使用专用的人工智能芯片进行视觉处理,采用实时操作系统保证响应速度,运用复杂的软件架构保证系统可靠性。

一个典型案例是OpenAI的GPT系列模型。训练这样的大语言模型不仅需要强大的计算集群,还需要复杂的分布式训练框架,以及专门的模型并行化技术。微软为OpenAI提供的超级计算机集群,就是专门为大规模人工智能模型训练而优化的。

随着人工智能技术向更多领域扩展,人工智能技术体系的复杂性还在增加。例如,在边缘计算场景下,人工智能系统需要在资源受限的设备上运行。这就需要运用模型压缩、量化计算等特殊技术。

DeepSeek通过混合专家模型(Mixture of Experts,MoE)的规模化应用(专家数量达 256 个)、算法优化与工程创新,仅需激活少量参数就能获得较高的模型性能,训练成本大幅降低。DeepSeek模型性能追平OpenAI的GPT-o1,推理定价也极具竞争力,颠覆了“大投入=高回报”的传统资本逻辑。

2025年3月24日,国内AI领军企业杭州深度求索人工智能基础技术研究有限公司悄然上线新一代大语言模型DeepSeek-V3的小版本更新(V3- 0324)。此次“小版本更新”的模型,融合多头潜注意力机制与多标记预测技术,聚焦于通过后训练方法的改进来提升实用性,在代码生成与数学推理等任务上表现更为出色。从编程能力直逼Claude 3.7到数学推理能力超越GPT-4.5,从生成速度翻倍到中文创作质量跃升,DeepSeek大模型的此次升级堪称“小版本、大进化”。

面向未来,人工智能技术体系的发展呈现出几个清晰的趋势。

首先是智能化基础设施的崛起。正如英特尔首席架构师Jim Keller所说:“未来的计算机将不再是通用的信息处理机器,而是具有专门化、智能化特征的系统。”从芯片到数据中心,每个层面都将融入人工智能能力。

其次是开发范式的转变。传统的软件工程方法论在人工智能时代可能不再适用,我们需要新的方法论来应对人工智能系统的不确定性、可解释性和安全性挑战。

再次是生态系统的重构。如同互联网改变了信息传播方式,人工智能正在改变知识生产和使用的方式。我们正在见证一个新的计算范式的诞生,这个范式将重新定义人类与机器的关系。

最后,也是最具挑战性的,是可持续发展问题。“我们不能无限制地增加计算资源,”谷歌人工智能负责人Jeff Dean在一次演讲中强调,“未来的突破可能来自算法创新,而不是简单地扩大规模。”因此,DeepSeek的出现已经清晰地反映了未来的趋势。

1.4 大数据技术

1.4.1 数据的产生与增长

随着互联网技术的发展及移动互联网、物联网等技术的广泛应用,人、机、物三元世界进入深度融合时代,网络信息空间反映了人类社会与物理世界的复杂联系,数据与人类活动密切相关,其规模以指数级增长,且呈高度复杂化趋势。换句话说,我们进入了一个数据爆炸的大数据时代。

这一轮数据增长的一个推动力是信息传感设备的大量出现,以及快速发展的物联网技术及其应用,这使得大量物理世界的状态被获取并存储下来。随着我国城市化的发展,城市中部署的大量交通、治安摄像头实现了联网,由此汇聚的数据量将非常惊人。

数据增长的另一个重要的推动力量来自快速发展的互联网和移动互联网。互联网上汇聚了数十亿网民,用户产生的数据量很大;移动互联网使用户更紧密地融入网络世界。

据国际数据公司(International Data Corporation,IDC)统计和预测,人类产生并存储下来的数据早在2009年就已达到0.8ZB,2013年已突破4.4ZB。这一数据总量仍在以更快的速度增长。2024年全球生成159.2ZB的数据,到2028年这一数字预计将增加一倍以上,达到393.8ZB,复合年增长率约25%。在这些数据的基础上,当研究一个现象或问题时,就有了一个基于数据形成的对现实世界的理解。与传统的统计学类似,通常需要通过精心设计的传感器或各类移动互联网应用去对现实世界进行抽样。但与传统统计学不同的是,人们有可能通过获得更接近于全样的抽样,将客观世界的实体和现象在计算机能够处理的信息世界中形成数字映像。例如,在智能制造系统中,有数字孪生(Digital Twin)的概念,美国国防部最早提出在数字空间中建立真实飞机的模型,并通过传感器实现与飞机真实状态的完全同步。这样,飞机每次起飞后,就可以基于数字模型的现有情况和过往载荷,及时分析评估飞机是否需要维修、能否承载下次任务载荷等。因此,如何利用已经获得和汇聚的数据,以及如何精巧地设计新的数据获取方式,构建一个能够精确反映客观世界的实体、现象和行为特征的数字映像,并在这一数字映像之上,对客观世界的实体、现象和行为特征进行推演,是许多实际应用领域数据增长的内生动力。

然而,随着数据总量的快速增长,以及越来越多的数据分析任务的出现,我们在大数据的获取、存储、传输、处理等方面都面临新的技术挑战,如果数据不能存储下来并及时分析处理,大数据就无法产生具有时效性的价值。因此,拥有真实数据以及对数据的实时处理能力,才能够从大量无序的数据中获取价值,这成为大数据时代的核心竞争力。

1.4.2 大数据的概念和特征

大数据作为一个现象引起广泛的关注,但直到今天,也没有形成一个公认的定义,比较被人们接受的说法如下。

维基百科将大数据定义为规模庞大、结构复杂、难以通过常用的软件工具和技术在可容忍的时间内获取、管理和处理的数据集合。

美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)认为大数据由具有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Velocity)和变化多样(Variability),且需要可扩展的体系结构来有效存储、处理和分析的广泛的数据集构成。

IBM在大数据概念提出的早期,也对大数据给出了一个“4V”特征的定义,与上述NIST的表述略有不同,强调了大数据的数量(Volume)、多样性(Variety)、速度(Velocity)和真实性(Veracity)等方面,后来又将数据价值(Value)增补为第五个维度,成为大数据的“5V”特征。

麦肯锡全球研究院(McKinsey Global Institute,MGI)给出的大数据定义则综合了“现有技术无法处理”和“数据特征”定义,认为大数据是指大小超过传统数据库软件工具收集、存储、管理和分析能力的数据集。这一定义是站在传统数据库的处理能力的基础上看待大数据的。

总结上述定义,目前通常认为大数据具有“4V”特征,即规模庞大(Volume)、种类繁多(Variety)、变化频繁(Velocity)和价值巨大但价值密度低(Value)。

(1)规模庞大:指数据集相对于现有的计算和存储能力而言规模庞大。在大数据刚刚提出的时候,普遍认为PB级的数据就可以称为“大数据”,但这并不绝对。一方面,随着存储和计算技术的进步,以及互联网上用户生成内容和大量传感器实时获取数据的增加,这一判断依据也在变化;另一方面,有些数据集虽没有达到PB级,但在其他特征方面具有很强的大数据集特点。数据量大到一定程度,必然对数据的获取、传输、存储、处理、分析等带来挑战。

(2)种类繁多:指在大数据面对的应用场景中,数据种类多,这一方面体现在面向一类场景的大数据集可能同时覆盖结构化、非结构化、半结构化的数据,另一方面也体现在同类数据中的结构模式复杂多样。例如,一个处理城市交通数据的应用,覆盖的数据类型就可能包含结构化的车辆注册数据、驾驶人信息、城市道路信息等,还包含半结构化的各类文档数据和非结构化的交通路口摄像头数据等。数据类型多样往往导致数据的异构性,进而加大数据处理的复杂性,对数据处理能力提出了更高的要求。

(3)变化频繁:指数据所刻画的事物状态在频繁、持续地变化。数据源于对现实世界和人的行为的持续观察。如果希望在数据基础上对客观世界加以研究,就必须保持足够高的采样率,以确保能够刻画现实世界的细节。速度体现在大数据上,就是数据集必须是“活的”。数据集持续、快速更新,体现在大数据集应当具有持续的数据获取和更新能力,不断反映大数据所描述的客观世界和人的行为变化。技术上体现在数据生成、采集、存储及处理等必须考虑时效性要求,实现实时数据处理。

(4)价值巨大但价值密度低:指在大数据中,通过数据分析在无序数据中建立关联,可以获得大量高价值的、非显而易见的隐含知识,从而产生巨大价值。这种价值体现在统计特征、事件检测、关联和假设检验等各个方面。但另一方面,数据的价值并不一定随数据集的增大而增大。对于一个特定分析问题,大数据中可能包含大量的“无用数据”,有价值的数据则淹没在大量的无用数据中,因而有“价值密度低”的说法。因此,在计算上,如何度量数据集的价值密度,如何针对应用问题快速定位并挖掘出有价值的数据,是大数据计算的核心问题之一。

在此基础上,还有一些学者在大数据的“4V”特征基础上增加了其他提法,形成大数据的“5V”特征。例如前面提到,IBM就从获取的数据质量的角度,将真实性或准确性作为大数据的特征,着重说明大数据面临的数据质量挑战。从互联网或传感器获得的关于真实世界和人类行为的数据,可能存在各类噪声、误差,甚至是虚假、错误的数据,有些情况下还会有数据缺失。数据的真实性则强调数据质量是大数据价值发挥的关键。

其实,无论是“4V”还是“5V”,都是从定性的角度刻画数据集本身的一些特征。这些特征对发现事实、揭示规律并预测未来提出了新的挑战,并将对已有计算模式、理论和方法产生深远的影响。

1.4.3 大数据思维模式

大数据给传统的小数据带来了三个思维模式的改变。

1.采样与全样:尽可能收集全面而完整的数据

在统计方法中,由于数据不容易获取,数据分析的主要手段是进行随机采样分析,并已成功应用于人口普查、商品质量监管等领域。然而随机采样的成功依赖于采样的绝对随机性,而实现绝对随机性非常困难,采样过程中出现任何偏差,都会使分析结果失真。即使有了最优采样的标准与方法,在大数据时代,由于数据的来源非常多,需要全面地考虑采样的范围,因此找到最优采样的标准非常困难。同时,随机采样数据的方法具有针对性,即针对特定的问题进行数据的随机采样,一旦问题变化,采样的数据就不再可用。随机采样也受到数据变化的影响,一旦数据发生变化,就需要重新采样。

随机采样的目的就是用最少的数据得到最多的信息,这取决于小数据的时代背景。小数据时代,数据的获取非常困难。大数据不仅表现为数据量大,更表现为数据的全面性。当有条件和方法获取到海量信息时,随机采样的方法和意义就大大降低了。确实,各类传感器、网络爬虫、系统日志等技术手段使人们拥有了大数据。存储资源、计算资源价格的大幅降低以及云计算技术的飞速发展,不仅使得大公司的存储能力和计算能力大大提升,也使得中小企业有了一定的大数据处理与分析能力。

2.精确与非精确:宁愿放弃数据的精确性,也要尽可能收集更多的数据

对小数据而言,由于收集的信息较少,对数据的基本要求是尽量精确、无错误。特别是在进行随机抽样时,少量错误将可能导致错误被无限放大,从而影响数据的准确性。同时,正由于数据量小,才有可能保证数据的精确性。因此对小数据来说,数据的精确性是人们追求的目标。

然而,对于大数据,保持数据的精确性几乎是不可能的。首先,大数据通常来源于不同领域产生的多个异构数据源,当由大数据产生所需信息时,通常会出现多源数据之间的不一致性问题。其次,由于数据通过传感器、网络爬虫等形式获取,经常出现数据丢失现象,使得数据不完整。虽然目前已有多种方法和技术来进行数据清洗,以保证数据的精确性,然而这不仅耗费巨大,而且保证所有数据都是精确的几乎是不可能的。因此,大数据无法实现精确性。

从另一个角度看,保持数据的精确性并不是必需的。经验表明,有时牺牲精确性而获得更广泛来源的数据,反而可以通过数据集间的关联提高数据分析结果的精确性。例如,Facebook、微博、新闻网站、旅游网站等通常允许用户对网站的图片、新闻、游记等打标签。每个用户打的标签并没有精确的分类标准,也没有对错,完全从用户的感受出发。这些标签达到几十亿的规模,却能让用户更容易找到自己所需的信息。

3.因果与关联:基于归纳得到的关联关系与基于逻辑推理得到的因果关系同样具有价值

通常人们对数据进行分析从而预测某事是否会发生,其中基于因果关系分析和关联关系分析进行预测是常用的方法。然而,因果关系分析通常基于逻辑推理,耗费巨大;关联关系分析则面临数据量不足的问题。

对于已经获取到的大量数据,广泛采用的方法是使用关联关系来进行预测。经验表明,在大数据时代,由于因果关系的严格性使得数据量的增加并不一定有利于得到因果关系,反而关联关系更容易得到。例如,通过观察可以发现打伞行为和下雨之间存在关联关系,当看到窗外所有人都打着伞时,就可以推测正在下雨,在这个过程中,我们并不在意到底是打伞行为导致下雨,还是下雨导致打伞行为。目前,基于关联关系分析的预测被广泛应用于各类推荐任务。

通常,数据中能够发现的更多是关联关系,因果关系的判断和分析需要有领域专家的参与才能完成。当然,重视关联关系并不否定探寻因果关系的重要性。事实上,也有很多研究在探索如何从数据中获得因果关系。医学上利用典型的“双盲对比试验”来判断药物对疾病的作用;智能工业互联网应用中,则需要了解究竟是哪个因素与产品优良率之间存在因果关系。这些都是典型的基于实验数据推断因果关系,进而推动应用的例子。因此,在大数据中,关联关系与因果关系同样具有应用价值。

1.4.4 大数据的作用和意义

在全球信息化快速发展的大背景下,大数据已成为国家重要的基础性战略资源,引领了新一轮科技创新。对网络信息空间大数据的挖掘和应用将创造出巨大的商业价值和社会价值,并催生科学研究模式的变革,对国家经济发展和安全具有战略性、全局性和长远性意义,是重塑国家竞争优势的新机遇。充分利用我国的数据规模优势,实现数据规模、质量和应用水平同步提升,发掘和释放数据资源的潜在价值,有利于更好发挥数据资源的战略作用。

1.在经济方面,大数据成为推动经济转型发展的新动力

以数据流引领技术流、物质流、资金流、人才流,将深刻影响社会分工协作的组织模式,促进生产组织方式的集约和创新。大数据推动社会生产要素的网络化共享、集约化整合、协作化开发和高效化利用,改变了传统的生产方式和经济运行机制,可显著提升经济运行水平和效率。大数据产业正在成为新的经济增长点,将对未来信息产业格局产生重要影响。通过对大数据的挖掘处理,能够获取巨大的商业价值。权威数据显示,IDC于2025年4月发布的V1版《全球大数据支出指南》显示,2024年全球大数据IT总投资规模约3 540亿美元,5年复合年增长率约16.8%。《国家信息化发展报告(2023年)》显示,2023年中国大数据产业规模达1.74万亿元人民币。前瞻产业研究院预测,2029年中国大数据产业市场规模将达到 7.25万亿元人民币,2024—2029年间的复合年增长率约25%。大数据持续激发商业模式创新,不断催生新业态,已成为互联网等新兴领域促进业务创新增值、提升企业核心价值的重要驱动力。百度通过对海量用户的搜索请求及交互数据的挖掘分析,建立用户行为模型,在提供个性化智能搜索和内容推荐的同时,取得中国互联网搜索市场的领先地位;共享单车、网约车等城市出行领域的共享经济应用显著地改善了供需的共享、集约化整合与协作效能,促进了资源的有效利用。而大数据在传统工业和制造业领域的应用则有助于帮助制造企业打通产业链,延伸产品的价值链条,并支持产品进行更快的升级迭代和提供更好的个性化服务。

2.在社会治理方面,大数据成为提升政府治理能力的新途径、社会安全保障的新领地

在政府治理能力提升方面,大数据应用能够揭示传统技术方式难以展现的关联关系,推动政府数据开放共享,促进社会事业数据融合和资源整合,极大提升政府整体数据分析能力,为有效处理复杂社会问题提供新的手段。同时建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,实现基于数据的科学决策,推动政府管理理念和社会治理模式进步,加快建设与社会主义市场经济体制和中国特色社会主义事业发展相适应的法治政府、创新政府、廉洁政府和服务型政府,逐步实现政府治理能力现代化。在社会安全保障方面,以小红书和抖音为代表的新媒体平台发挥着越来越重要的作用。2025年8月,小红书月活跃用户已突破3.5亿,每日产生上千万条笔记和评论;2025年6月,抖音的日活跃用户超过8亿,每天有数亿条短视频和直播内容被创作和分享。这些新媒体平台成为了解用户行为和社会动态的重要窗口。通过小红书的种草、测评和生活方式分享,可以分析掌握用户的消费偏好和生活习惯;借助抖音的短视频内容和互动,能够了解用户的兴趣取向、价值观念及其对社会热点的反应。对小红书、抖音等平台的数据挖掘和分析,能够实时反映社会情绪波动和群体心理变化,预警突发公共事件(如自然灾害、公共卫生事件等),甚至捕捉到群体性行为倾向。这些信息对于政府部门提高应急响应能力、优化社会治理、提升公共服务质量具有重要参考价值。此外,这些平台还在健康知识普及、防疫信息传播、社会救助信息发布等方面发挥积极作用。例如,在新冠疫情期间,小红书和抖音成为健康防护知识传播和心理疏导的重要渠道;发生自然灾害时,这些平台常成为紧急救援信息传递和社会动员的有效工具。因此,对小红书、抖音等新媒体平台的大数据分析和应用,不仅关系到商业价值,更对维护国家安全和社会稳定具有重大战略意义,是现代社会治理中不可或缺的技术支撑。

3.在科研方面,大数据成为科学研究的新途径

借助对大数据的分析研究,能够发现医学、物理学、经济学和社会学等领域的新现象,揭示自然与社会中的新规律,并预测未来趋势,这使得数据密集型科学探索成为科学发现继实验/经验、理论、计算之后的“第四范式”。数据密集型科学探索与前面的第三范式都是信息技术支撑的科学发现方式,但它们最大的不同在于,计算范式是先提出可能的理论,再搜集数据,然后通过计算仿真进行理论验证;而数据密集型科学探索则是先通过各种信息获取技术获得大量已知数据,然后通过分析和计算寻找其中的关联关系与因果关系,从而得出之前未知的理论。正在兴起的环境应用科学、基于全球数据共享的天文观测、新一代传感器网络与地球科学、脑科学与大脑神经回路研究,都是正在快速成长和发展的交叉学科方向,也是大数据用于科学研究和发现的很好实例。同时,这些科学研究的新需求,也在促进传感、网络、存储、计算等信息技术的突破,以及以数据为中心的获取、传输、管理、分析和可视化技术的进步。

由于大数据对经济、社会和科研有巨大价值,世界主要国家给予其广泛关注,投入大量的人力和财力,各国也相继制定了促进大数据产业发展的政策法规。我国充分认识到大数据时代带来的重大机遇,部署了一系列与大数据研究密切相关的科研计划。在产业方面,一批具有国际影响力的中国互联网企业已经积累了大量实际运行数据,具备了较强的研发能力。国内一些高校及科研院所也在开展与大数据相关的理论和技术研究。

因此,大数据已成为关系国家经济发展、社会安全和科技进步的重要战略资源,是国际竞争的焦点和制高点。开展大数据的基础研究,推动大数据技术的发展和应用,提升我国在相关领域的自主创新能力和核心竞争力,对推动我国经济转型、提升社会治理水平、增强科技竞争力具有至关重要的意义。

相关图书

AI提效手册:豆包+即梦+剪映+飞书+扣子5合1实操指南
AI提效手册:豆包+即梦+剪映+飞书+扣子5合1实操指南
AI数字人原理与实现
AI数字人原理与实现
系统仿真基础教程(基于Python语言)
系统仿真基础教程(基于Python语言)
CXL体系结构:高速互连的原理解析与实践
CXL体系结构:高速互连的原理解析与实践
智能驾驶之激光雷达算法详解
智能驾驶之激光雷达算法详解
智能物联安防视频技术基础与应用
智能物联安防视频技术基础与应用

相关文章

相关课程