分析信息:香农、维特根斯坦、图灵和乔姆斯基对信息的两次分离

978-7-115-56352-1
作者: 杨志刚
译者:
编辑: 杨凌

图书目录:

详情

本书力图把对信息问题的思考从香农的工具层次中解放出来,将其提升到哲学高度,寻找能够打开思维空间的制高点和新视野。本书尝试从创新的角度独立寻找认知信息的路径和方法,将哲学、心理学、语言学的分析工具进行归纳,以期形成适合研究主题的系统思路和方法。本书对波普尔的三元世界观、三位一体脑和语言三元组这几个哲学、心理学和语言学工具进行了系统性识别和梳理,用图灵所说的“剥洋葱皮”的方法观察不同层次信息结构的演化形态和进程,提出了系统思维逻辑的三个步骤:一是从信息的本质出发—建立“主客体关系的存在形态”的视野;二是从信息的主体性考察—分析信息独立存在的条件;三是从演化的趋势判断—探索独立的信息结构被异化的可能性。

图书摘要

分析信息

香农、维特根斯坦、图灵和乔姆斯基对信息的两次分离



◎杨志刚 著




人 民 邮 电 出 版 社

北 京



定价:99.00元

读者服务热线:(010)81055552 印装质量热线:(010)81055316

反盗版热线:(010)81055315

广告经营许可证:京东市监广登字20170147号

内 容 提 要

一、本书揭示了信息的主客体关系存在

二、本书触及思维异化的难题

三、本书给哲学思考带来的几点启示

杜 链

前言

第一章 论数字化信息

本章以波普尔的三元世界为参照系,分析了数字化给世界(尤其是知识和信息世界)带来的变化。数字技术大大提高了语法信息的处理效率,但同时也将语义信息剥离出去。随着数字化信息世界的极大膨胀,语义信息成为理解数字时代的关键概念。受制于认知能力的进化,人类的语义信息处理效率跟不上语法信息处理效率的提升,因而带来了人们对信息超载的焦虑。从语用信息角度出发,信息发送者和信息中介通过各种语法信息处理技术提高对信息接收者认知和情绪的影响效率。基于统计学习的人工智能天然适合大数据处理,成为替代人类处理数字化信息的重要参与者,也使人们产生了新的担忧。我们正在用香农开创的语法信息处理技术改变世界,但需要借助语义信息才能更好地理解这个世界。

第一节和第二节我们先在望远镜下看看信息所处的外部世界及其与相关概念的关系。第三节介绍了香农发明(或发现)处理信息的新工具——数字技术。第四节我们转到显微镜下来观察信息,可以从语法、语义和语用三个角度来看,并重点分析了被香农剥离的语义信息的情况,这也是深入理解信息问题的关键。第五节我们继续在显微镜下观察信息,只不过把视角转到了语用方面,看看从语用信息角度如何影响信息接收者——尤其是人的大脑。第六节我们再次回到望远镜下,看看数字化给世界带来的变化。第七节我们继续在望远镜下看世界,看看数字化带来的另外一个变化—AI可能带来的影响。

一 三元世界中的信息、知识和智能

从上述词语的现代使用意义来看,人们对这些概念的关注和研究的时间早晚有很大不同。“知识”一词古已有之,并受到长期关注;“信息”一词大约出现在16世纪,但到信息革命前后才引起研究者的关注;“数据”一词在20世纪40年代后随着电子计算机的出现才开始广泛使用;“智能”一词的使用则要更晚一些。

1.波普尔的三元世界观

1967年8月,哲学家波普尔在第三届国际逻辑学、方法论与科学哲学会议上致辞,提出三元世界的观点,这个致辞被收录于1972年出版的《客观的知识:一个进化论的研究》一书的第三章“没有认识主体的认识论”中。波普尔的三元世界是一个非常有代表性的表述,可作为理解信息、知识等概念最基本的参照系。何兆武先生在评价波普尔的《历史主义贫困论》时也特意提到了波普尔这个世界3的理论创新,认为他别出心裁,用三分法替代了传统的客观物质世界和主观精神世界的二分法。布尔金将波普尔提出的三个世界图示化为图1-1,并为三个世界命名。

图1-1 波普尔的三元世界

波普尔提出:世界1是物理客体或物理状态的世界;世界2是意识状态或精神状态的世界(波普尔也称之为心灵世界或心灵状态的世界),或关于活动的行为意向的世界;世界3是思想的客观内容的世界(波普尔也称之为智性之物的世界),尤其是科学思想、诗的思想以及艺术作品的世界,由书籍、文献或科学理论等的知识内容构成。布尔金提出,“由于波普尔交替使用术语信息和知识,所以世界3由信息和知识组成”,或者说是由记录下来的信息和知识组成。世界3是波普尔最为关注的一个世界。波普尔认为,世界3虽然是人工产物,但它是实在的、客观的、自主的,即世界3以符号表现形式依附于物质实体存在,一旦产生,就有了自己的发展规律,能脱离于它的生产者而独立存在,甚至人们只能说是发现了它们,而不是发明了它们。世界2是世界1和世界3之间的中介,即世界1和世界2能相互作用,世界2和世界3能相互作用,但世界1和世界3只有通过世界2的干预才能相互联系。中介作用既是世界2存在的意义,也是其存在的证明。

2.其他三元世界观

布尔金指出,三元世界的思想最早是由柏拉图提出的,不过布尔金自己也提出了一个类似的三元结构,其他学者也有类似的不同表述,柏拉图、布尔金等与波普尔表述的主要差别在两个方面:一是在物理世界和精神世界两元世界的共识基础上,对第三个世界的表述不同,波普尔认为第三个世界是“知识和信息世界”,柏拉图认为是“理念/形式世界”,布尔金表述为“结构世界”;二是对第二个世界和第三个世界的边界区分有所不同。综合考虑波普尔、柏拉图和布尔金的这三种表述,第二个世界和第三个世界的区别应当在于:知识和信息世界是被表达或被记录下来的知识和信息,波普尔认为其中很多是人们无意识的副产品(或人类有目的活动的无计划产物),而精神世界(包括感性世界和理性世界)中保留的应当是个体意识、心理(情绪)、认知、心智、智能(或大脑内在的信息/知识处理能力),以及群体精神,如集体潜意识和集体智能等。三个世界中分别存在物理主体、心智主体和结构或信息主体。

3.知识和智能在三元世界中的位置

智能(智慧)可以理解为对信息/知识的处理能力。认知心理学家认为,认知就是信息加工。从知识研究的角度看,显性知识定义为可表达的知识,隐性(暗默)知识只可意会、难以表达出来,所以隐性知识部分更接近智能、智慧的含义。有观点认为,只有暗默知识才是构成人类智慧的核心,如《道德经》所说的“道可道,非常道”,而能够表达和记录在知识和信息世界的显性知识只是它的部分结果展现。所以,一般常说的智慧、智能、才智、认知等概念定义在人类的精神世界中比较合适,而将知识和信息定位于知识和信息世界中比较合适。

从感觉——反应的生物本能(类似电子自动化)到感知(觉)—反应(适应)的初级生命智能,人类经历了长期进化过程。按照弗朗西斯·培根(Francis Bacon)的说法,人类有获得解释(理解)自然的知识和改变自然的权力——即包括对客观世界(包括物理世界、精神世界中的思维本身与知识和信息世界)的认知能力和改变能力两个方面,这两个方面也对应着科学领域和技术(工程)领域的发展,成为当前人类智能成就的最高体现。按照培根的说法,科学发现包括现象观察和原因解释(理解)两个过程,波普尔则用猜想(解释原因的假说)和反驳(通过进一步观察来证伪)来表示科学知识的增长过程,其中测量工具的水平是影响科学发现(现象观察)的重要因素。从近年人工智能的发展来看,图像识别、语音识别、自然语言处理都是发展类似感知或认知的能力,一些适应外部环境和博弈的智能行为则是改变世界的能力,但对世界的理解或解释仍是人工智能尚不具备的能力。

被记录下来的知识和信息世界不是物理世界的直接映射,而是物理世界经过人类精神世界(认知)加工后形成的知识内容,再经过文字、书籍、电子化工具、数字化工具等记录下来后的(显性)知识和信息构成的一个天地,所以说,知识和信息世界是由人类精神世界构造出来的。当然,随着自动测量、自动数据采集和自动存储设备的大量使用,物理世界的很多数据正在(不经过人类精神世界的加工或监测而)直接进入知识和信息世界。即便如此,人类仍然通过影响测量、采集模式而间接影响数据进入知识和信息世界的方式。

4.国内有关研究

胡虎、赵敏、宁振波等编著的《三体智能革命》提出了一个三体智能模型,如图1-2所示,与上述三个世界的构成也有些相似。

图1-2 三体智能模型

图1-2中,物理实体是由自然界物质及人类所创造的各种实体设备(哑设备)、人造材料构成的物质与材料世界。意识人体是人体中具有智能反应与智慧的意识活动的部分。数字虚体是存在于计算机和网络设备之中的所有数字代码的集合体,基于计算机而实现,由于网络通信而增强,也称赛博虚体。物理实体和意识人体交汇成PCS(Physical-Conscious Systems)界面,意识人体和数字虚体交汇成CCS(Conscious-Cyber Systems)界面,数字虚体和物理实体交汇成CPS(Cyber-Physical Systems)界面。3个系统交汇的中心是智能。这个模型直接把记录信息的世界具体化为当前数字化记录的信息世界,因为现在人类的信息和知识中能够数字化的几乎全都数字化了,或者说,现在的知识和信息世界已由书面记录变为以数字化记录的知识和信息填充而成。

二 数据、信息和知识的关系

数据、信息和知识这3个概念,各自都有很多定义和理解,这3个词不但经常相伴出现,而且经常用来相互定义,并被交叉使用或互相替代使用。有人认为,概念本身并不重要,如斯潘-汉森(Spang-Hanssen)所说,“可能当信息这个词没有任何正式定义时,这个词是最有用的”。但比较公认的观点是,数据、信息和知识三者之间的关系在当今信息时代至关重要。

1.对于数据、知识和信息的理解

(1)数据的诸多定义可以归纳为两种主要的理解:一是关于客观事实的测量(和/或记录、表示)结果,用以表示某客观对象(区别于其他对象)的特异性;二是记录客观事实、信息或知识的符号,或者说,是用符号对信息的记录(这个记录过程不一定都经过人脑,比如机器自动测量或记录数据)。第二种理解在计算机出现之后才开始出现(在这个意义上,数字化记录的信息和知识都可被称为数据),随之出现的数据包、数据流等说法,隐含着将数据作为一种具有客观存在性的、物理的东西来理解的意思。现在绝大多数信息处理工具都是采用二进制数字形式来表示数据,所以比特(bit)成为度量数据的常用单位。数据是自然存在的,我们的获得方式只能是主动发现、测量和记录(或者说,只有经过测量和记录,才能显示出数据这个事物),数据受测量工具和记录工具的影响很大。

(2)知识是经过人脑精神世界加工的产物。但关于知识也没有统一明确的定义,主要的理解包括:由信息感觉进化到大脑知觉后得到的对客观世界的认识(或对事实和信息的知道);大脑对各种信息进行思考加工后做出的正确判断(或认知的结果);对做出正确认识和判断原因的解释(对科学知识而言),等等。获得知识的方式是学习,无论是个体学习(主动地学习和被动地受教育),还是组织学习,或者是计算机的学习(机器学习、深度学习、强化学习等)。学习这个词有知识内在化(内在结构化)的含义,而不仅仅指信息和数据的获取。

(3)信息的定义和对于信息的理解更多。引用较多的是拉尔夫·哈特利(1928年)给出的科学信息的定义:“信息是被消除的不确定性(或被反映出的变化)”,继香农创立的信息论带来了信息革命,延续至今的深远影响使信息成为这个时代关注的重点,现在经常将其视为与物质、能量并列构成世界的原始要素,甚至有人视之为比物质、能量还要原始的要素,如物理学家约翰·阿奇博尔德·惠勒所说的“万物源自比特”。面对纷纭众说,马克·布尔金在其尝试一统信息论天下的“一般信息论”中提出,有必要区分一般意义上的信息和关于一个系统的信息,“关于一个系统的信息”的意思是要把对信息的理解界定为相对于某个系统(或接收者/接收器)而言,从而可将信息理解为:关于一个系统的信息就是引起系统变化的能力(潜力),更精确一点的相对概念是:关于一个系统的信息是对象(事物、文本、信号等)在该系统的信息逻辑系统中产生变化的能力。这个定义有点抽象,如果以某个人的知识系统为例,可以通俗理解为:相对于某个人(即一个知识系统)而言,信息就是外部的事物、文本、信号等给这个人(大脑中)既有的知识系统(即其认知信息逻辑系统)带来的改变,这种信息就是一般所说的认知信息。信息的获得方式有被动的外部信息接收,也有主动的信息寻找(如观察)。所以,对于学习者来说,通过教育直接获得的不是知识,只是信息,受教育的过程是一个信息接收过程。

2.DIK金字塔

数据——信息——知识(Data,Information,Knowledge,DIK)金字塔成为描述三者关系的一个重要模型。布尔金的《信息论:本质·多样性·统一》和戴维·温伯格(Dawid Weinberger)的《知识的边界》中都提到,哈兰·克利夫兰(Harlan Cleveland)在1982年发表于《未来学家》杂志的《作为资源的信息》一文中详细描写了数据——信息——知识的层次结构,而且克利夫兰指出,这个层次结构起源于英国诗人托马斯·斯特尔那斯·艾略特(Thomas Stearns Eliot)1934年的剧本《磐石》,其中写道,“我们生活中失去的生命在哪里?我们在知识中失去的智慧在哪里?我们在信息中失去的知识在哪里?”在这个文学作品提及的信息——知识层次结构的基础上,克利夫兰等增加了“数据”层(或“事实和思想”层),产生了DIK金字塔的概念,如图1-3所示。

图1-3 DIK金字塔

按照培根的说法,学问并不教人怎样使用学问,对学问的使用,乃是一种在学问之外又高于学问的智慧。有学者把智慧(wisdom,或思想、才智)、理解等概念加在金字塔之上,形成了以DIKW为代表的扩展金字塔。还有学者把智能、认知以及比特等概念也加入其中,把这个金字塔结构扩展成4~6层。如前所述,从人本角度来看,认知、才智、智能、智慧可以看作是人类精神世界(世界2)范畴的内容(表示主观认识、能力或行为的主体概念),数据、信息、知识可以看作是知识和信息世界的东西(表示作用对象的客体概念,是一种客观存在),所以,各归其位、在各自的世界里来辨析这些概念之间的关系可能更合适。这个DIK金字塔可以看作是世界3的组成结构,即由艾略特的第三个问题发展而来,而艾略特的第二个问题跨越了两个世界(世界2和世界3)。

3.结构化的理解

结构主义思想对于理解数据、信息和知识的关系极其重要。结构化认识是人们从混沌走向清明的必然过程,像布尔金就把“结构世界”作为三元世界中的重要一元,并把结构作为理解信息现象的本质。结构化可以成为外在的表达,但真正的结构化是经过人类精神世界,尤其是通过其中的理性信息系统加工构建起来的。从数据到信息再到知识,可以视为一个结构化、再结构化的过程。但在具体理解上,却没有非常一致的认识。下面列出3种结构化理解。

理解1:信息是数据的结构(或结构化的数据),知识是信息的结构(或结构化的信息)。

理解2:1987年,米兰·泽莱尼(Milan Zeleny)把数据定义为“无所知”,把信息定义为“知道是什么”,把知识定义为“知道如何做”,把才智定义为“知道为什么”。1997年,查尔斯·T.梅多(Charles T.Meadow)和Weijing Yuan提出,数据通常意味着一个符号集合,这些符号对于一个接收者意义很少或者没有意义;信息是符号的集合,这些符号对于它们的接收者具有意义或重要性;知识是被接收者接收和处理的信息的积累和整合。

理解3:信息被用于指定孤立的、有意义的数据,这些被整合在一个语境中的数据构成了知识。

4.KIME正方形

也有不少学者提出了其他的理解方式,布尔金用物质——能量关系类比提出了KIME正方形的结构化理解,认为信息和知识/数据是不同类型的事物,其关系如图1-4所示,信息之于知识和数据,就像能量之于物质。知识和数据是同样的类型,是某种结构,而信息只是被表示,并且能被结构所承载。如果说知识是结构世界的物质,信息就是结构世界的能量。还有很多学者也把信息和知识/数据作为两个不同类别的事物来看待。比如,野中郁次郎(I kujiro Nonaka)(1996年)说,“信息是流动,知识是蓄积”。或者把信息理解为一个过程,而把知识理解为一个状态。

图1-4 知识——信息——物质——能量(KIME)正方形

信息、数据和知识之间的区别和联系包括:(1)数据和知识的区别主要是在结构的复杂度方面。可以通过类比来帮助理解:用分子作类比,数据就像水分子,而知识就像DNA大分子。(2)物理存在的是数据(或数据表示),信息是利用知识从数据中提取出来的东西,就像用工具从物质中提取出能量一样。(3)在信息的作用下,数据可以转化为知识。这一点和布尔金所定义的信息的含义大致相同,也和学习过程类似,而学习既是智能的典型特征,也是知识增长的基本过程。

无论上述哪种理解,都隐含了一个理解信息和知识的区别:一个人拥有的知识是可以在之前知识的基础上“垂直”积累(蓄积)的,而信息不会形成这种垂直积累,它的存在特点就是流动。

三 数字化带来的变化

三个世界中能够被数字化的只有世界3中的知识和信息,物理世界和精神世界都不是数字化的作用对象(当然,物理世界中的许多人造物品可以嵌入人造数字产品中,也是数字化信息和知识的物理化)。信息和知识的数字化给世界带来了巨大变化,以至于我们把现在所处的时代称为数字时代,把与之相关的经济称为数字经济。

1.数字与数字化

美国语言学家约瑟·哈罗德·格林伯格(Joseph Harold Greenberg)在研究欧亚语系的同根词时发现,其中有一组关于“手指”的通用词,格林伯格把它称为tik,即竖起你的食指,你就做了普天下公认的“1”的手势。在此基础上,格林伯格谈到了关于这个古老词汇在各个语系中激荡的“回音”。在印欧语系中,语言学家已经找出了原始印欧词根*deik,意指显示,由此引出拉丁语单词digitus(手指)、希腊语单词daktulos,以及英语单词digit和digital。在阿尔泰语系中,表示“单独”或“唯一”的土耳其语单词是tek。在韩——日—阿依努语系中,阿依努语是tek,日语是te,都指的是“手”。在爱斯基摩-阿留申语系中,格陵兰语的“食指”是tikiq,斯瑞尼克语和阿拉斯加中部的皮尤克语的“食指”是tekeq。格林伯格还尝试找出尼罗——撒哈拉语系、原始非亚语系、南亚语系等其他语系中表示“1”的语言中是否也有“t-k”。像在南亚语系中,柬埔寨语或高棉语中的“手”是tai,越南语中的“手”是tay。在美洲印第安语中有几个含有tik的词指的是“手指”和“单独”。语言学家认为,“格林伯格的*tik确实可能是远古时期大同世界传来的挥之不去的窃窃私语”。

从digit这个词开始,日本学者池田信夫谈到了3次数字化。他在《数码化与模块化》中谈到数码革命时提到,“‘digit’一词本来是‘手指’的意思,可以转义理解为扳手指的‘数字’。即‘数码化’是指用数字或‘有限的数字序列’来表达信息。这并没有什么稀奇,从某种意义上说,这是人类认识事物时不可或缺的条件……语言、数字等符号系统是通过一维的数字序列的组合来表达复杂的意思或价值的,我们不妨把它叫作原始的(第0次)数码化。”“现在所谓的数码革命的变化特征在于不仅能用数字序列来表达信息,而且能用电气的存储单元(比特)对信息进行机械处理。如果把它叫作‘第一次数码化’,那么在此过程中将复杂的信息变换为简单的数字序列是需要花费(事先)成本的。通过这种方式将复杂的事物‘抽象化’,简化处理手段从而能够提高(事后)处理的效率。”池田信夫把电子计算机的发展看作是第二次数码化,他说,“20世纪后半叶推动计算机发展的技术革新的本质就是数码信号不仅用来表达处理对象,而且也用来表达处理步骤,我们可以把它叫作‘第二次数码化’……第一次、第二次的数码化(电脑化)是相辅相成的”。

从香农开始,数字化实际上就是指信息的二进制编码化(binary coded),这也被视为现代信息技术的起点。我们现在所说的数字化(或数字的,digital),是在二进制编码化的意义上说的,包括了池田信夫所说的“第一次数码化”和“第二次数码化”。

在数学领域,德国数学家和哲学家戈特弗里德·威廉·莱布尼茨(Gottfried Wilhelm Leibniz)被认为是二进制思想的开创者。1697年,莱布尼茨完成了《二进制算术》的草稿,于1703年发表了《二进制算术阐释——仅仅使用数字0和1兼论其用途及伏羲数字的意义》,阐述了用二进制进行算术运算的思想和方法,但这个研究在当时并没有实际用途,直到信息革命时才体现了其重要影响。此外,莱布尼茨还被认为是数理逻辑的先驱,即用数学计算的方法进行逻辑推理。

数字化给世界带来巨大改变,继之而来的网络化给人类社会化协作带来了重要影响,也成为当前数字经济最受关注的部分。

2.数字化记录的信息和知识极大丰富

编码化是结构化的形态之一。如果说结构化的首要作用是通过逻辑思考增进理解和认知(对信息含义的处理),那么编码化的首要作用是通过符号实现对信息的表达、记录和传递(对信息符号的处理)。如果说把思想编码成语言主要是为了表达,那把语言编码成文字、文字编码成数字,都是为了记录(存储)和传递(通信)更加方便。

作为数字化信息度量单位的比特,是信息论之父香农于1948年在《通信的数学原理》中提出的——用二进制数字(binary digit,简称为比特,bit)作为度量信息量的最小单位,这是我们现在所说的数字化(二进制编码化)的来源。而早在1937年香农的硕士论文中就研究了基于二进制算术的逻辑电路,即池田信夫所说的“第一次数码化”的起源。香农的理论开创了现代数字通信。同时,在另一条路上的计算机先辈们也选择了二进制编码,图灵在1936年构想了基于二进制记号的数理逻辑计算机——图灵机,约翰·冯·诺依曼(John Von Neumann)于1945年提出了基于二进制的电子计算机设计方案,并在1952年的电子计算机EDVAC上得到了物理实现,开启了信息表示和信息处理的数字化(二进制编码化)进程。

二进制编码电子处理技术(数字技术或信息技术)的发展极大地提升了信息和知识的记录功能,数字化记录的信息和知识数量也迅速膨胀。按照数字印刷开创者班尼·兰达(Benny Landa)的说法,“凡是能够被数字化的,都将被数字化”。根据市场研究公司IDC 2011年所做的调查,全球的数字数据量每两年就翻一番。前些年就有人估计,人类95%以上的信息都已经以数字格式在存储、传输和使用了。有人曾于2016年提出,当时两年新增的信息量就等于或接近之前人类记录信息的总和。于是就有了信息超载的问题。

3.数字化计算的结构化能力不断增强

记录只是编码的第一步,数字技术(或信息技术)并没有止步于信息记录,或者说信息技术的先辈们选择数字化编码本来就不是为了记录而记录,而是意在通信(以香农为代表)和(通过存储计算而)思考(以图灵为代表)。

数理逻辑的发展,尤其是布尔代数的发展,为通过将计算指令编成程序赋予编码(符号)以逻辑推理的功能奠定了理论基础,图灵构思了图灵机和能够思考的机器(能够通过图灵测试的机器)来进行逻辑推理。这也是池田信夫所说的“第二次数码化”的起源。编码是把信息的含义剥离出来表达语法,编程(程序)是处理语法的(逻辑)结构关系——对剥离了含义的信息进行结构化处理,由此提高信息和知识的结构化加工效率。二进制编码化(数字化)带来的信息革命及延续至今的信息化浪潮,不仅提高了信息记录的效率和通信的效率,而且通过逻辑计算(剥离信息的含义)提高了信息结构化处理效率。数字化编码不仅大大提升了数据记录能力、传送能力和数值计算能力,而且大大增进了信息和知识的结构化处理能力;不但使计算机具备了原本只是人类所擅长的这种(结构化)思考能力,而且通过计算能力的提升不断增强这种结构化能力。比如,工业设计软件、仿真软件就是把人们的积累和结构化的工业知识用软件的形式封装出来,把设计人员从图纸中解放出来,大大提升了工业设计能力,其外表是数字化的软件,而核心是结构化的工业知识。

随着通过计算机(网络)处理知识和信息越来越常态化,程序、算法在帮助人们对接收到的信息进行选择、反应中发挥的作用越来越大,数字化编码已从最初方便记录的工具发展为影响人们行为、甚至决定人们选择的结构化主体,也有了“软件定义一切”“代码即法律”等说法。

当然,作为一种符号表示,数字化编码不可能独立存在,其快速发展与所依附的载体的发展密切相关,与信息、通信领域的各种材料、元器件、设备等硬件技术的持续创新交互促进。其中,软件在其中发挥着越来越主动的作用,像芯片的研发、生产过程也都由数字化的知识——软件来主导了。

4.数字化通信网络改变人类社会

从人类精神世界到数字化的信息和知识世界,经历了3个主要的编码过程(思想到语言、语言到文字、文字到数字)。从进化过程来看,每次信息编码方式的变化(语言的出现、文字的出现、数字技术的出现)及相应载体的改变(声波、纸、电子信号和网络),不但会给人类个体的精神世界带来重要影响,进而还会给人类社会整体带来重大变化,历史上的共同表现是人类群体协作能力(无论是经济活动还是战争能力)得到显著提升,从而增强相对于其他生物群体的竞争优势。这一点是通过信息传递方式影响人类精神世界、提高群体意识能力和群体智能效率来实现的。

当然,在信息时代的社会影响因素中,由数字化带来的网络化信息传递方式对经济、社会的影响已经超过了数字化本身,尽管在广义上仍然可以说是数字化影响。比如,数字经济一词的提出者唐·塔普斯科特(Don Tapscott)在1995年的《数字经济》一书中就把数字经济描绘成网络化智能的经济,认为人们能凭借自己的能力(智能)通过互联网协作实现各自的价值。近年来,随着互联网的发展,电子商务、网课等把原本只能局限在区域内的生产和服务能力供给扩展到全球范围,实现了经济活动的组织创新。

数字化信息网络带来的社会协作方式创新与历史上语言、文字带来的群体专业分工合作愈发高效和精细的社会协作发展方向有所不同的是,互联网协作的典型表现是同质化生产或服务能力在空间和时间范围上的扩展(如分享经济、零工经济);同时,这种同质化的生产或服务能力主要是基于个人能力或较简单的技术能力的供给主体,在较复杂的技术能力领域,仍然需要由专业化分工合作的企业组织形式来完成供给。

四 信息的含义及其回归

香农开创的信息论给世界带来了重大而真切的改变,以至于人们经常把香农信息量的定义当成是信息本身的定义,而把原本作为信息本质的“含义”忽略在“信息”一词之外。但随着信息超载等问题的出现,人们也在反思并重新重视信息的含义(或意义,meaning)问题。

1.信息与含义的分离

当年,为了解决通信效率的问题(或实现通信工程的目的),香农开创了用统计学方法研究信息量的理论,特意把意义(含义)从信息中剥离出去——他说“这些消息往往都带有含义,也就是说,根据某种体系,它们指向或关联了特定的物理或概念实体。但通信的这些语义因素与其工程学问题无关,真正有意义的是由于实际的消息选自一个可能的消息集合,系统必须被设计成可以对每个可能的选择进行操作,而不是只对实际将被选择的那个消息进行操作,因为在设计系统时哪个消息会被选择是未知的”。因为这个理论基于统计学考虑,所以布尔金把香农创立的信息论称为统计信息论,如果对应语言的维度,也可称为语法信息论。数字技术其实就是语法信息处理技术。

香农的本意是在通信框架内研究信息问题,并且非常明确的是,他的理论只是研究信息的一个方面(通信理论),其后他的追随者把这个理论称为信息论,并因其对社会产生的重大影响而成为信息论的主流。其实,香农已经说得很清楚了,他研究的信息就是信息的语法符号,只是后人一厢情愿地以偏概全,把他所开创的信息概念作为信息的全部,而把信息的主角——语义排除在外了,这一或有心或无意之举导致太多世人产生了对信息的误解。布尔金对此批判道,“关于信息量的香农理论被后来的许多学者批评为仅是一个句法信息论,因为它排除了语义和语用层次。为了建立这样一个优雅高级的数学理论,所付出的代价是哈特利——香农方法一点儿都不涉及信息的许多重要方面,这就是为什么统计信息论被公正地认为对信息概念上的澄清缺乏指示。此外,发展统计信息论使之成为普适信息论的任何努力总是必然地走入一条死胡同”。

实际上,香农是把信息这个对象打开了,更进一步的是,他不仅仅是在哲学意义上打开了信息,更是在物理意义上实现了对信息的打开,把语法信息和语义信息分离开来。这就是香农的伟大之处。

2.信息的含义

卡洛斯·格申森(Carlos Gershenson)强调了文本通信与包含在文本里的思想通信之间的差异,思想的交流涉及理解,而理解则建立在语义的基础之上。统计信息论致力于解决文本传输的技术问题,而语义信息论则关心思想的通信。

(1)信息的三个维度

因为语言的作用就是用来表达信息,所以借用语言学的方法来分析信息成为自然而然的事情,一般是从语法(句法)、语义、语用这3个方面来分析信息,如图1-5所示。

图1-5 语言的三元结构

语法学研究符号之间的形式关系,信息的语法指信息的表示方面。

语义学研究符号与符号所指客观对象之间的关系,信息的语义指信息的含义方面。

语用学研究自然语言使用者传达言外之意或“弦外之音”的能力,或者信息发送者通过信息表达想实现的意图(故意含义或符号内涵),信息的语用指信息的作用(影响)方面。

布尔金提出,信息的三维结构源于三元世界的结构,语法映射结构世界里的关系,语义用来描绘物理世界(把接收到的信息与物理世界的事物联系起来),而语用则展示精神世界的意图。

(2)对于信息含义的理解

布尔金说,“meaning”这个词本身有许多含义(经学者考证有23种含义),甚至在理论上也有多种方法来解释这个术语,并且没有被普遍接受的共识。按照语义信息论的理解,一条消息(如句子)会存在两个含义:一个是语义学含义,通信研究者用“信息含义(句子含义)”来表示(从布尔金对信息的定义来理解,这个含义是相对于信息接收者而言的);另一个是语用学含义,用“通信含义”(或发送者含义、讲话者含义)来表示(即来自信息发送者的故意含义或符号内涵)。理解另一个发送者的故意含义的能力叫作语用能力。

也有学者提出,消息(语法符号)的字面含义也是一种对含义的理解。按照这个理解,一个通信就可能涉及3个不同的含义(和对应的信息侧面):发送者的故意含义(和故意信息),接收者接收到或理解的含义(和接收到或理解的信息),消息的常规或字面含义(和常规信息)。这些含义和信息(如图1-6所示)之间存在复杂的相互影响。

图1-6 信息传送过程中的信息及其含义

(3)从信息的三个维度对数字经济分类的理解

就像通信技术领域的信息学处理的是无关含义的统计信息(语法信息),信息技术领域的信息学实质上处理的也都是语法信息(或信息的语法),即无关含义的数据操作、存储、检索和计算等问题。所以,信息技术(IT)部门、电信(CT)部门(包括基础电信和数据中心等部分增值电信)经营的对象是语法信息(统计信息);互联网信息服务业(与传统的媒体等文化产业类似)经营的对象是语义信息,或者说,是站在语用信息者的角度用统计信息的技术来经营语义信息。至于数字化的经济,或者说各行各业的数字化应用和转型,则是利用数字化的工具来处理各自的专业化知识,经营的对象仍然是各自的技术知识,数字化工具的作用是通过知识和信息的记录、传递以及计算方式的数字化改变来提高本领域的知识加工效率,原本技术知识中包含的语义与所用的数字化工具无关。

“数字的(digital)”可以理解为处理语法信息的,“数字化的(digitalized)”可以理解为用语法信息处理技术处理其他知识的。按照这个理解,狭义的数字经济即数字部门(digital sector),也就是语法信息产品和服务部门,广义的数字经济即数字化经济(digitalized economy),也就是用数字化工具处理各行各业的产品和运行知识。对照联合国贸易和发展会议《2019年数字经济报告》的分类,将数字经济由狭义到广义分为3层,核心部分是数字部门,中间一层是数字和信息技术部门,最广义的数字化部门是数字化经济(报告中引用的Bukht和Heeks的分类为:核心的数字(IT/ICT)部门[1]、狭义范围指数字服务平台经济、广义范围指数字化经济)。无论如何分类,中间一层都主要指依托现代信息网络、用语法信息技术处理语义信息的经济活动部分。

3.语义信息的含义

信息的含义一直在人们关于信息的经验认识之内,但关于语义信息的科学研究还有待进一步发展。从布尔金一般信息论的定义出发,实际上是把包括语义含义在内的信息概念定义在了接收者而不是发送者一侧。对于已离开信息发送者的信息而言,尤其对于被记录下来的信息和知识而言,更是如此。由此出发,语义信息论的学者对于语义信息的研究形成了一些基本认识。

(1)语义信息的含义与接收方(接收者/接收器)密切相关,或者说是由接收方来解释或定义,而不是由信息发送者定义。按照一般信息论的理解,定义信息的必要组成部分包括3个要素:载体、信息、接收者/接收器。如果没有载体与信息接收者的相互作用,就不存在明显的信息。比如,一个中国人用汉语给一个外国人打电话:如果这个外国人懂汉语,那么在统计信息学意义和语义信息学意义上,都发生了信息传递;如果这个外国人不懂汉语,那么在统计信息学意义上发生了信息传递,但在语义信息学意义上没有发生信息传递,就像人们常说的,知道不等于理解。

1968年法国思想家罗兰·巴特(Roland Barthes)的《作者之死》一文可以看作是从另一角度对此观点(更激烈)的阐释。他提出,在文学作品创作中,“一个文本的整体性不存在于起因之中,而存在于其目的性之中”,即作品的意义不在作者一边,而在读者一边。“读者的诞生应以作者的死亡为代价来换取”,由此有了“作者已死”的说法。这也是文学理论中“以作品为中心”区别于“以作者为中心”的地方——作品就是(文本)载体加信息,其存在的意义在于读者对文本中信息的解读。所谓读者(reader,就是信息接收者),也就是解读者(explainer)。作品创作完成后,作者也只是解读者之一。因此,解释权无论在哪儿,都是一项极其重要的权利。

对于许多人来说,有一个非常容易出现的错觉,即认为信息的含义和信息的符号总是相伴存在的,或者说认为语义信息和语法信息(符号)在同一时空共存、共生、共进,并因此推论,只要能够把语法信息(符号)表达出来,自然就可以得到语义信息(信息的含义)。尤其在尝试用语法信息处理技术来挖掘语义的路线上,这个错觉非常普遍。用语法信息处理技术来挖掘语义,不是不可以有所收获(如提高语义处理效率),但是并不能改变语法和语义从本质上仍然是两个不同时空的东西的宿命,语义的解读始终在接收者(如果是人,那就是人脑)的计算系统那里。这两个东西之间存在永远无法跨越的鸿沟,即便这条鸿沟看起来没那么宽,似乎也没那么深。比如,信息在传递的路上(包括被记录下来)时,就只有语法信息(符号),而没有语义信息(信息的含义不在路上);语法信息(符号)到达人脑并被解读以后,才产生语义信息(信息的含义),除非人脑有愿望将这个含义再(通过语法信息)表达出来,因此,语法和语义并非在同一时空共同存在,而是以交互转换衔接的方式纠缠存在。就像《大话西游》中佛祖座前的油灯里那两棵永远纠缠在一起、但又永不相见的灯芯——青霞和紫霞,一个冷静、迅捷、理性、有逻辑,一个柔情、拖沓、感性、不知所谓(有点“二”)。或者说,含义永远是主观存在的,无主体解读便无含义;而符号是客观存在的,无主体也会有语法符号。从这个意义上说,香农的最大贡献也并不是发现了把语法和语义分离的方法,而是他意识到了这个分离存在的物理意义,并想到了把分离出语义之后的语法符号进行加速传送的物理方法。

(2)对于不同的接收者而言,同一条消息可能会有不同的含义。所谓“仁者见仁,智者见智”,或如莎士比亚所说,“一千个人眼中有一千个哈姆雷特”。对于同一个接收者而言,同一条消息也可能有不同的含义,依赖于用什么逻辑来解释含义(或者说由什么样的算法来处理信息)。比如,读文学作品或看新闻时,过度解读或解读不足的现象都可能出现。心理学的实验表明,感觉输入所包含的信息不足以解释我们的知觉。知觉是用来接收信息并进行解释的,而其解释功能往往以“所知引导所见”,即参照已知信息来理解新信息(类似于现在常说的“自行脑补”)。

语义信息也许还能为另一个疑惑提供一个解释角度。在如今信息量极大丰富(两年产生的信息量是此前人类信息量的总和且每两年信息量翻一番)的同时,人们似乎并没有感到不确定性的减少,反而感到在某些方面甚至是全球面临的不确定性在加剧。那么,该如何理解哈特利和香农定义的信息呢?或者能够通过这个定义来解释这个疑惑吗?也许通过对数理空间的附加定义可以在数学上进行解释(需要请教数学家)。如果加上语义信息的维度,则完全可以解释这个现象,因为哈特利和香农定义的信息完全把经人脑解释的信息含义排除在外,而现实社会中的信息以语义为核心,同一条信息在不同的人脑中会得到不同的语义,甚至在同一人脑中也会得到不同的语义。语法信息意义上的不确定性减少并不意味着语义信息意义上的不确定性减少。这样来看,哈特利和香农的信息定义就是一个在语法信息意义上的定义。

(3)信息的含义与信息接收者的认知结构和先验知识有关。认知结构的差异根源于物理差异,就像脑科学研究发现每个人的脑连接方式(脑纹)都是完全不同的,用脑纹来识别和区别个体差异比用指纹更准确,即没有两个大脑完全相同。关于先验知识的差异,就像我国传染病学专家张文宏医生在回应媒体关于新冠肺炎疫情有关问题时说的那样:“我跟你讲你一定听不懂,因为我们读的书不一样(你和我的先验知识不同),我讲的每一个汉字你都能听明白(你能接收到统计信息论意义上的信息,或字面含义),但不会知道是什么意思(接收到或知道信息不等于理解或懂得信息的含义,即接收不到语义信息)。”所以,读书读的是意思(含义),而不是读字(语法符号)。这个命题反过来的现象就是,如今互联网上有大量的信息和知识(其中有很多不同表达、分歧甚至相互矛盾)以及所谓的事实(其实也是记录信息),如果一个人没有足够的先验知识,即使接收到再多信息,可能也无法做出判断和选择,甚至形成“没有人比我更懂”的自我认识。在这一点上,人们往往会高估自己的认知能力和以往的学习努力程度。

(4)从信息发送者来看,发送一条语用信息能否达到期望的效果,取决于是否能够了解并对应上接收者的认知结构和先验知识。毕竟没有两个人的大脑和获得的先验知识完全一样。所以,“人生得一知己足矣”不仅仅是情感表达,也是客观现实。就像米兰·昆德拉(Milan Kundera)在《不能承受的生命之轻》中所写,“他们完全明白彼此所说的话语在逻辑上的意思,却听不到话语间流淌着的那条语义之河的低声密语”。

(5)信息的真假是语义信息论意义上的命题,而不是统计信息论意义上的命题(研究符号的统计信息论不涉及信息真假的问题)。因为每个人的先验知识和认知结构不同,所以同一条信息,对于某些人来说为真,对于其他人来说可能为假。就像本书中提到的观点,也仍然存在很多争论。比如,在以追求真理为目标的科学领域,一个命题(科学假说、定理)在某些时候为真,过了一段时间就可能为假,这是波普尔揭示的可证伪的科学原则,因为随着人们获得新的观察信息,其认知会发生改变,因而会改变对原来命题的理解,所以说实践是检验真理的唯一标准。而在以往知识和信息世界重要组成部分的历史记录方面,波普尔认为,历史根本不存在,存在的只是对历史的解读。借用现代科学研究认识论的观点可以理解为,人们对信息真假的认定是个统计结果,即人们在多大概率上(或在一定时间范围内有多少人)取得共识,在某种情况下多数人认为当时是真的信息就为真(如司法实践中的盖然性原则、区块链中的共识机制)。按照波普尔的观点,在科学研究中,即便是这种说法也显得过于绝对—“我从不认为理论能借助‘已证实’的结论的力量被确定为‘真的’,即使仅仅是‘概然的’理论”。当然,人们也为自己留了一条退路—“真理往往掌握在少数人手里”。

哲学家们一般用“信念(belief)”来解释“真假”问题,即“我就是相信这个说法是真的,我有我的理由,就算没理由也没关系”。布尔金说,“信念按与知识相同的结构化方式被结构化,与知识不同的是,它们没有被充分验证”,D.J.贝姆(D.J.Bem)说,“信念和态度在人类事务中起着重要作用,当制订公共政策时,关于信念和态度的看法甚至能起到更为关键的作用”。比如,在戴口罩是否会保护自己、减小受病毒感染可能性这个问题上,西方很多人就执着地认为戴口罩没有帮助,而无视很多医护人员通过戴口罩保护了自己的明显事实。原经济学会主席青木昌彦在对博弈论和新制度经济学的研究中提出了“共同信念(common belief)”的概念来解释制度的形成,多个思想主体要想组织成为有效运转的社会群体,共同信念这种有某种约束力(或主动妥协,或作为长期重复博弈的结果)的共识是不可或缺的纽带。

(6)布尔金说,雅各布·马尔沙克(Jacob Marschak)创始的信息经济学发展了面向经济学的语用信息论。现在大家更熟悉的信息经济学是指非对称信息博弈论在经济学上的应用,从作为其核心工具的博弈论开始,到委托——代理理论、机制设计理论、道德风险、逆向选择等一系列信息经济学模型,从研究博弈论的约翰·纳什(John Nash)、莱因哈德·泽尔腾(Reinhard Selten)、约翰·C.海萨尼(John C.Harsanyi)到从旧车市场模型提出信息不对称的乔治·A.阿克劳夫(George A.Akerlof),以及詹姆斯·莫里斯(James Mirrlees)、青木昌彦(如上面所谈到的共同信念理论)等经济学家,其实都是在语义信息的意义上讨论问题,无论是完全信息还是不完全信息、完美信息还是不完美信息,或者对某个信息的(共同)理解、(共同)信念、(共同)预期,其中讨论的信息对象都是作为信息接收者的人(尽管也用过智猪博弈模型)对信息含义的理解,因而本质上都是语义信息的意思,和语法信息(符号)没有关系。在数字技术产生重大社会影响之前,语法信息与语义信息分离的影响不太突出,语法意义上的信息不对称与语义意义上的信息不对称之间的区别也并没有引起人们的注意。但随着数字技术的广泛应用,两者的区别已经非常明显了,所以在理解上也出现了一些困惑。而现在以数字经济为主题的研究更多是在研究经济绩效表现,或者说是在研究语法信息处理技术(数字技术)给经济效率和绩效带来的影响。比如机器与机器之间的通信效率已经极大地提高了,如果从香农定义的信息(剥离了语义)的角度来看,(机器与机器之间的)信息不对称早就不存在了,因为香农的目标就是实现某一点的信息在另一点的完美再现,这个目标在通信界早就实现了,这也是现代通信业存在的意义,所以语法意义上的(机器与机器之间的)信息不对称应该是不存在的。但很显然,我们感到,信息不对称问题依然存在,从香农定义的信息角度无法解释清楚。因而,数字经济和信息经济学讨论的根本不是一回事。这也是现在两个研究方向之间总有点找不到感觉的原因。其实就是双方都误解了信息的含义,一方把语义信息当成了信息的全部,另一方把语法信息当成了信息的全部。

更合理的解释是,ICT的发展缓解了人与人之间语法信息的不对称(机器与机器的通信效率大大提高了),但语义信息的不对称会永远存在(不同的人对同一信息总会有不同的理解)。道理很简单,原来两个人面对面交流都有语义上的信息不对称,现在在中间加上两台机器来帮忙(通信)(见图1-7),难道就能消除语义上的信息不对称了吗?青木昌彦认为,ICT的发展不仅没有降低反而增加了暗默知识的相对价值,其实说的就是这个问题(青木昌彦的意思是ICT的发展加深了某种信息不对称的程度,他指的当然不是语法信息或字面信息的不对称,而是指暗默知识的不对称。因为ICT肯定能帮助人们更方便地获得更多语法信息/符号,所以从语义信息意义上看青木昌彦所说的“暗默知识价值增加”的观点就很容易理解了(在信息超载的环境中,不同的人处理语义信息的能力可能会有很大的差异)。从这里也能推断出向青木昌彦提这个问题的人就是怀有这种误解的一个典型代表。正因为这个误解,才有了这个问题。因为这个问题十几年来我也问过自己无数遍。正因为对这个误解没有澄清(语法信息和语义信息的分离),也才有了青木昌彦的回答。我相信,如果没有这个澄清,人们对青木昌彦的回答仍然未必有清楚的理解。我想,这个澄清应该是对信息经济学的一个贡献。关于这个误解,要算账,可能还得算在“统计信息论把剥离了语义的信息当成信息的全部”这件事上。这本身就是一个信息不对称的大乌龙。

此外,从青木昌彦的回答也能得出一个推论:ICT的发展会缓解语法信息不对称的程度,但会加深语义信息不对称的程度。

图1-7 人——机器——机器——人的信息传送过程

4.含义的回归

在香农把含义从信息中剥离出去的多年之后,法国哲学家让-皮埃尔·迪皮伊(Jean-Pierre Dupuy)说,“我们仿佛拥有了关于这个世界的越来越多的信息,但这个世界在我们看来却越来越缺乏意义(1980年)”,“不可避免地,意义将顽强回归(2000年)”。

这些说法不免让人想起受香农信息论启发而创立转换——生成语法的语言学家艾弗拉姆·诺姆·乔姆斯基(Avram Noam Chomsky),在其1956年的开创性论文《语言描写的三个模型》及阐释该论文的《句法结构》一书中,他像香农一样先把语言的“意义”研究排除在句法研究之外,并取得了巨大成功,句法结构对语言学研究产生了巨大影响(乔姆斯基被称为“想成为研究思维体的牛顿”),也是现在人工智能重要方向——自然语言处理的理论来源。乔姆斯基在其后40多年间再逐渐把语义加回到对语言结构的研究当中。不过,这种先拆开再组装的道路并不好走,信息含义的回归也并不容易。

(1)从信息接收者来看,消息(或信号、载体)的送达、信息(或信息外壳、符号)的接收(或解码)、含义(内容)的理解(或解释)是3个不同的过程。前两个过程已经在现代通信技术、信息技术的帮助下大大提高了效率,相比之下,现代技术对信息接收者理解(解释)含义的效率提高作用相对不大,这个理解(解释)过程就是认知心理学所说的信息加工过程,或者说信息结构化的过程。从根本而言,这受限于人的认知能力的进化(从大脑容量的进化推断人类认知能力可能已接近极限),而现在还没有发明出来能够迅速提升人类认知效率的辅助工具。这个矛盾也是信息超载给人们带来困扰的根本原因。

(2)在信息获取非常方便的今天,语法信息不对称的问题已经得到大大缓解(对信息字面含义的“知道”水平会接近),但语义信息不对称的问题在人与人之间会永远存在(对信息含义“理解”的差异不一定会接近)。这个现象不仅仅存在于前面所举的专业知识差异的例子中,在常识范围内也广泛存在,如新冠肺炎疫情防控期间,因观点不同而在朋友圈反目的现象大量发生,即便多年的老朋友也会发现难以相互理解。除了认知结构和先验知识以外,语用环境的差异可能也是一个常见但经常被忽视的影响因素。相对而言,存储程序的计算机更容易做到这种语义信息传递的完整和准确,因而机器智能的群体协作,比人类的网络化协作应当更有效率。

(3)在“信息的意义强行回归”时,人们还没有找到能够指导解决这个问题的理论和根本方法。虽然人们认识到研究语义信息的重要性,但语义信息理论研究的进展却不大,根本原因是对含义的理解与心理因素密切相关(这也是香农特意把含义排除在(统计)信息论研究之外的主要原因)。在语义信息研究领域也没有香农式的人物出现,耶霍舒亚·巴希勒(Yehoshua Bar-Hillel)、保罗·鲁道夫·卡尔纳普(Paul Rudolf Carnap)、卡尔洛·雅各·尤哈尼·辛提卡(Kaarlo Jaakko Juhani Hintikka)和其他一些学者发展了一些语义信息理论,其中不少借鉴了统计信息论的思想和方法,但都对解决实际问题没有太大帮助,没能得到广泛接受,与统计信息论的影响完全不在一个量级上。

(4)雷·索洛莫诺夫(Ray Solomonolf,研究归纳学习)、安德烈·N.柯尔莫哥洛夫(Andrey N.Kolmogorov,研究概率和信息基础问题)和格雷戈里·约翰·蔡廷(Gregory John Chaitin,研究计算复杂度)通过各自的研究,发展了用来测度信息复杂尺度的算法信息论。一个二进制符号串的算法复杂度度量了其中的信息量,字符串的算法复杂度(也常被称为柯氏复杂度)越高,这个字符串的信息容量就越大。这个理论认为信息的复杂度与产生、提取和使用这个信息的算法(可以是人,也可以是计算系统)有关,一个具有更强大算法的系统(或人)能够从同样的符号串中提取到更多信息。蔡廷的同事查尔斯·亨勒·本内特(Charles Henle Bennett)提出了“逻辑深度”的概念来衡量信息的价值。这些理论仍然是研究信息“是多少”而不是“是什么”的问题,但它研究的是信息“有多(少)复杂(度)”,进而接近“信息有多少价值或用处”的问题,而不是像统计信息论关心信息“有多少比特”的问题。看起来我们距离语义问题又近了一步,但依旧很远,因为还不是从语义或经济角度对信息价值的衡量,布尔金将之归为语用维度的信息论。这个研究是迄今为止语法信息理论与语义信息理论距离最近的一个理论。

(5)语言学、心理学、信息技术等领域在提高人机理解界面效率方面不断进行探索。与乔姆斯基一起开拓了认知科学的心理学家乔治·A.米勒(George A.Miller)与同事一起创建了词网(WordNet),语义网络、语义网、知识库、知识图谱、语义精准搜索等技术也在不断发展,仍然是用统计信息论的思路和技术来处理语义信息问题,用过滤(精简)信息接收数量的方法来提高信息(含义)的接收效率,这一方向和人工智能的研究交汇在一起。

(6)探索把语义加回到其开创的句法结构的乔姆斯基对建立普遍语义学的可能性却持怀疑态度。他说:“是否可能建立一门普遍语义学,对每一个词项的每条意思都作完整、精确的表达,并提出一些规则,确定这些词项组成的词语的意义?我认为有充分的理由对这项工作表示怀疑。其他认知系统,尤其是由对世界上的事物及行为的信念构成的系统,以极其复杂的方式与我们对语义做出的判断交织在一起。能不能设法在原则上把这些成分与通常所说的、甚至在专门研究中提到的所谓‘词语的意思’分开,我们并不清楚。我相信不可能把语义表达式和人们对世界的认知分开。”由此可见,像香农一样,乔姆斯基也把他开创的语法模型的边界和语义存在的内在难题说得很清楚了,他把人工智能领域相关的自然语言处理叫作“统计语言模型”,并表示其可能有工程意义上的成功,但与科学无关。不过,跟在他后面的人也像跟在香农后面的人一样,有意无意地模糊了乔姆斯基的观点,把统计语言模型(实际上是统计共识意义上的语法模型)当成了语言的全部。

必须再次明确的是,我们无法在统计信息或语法信息里找到信息的含义,含义不在信息传递(通信,包括记录)的路上,含义在每个信息接收者的算法里。对于人们来说,有个错觉必须澄清:机器的算法和你的算法在物理上是两个完全不同的东西,别看计算机、智能手机或其他智能助手都近在咫尺,但就算把它们吞进肚子里,你也得不到由它们的算法计算出的含义,信息对于你的含义只能通过你自己的大脑计算才能获得。

(7)信息含义的回归隐含了(包括但不限于)以下3个问题。一是(语义)信息不对称的现象是永恒存在的,网络化的人类智能(市场化)协作可能只在不太复杂的任务(对于信息的字面含义容易达成共识的任务,或容易定量衡量其共识度的任务)上实现。复杂的任务则对应青木昌彦所说的观点,仍然需要由紧密协作的组织来完成。二是如何在信息超载的数字信息世界里更有效地建立起有意义的信息连接(以实现所期望的含义传递)。三是如何从接收到的信息中挖掘出更有用的语义信息,需要积累哪些认知能力和先验知识。

当年香农不但在哲学上,而且在物理上成功地把信息的“意义”分离了出去。现在,虽然人们在哲学上意识到了信息含义回归的问题,但在物理上并没有找到回归的路径,也许在物理上根本就实现不了。在我们感慨香农的伟大之时,可能也应该意识到,这或许也是人的不幸之处。

五 信息的含义如何实现

虽然计算机已成为人们处理信息和知识的强大助手,但计算机只是处理信息含义的一个中间节点(即计算机也是一种信息接收者,信息对计算机而言也会产生存储、处理等指令含义),信息和知识的最终使用者还是人。所以,信息对人的(语用)和(语义)含义影响仍是我们关注的落脚点。从语用角度来看,信息发送者的主要目标有3个:提供信息(告知)、娱乐或劝服,即给信息接收者带来知识(影响认知)、娱乐(影响情绪)或调节其行为(影响行为)。在语义和语用信息论不能提供更多帮助前,需要借鉴一些心理学的认识。

1.人脑信息处理系统

从信息的含义来考虑,一般把认知信息作为最主要的关注点,因为这是对理解含义来说最主要的问题。一般信息论认为,除了认知以外,信息接收者的情绪也是影响信息含义处理的重要因素。

就像人们常说的“要想改造自然,先要认识自然”,要想影响大脑,先要了解大脑。布尔金借用保罗·麦克莱恩(Paul Maclean)建立的三位一体脑理论(尽管其结构划分在生理学上有争议,但在心理学研究中可基本被接受),提出了将人脑划分为3个信息处理系统的模型,如图1-8所示。

图1-8 三位一体脑的信息功能

这3个系统不仅会分别接收外部信息,相互之间也会发生信息交换,即人的思想(理性认知、推理)、情绪(情感)、愿望(本能)和行为之间会相互影响,如图1-9所示。

图1-9 人格组分的相互作用

(1)愿望和本能系统对应神经系统中后脑(包括脊髓)部分的功能(麦克莱恩称为爬虫类脑),处理原始感觉、运动等功能,即动作和行为执行,如条件反射、下意识(即不经思考的)活动等。人的所有行动指令都由愿望和本能系统产生,来自理性认知系统的想法或来自情绪情感系统的意图都必须转化为愿望才可能促成行动。

能够直接对愿望和本能系统产生影响的信息称为直接调节/效能信息。在人类社会中,一些不包含认知内容的心理(行动)调节暗示可以看作是直接效能信息的例子。而像条件反射中产生的一过性生物电信号,不产生经大脑理性系统处理所获得的“含义”,所以这种调节信息及本能系统应该被划作物理世界的组成部分,而非精神世界的组成部分。

(2) 情绪/情感系统大体对应人类大脑进化出的第二个系统——边缘系统(麦克莱恩称为古哺乳类脑),主要用来处理情绪/情感信息。情绪/情感系统和理性认知系统可以看作是人类精神世界的两个主要部分。直接影响这个系统的信息称为直接情绪/情感信息。

理性智能系统和情绪系统相互影响。一方面,心理学研究表明,情绪信息对于智能发展非常重要,有情绪智能一说;另一方面,值得注意的是,认知信息可经过理性智能系统转化为直接情绪信息进入情绪系统,再由情绪系统转化为直接效能信息进入愿望和本能系统,形成愿望,最后达成行为。“信念(belief)”可以看作是夹带了情绪的认知,信念的比较级(或最高级)就是信仰(faith)。当然,信仰也可以看作是夹带了认知的情绪。

有学者把与情绪有关的认知信息称为认知情绪信息,这类信息非常重要,会对认知和情绪两个方面产生影响。直接情绪信息不同于认知情绪信息,一个消息可能没有认知含义,但情绪含义非常丰富。认知情绪信息和直接情绪信息在人类社会中都广泛存在,比如《乌合之众:大众心理研究》一书中揭示的大众心理受影响过程中经常出现的那些现象,很多是受到直接情绪信息的影响。另外,新冠肺炎疫情防控期间,许多国家的人们抢购卫生纸的行为也可以用情绪化决策来理解。

(3)培根说,上帝创造出来的第一件东西就是感觉之光,而创造出来的最后一件东西才是理性之光。理性智能系统对应新大脑皮质(麦克莱恩称为新哺乳脑),占大脑质量的85%,主要负责接收和处理各种感官发来的外部环境信息,形成知觉和认知功能,通过逻辑和算法处理各种信息,形成创造和智力功能。大脑左半球完成逻辑和分析功能,使用符号信息做运算,在意识层次上按序列进行单步推理;右半球处理图像并实现知觉、创造和综合功能,在意识层次上以并行的方式工作。理性智能系统是人区别于其他生物所在,是人类智能的核心与标志。

尽管生理学、心理学等已经对大脑理性认知过程进行了很多研究,但受限于人类自身的认知能力,对于理性智能系统的构成和运行细节仍不是十分清楚。直接影响理性智能系统的信息是认知信息,认知信息是知识变化的源泉。理性智能系统和认知信息也是研究信息、知识等问题时的重要关注点。

如果对照世界3的DIK金字塔,也可以把三位一体脑描绘成世界2(人类精神世界)的金字塔结构,如图1-10所示。其中,与知识和信息世界相关度最大的是智能层,情绪层也与信息有密切关系。本能(愿望)层则属于较低级的执行系统,在人类精神世界中不是关注的重点,但在涉及机器的活动,尤其是赛博物理系统中,与机器行为(活动或执行)直接相关的这一层是重要组成部分。

图1-10 本能——情绪——智能金字塔

2.情绪的回归

从培根提出人类解释自然的知识和改变自然的权力开始,到波普尔论述科学发现的逻辑之时,科学哲学领域的学者明确了在科学研究中应当尽量排除心理因素(其中更多含义是排除情绪因素)的观点,以使科学研究尽可能在理性的情况下进行。众多科学家在科学研究中都遵循这一原则,香农创立信息论时对排除的心理因素有所扩展,他甚至把人的认知心理因素也排除在外了,这与他的研究对象本身——信息有关。

但实践发现,人类理性认知的获得和知识的积累不仅是理性智能系统运行的结果,也受到情绪系统的影响。相比之下,人工智能没有情绪因素的影响,因而在知识的构建上比人类更“纯粹”,也会得到与人类不尽相同的结果。1998年,马文·李·明斯基(Marvin Lee Minsky)指出,情绪只是不同的思考方式,真正的智能计算机需要有情绪,如果没有情绪,机器不可能达到人类智能。1997年,罗萨琳德·皮卡德(Rosalind Picard)提出情感计算(affective computing)用来处理情绪的符号表示,现已成为一个新兴研究领域,并与人机交互、语音识别等技术发生交汇。

有学者提出,理性(认知)的作用是帮助人们做出决定(决策),而情绪是帮助人们确定立场。但人们还远没有搞清楚两者之间的复杂关系,而且这种“理论上的理性”决策假说也受到广泛质疑。诺贝尔经济学奖和图灵奖得主赫伯特·亚历山大·西蒙(Herbert Alexander Simon)提出“有限理性”的概念,认为受人们所能加工的信息数量具有认知局限性影响,决策过程中的理性是有限的。有学者注意到,随着互联网带来的信息环境的变化,认为消费者在决策时采用针对特定目标和情境的“实用理性”的观点可能也不准确,可能人们还没有完全具备适应新环境的学习能力。在快速变化的数字化信息环境中,直觉和情绪化决策可能在很多互联网行为(包括经济行为)中发挥更重要的作用。

通过计算机之间的网络通信促进知识交流、增进人们的理性认知,曾是互联网创立者的理想,但是互联网普及后的社会现实却是大量情绪信息(或者说,能够或试图影响情绪的信息)充斥在网络空间里,稀释了认知信息。有倾向(或立场)的意见很大程度上是情绪的反映,群体意见(public opinion)则成为舆论。如培根所说,凡是建筑在自然上的东西都会生长和增加,凡是建筑在意见上的东西则只有变化而没有增加。作为认识自然和改造自然的科学知识和技术知识可以在先验知识的基础上不断垂直积累和增加,情绪只会随所接收到的情绪信息的影响发生变化,就如同信息只有流动、知识才能蓄积。情绪和情绪信息怎样才能更好地为人类自身带来益处,还需要探索。

对于身处数字化信息世界中的人们而言,周边的情绪信息不可避免地增加到一个新的水平。如同含义之于信息的回归一样,情绪因素和情绪信息也不可避免地需要回归——无论在社会生活、经济决策,甚至在科学研究和技术活动中——和理性认知共同发挥作用。关于这一点,还需要进一步研究。

3.影响信息含义获取的方法

信息发送者为了达成告知、娱乐和劝服接收者的通信目标,往往从接收者的心理角度来考虑如何影响接收者对信息含义的获取。

(1)捕获接收者的注意

认知心理学认为,注意是大脑过滤信息的一种工作机制,其作用是避免我们被过量的信息淹没。在面临大量外部信息的时候,注意会选择某些信息使其获得被进一步加工的可能,同时抑制其他信息使其无法获得被深入加工的可能,即注意体现的是输入信息之间的竞争。

从信息发送者一侧来看,在信息超载的环境中,接收者的注意力就成为决定信息竞争成败的首个瓶颈环节。因此,采取各种各样的方式争夺接收者的注意力成为互联网信息业的首要竞争法则。能够捕获接收者注意的竞争者,才能进入下一环节。

(2)寻求共识或共情

要想使接收者获取到信息含义,要么发送能影响其理性智能系统的认知信息,要么发送能影响其情绪系统的情绪信息。不同的人可能有相同的心理,在语义信息论里称这种现象为心理等价,可以理解为对于信息含义的共同理解。如果能达到对于信息含义的共同理解,则发送者和接收者之间就能够建立起关于信息含义的通信关系,进而可能实现告知、娱乐或劝服的通信目标。

对于信息含义的共同理解,在认知信息方面是基于先验知识取得的共识,在情绪信息方面则是来自某种记忆或潜意识中的东西,人们目前还没有弄清楚,就像《不能承受的生命之轻》中所描写的与他人分享情感的情感想象力或情感的心灵感应艺术,也许可以称之为共情(神入,empathy)。

应当说,完全的共识在人与人之间是不存在的(人生难得一知己),这只是理论上的最高程度,其原因之前已经讲过,每个人的大脑和先验知识都不一样,大家的算法不同。同样,完全共情也是不存在的(千古知音最难觅),也只是理论上的最高程度。

从信息发送者一侧来说,要想在信息超载的竞争中获胜,就要向目标接收者发送具有某种共识度或共情度的信息。从语用目的出发,共情度或共识度并不一定越大越好,就像作画时要“留白”,可以用“逻辑深度”的思想来解释。

语义网络、语义网、知识图谱、语义精准搜索等方法,是在假设群体对信息字面含义产生共识的基础上,用语法信息技术来解决问题的方法,并且假设主要问题是因为人机之间的通信带宽(人的注意力过滤机制造成的)不足。既然通信带宽无法提高,那就想办法精简信息量。

利用人群的统计情绪状态,制造虚构信息来影响情绪是更常见的经验做法。自有语言和文字以来,虚构信息就从未断绝。如培根所说,诗人说谎,是因为谎言能带来愉快,商人说谎,是因为谎言能带来利益,而人们却是为了说谎而说谎。其中的动机来自记录(和表达)信息的主体(以及媒体、中介等掌握信息传播渠道的主体)自己的目的,主要是为了影响信息接收者——其中以影响情绪为主,这样的信息对认知没有什么帮助。就像新冠肺炎疫情防控期间,假新闻(fake news)之声不绝于网。

(3)了解信息接收者

要想达到与信息接收者在某种程度上的共识或共情,需要先了解接收者的先验知识构成,猜测接收者的认知结构或情绪状态,所以广泛收集信息使用者(潜在的信息接收者)的相关信息成为互联网信息服务业,甚至扩展到其他许多行业的另一个竞争法则。用户画像、精准推送,都是在对信息使用者信息收集基础上的结果。

人们浏览、搜索、过滤的信息成为信息发送者及信息中介(尤其是信息平台)观察、探测用户认知和情绪的原料,在大量信息汇集的情况下,有可能还原出信息使用者的多维,甚至全息特征。人们从主动观察、寻找(搜索)信息的自由主体正在不知不觉中转变为被(动)观察、被(动)搜索的客体对象。看似人们发现信息的效率提高了,但信息获取的独立维度(或正交度)却被大大压缩了,甚至被锁定在某个维度的一个方向上。

六 三元世界的变化

我们再回到三元世界来看,数字化带来的最大变化就是数字化信息和知识世界的快速膨胀。

1.数字化信息世界快速膨胀

知识和信息记录工具的变化极大地改变了信息和知识世界的面貌。人类在口语时代,除了口口相传的一些传说(如经游吟诗人之口),少有记录下的知识和信息。

有文字以来,文字记录者成为一个专门的社会分工门类,从记账者到史官、方志编撰者等,开始记录下一些信息;思想文化逐渐兴盛后,思想家、文学家、艺术家、宗教人士也成为知识记录的主要群体;印刷术的出现极大地促进了记录知识的复制和传播;文艺复兴后科学知识的迅猛发展和继之而来的工业革命,极大地促进了科学知识的记录,成为人类知识快速发展的第三个高峰期,知识世界快速膨胀。但当时知识和信息的记录仍然只是在全部人口中占很小比例的人群的专门工作。

电子时代促进了自动记录工具的出现和普及(摄像机、传感器等)。数字技术取得飞速发展后,尤其是互联网产生以来,普罗大众获得了广泛、便捷、快速记录信息的能力,记录权从特权的圣坛上跌落,即使目不识丁,也可以用手机摄录很多图片、视频上传到网络,人类记录的信息量呈指数级增长,数字技术完全征服了所有现存的媒介技术而成为主要的信息传递技术。此外,传感器、物联网的广泛部署也极大地扩展了机器自动采集记录数据的数量。无论是有人操作,还是无人操作,数字化信息已经形成了高频率、无间断,甚至多角度(多主体、多维度)记录的状态,数字化信息记录更新的速度从“日新月异”提升到“秒新分异”。从信息增长的量级和速度来看,数字化信息世界正在并将继续极大和快速地膨胀。格林伯格发现的那个“传自远古大同世界的窃窃私语”现在发出了异常磅礴的“回声”。

在这个过程中,急剧膨胀的主要是数字化记录下来的信息,而不再是文字记录时代的主角——经过人类精神世界精炼过、结构化过的知识,在记录的数量上,信息取得了对知识的压倒性优势。这应该是将知识作为世界3关注重点的波普尔所没有料到的,而这一切都源于符号表达的数字化。波普尔的三元世界现在可以改为如图1-11所示的数字化三元世界,其中的世界3现在应该被称为“数字化信息和知识世界”,虽然还是世界3,但与波普尔所说的知识和信息世界相比,已经是完全不同的含义。在某种程度上,16世纪培根提出的“知识就是力量”的论断正在扩展为“信息就是力量”(虽然并不意味着知识的权力被削减,但无疑已被信息的力量分享了)。

图1-11 数字化三元世界

2.数字化信息世界动态化

数字化信息记录工具的变化改变了世界呈现的模样。互联网和物联网的出现促进知识和信息世界从零散、非连续、书面的状态向整体、连续、实时的状态转化,正在勾画出一个越来越完整、精确、动态的知识和信息世界。比如,通过众多网约车实时位置的上传,数十秒就可以汇聚形成精确的城市动态地图和交通状况,传神地喻示了数字化信息世界的形成过程。

从书面记录的知识和信息世界到现代信息网络上的知识和信息世界,恰似人们在一幅画布上涂画的若干静态的字句和图样变成了荧屏上色彩斑斓的动态图景(也有人认为是镜子中的动态映射,但实际上在互联网的动态图景背后仍有并未完全显露出来的含义,其中既有经过人类精神世界加工的含义,也可能有自动记录下来的信息隐含着的物理世界的秘密,就像《不能承受的生命之轻》中提及的“画布背后的东西”,所以也许将其比喻为荧屏上的动态图景更为合适),而且荧屏上的动态图景正在逐渐立体化和高维化,好像正在形成汪洋般的数字化信息世界。

3.数字化信息的流变

如果说语法是信息的躯壳,那么语义就是信息的灵魂。数字化世界中语法和语义相互分离,语法可以自由流动,语义却要各自归依。“躯壳跑得太快,灵魂来不及安放。”同时,在网络上流动的语法信息躯壳(数据)不断发生变化,其无限低成本复制的特性既带来了许多汇集和关联,也带来了像凯文·凯利(Kevin Kelly)所说的“重混(remixing)”,可能还有其他未观察到的变化正在发生。我们暂且把这种信息流动中发生的变化称为“流变”(与力学中的“流变”一词无关)。

流变的结果是原本无含义(或有某种含义)的数据/信息可能变为有含义(或其他含义)的信息。比如网约车的地理位置信息流变为城市地图,比如AI“换脸”将原来的形象换成不同的形象。流变最大的意义可能就在于能够无中生有,而无中生有原本是人类精神世界的专有权力。(某种意义上,人类社会的形成就是这种无中生有的结果,组织、宗教、金钱、文学、艺术,甚至科学,都是无中生有、虚构信息的结果,人们就是基于对这些虚构信息的共同信念(common belief)才组成了人类社会。这也是人们对AI万一获得意识后的最大担心。)

数字化信息流变也是一个结构化的过程,而且可以在数字化信息世界里直接完成,不必先由精神世界完成结构化,再记录到信息世界中。数字模拟、数字仿真都可以看作特定技术领域内的信息流变。

这个越来越膨胀、精确、动态、流变的数字化信息世界不但重新构建了人类精神世界中各个主体之间的关系(人与人之间的知识和信息交换),而且重新建立起物理世界中各个对象、各个要素之间的连接关系。数字化信息流变给不同主体带来了不同含义和不同价值,也给信息世界带来了前所未有的边界划分、权利冲突和权力重组等问题,在这块新生之地上,人们正面对如何建立新规则的挑战——这个规则不完全对应于现实人类社会的规则。

4.信息超载和流变带来的问题

信息超载、信息爆炸、信息泛滥成为人们用来形容数字化记录信息极大膨胀的常用说法。这些变化给人们带来了许多明显的问题。

(1)信息超载的困扰

信息超载已经给人们带来了明显困扰。比如,温伯格说,“现如今,我们将信息超载视为一种文化环境。而令我们深夜难眠的,并不是担忧如此众多的信息会令我们精神崩溃,而是担心我们无法得到自己需要的信息”;雷军说,“我们被海量的信息包围,却难以找到有用的信息”;还有前面提到迪皮伊说,“信息社会中存在这样一个悖论:我们仿佛拥有了关于这个世界越来越多的信息,但这个世界在我们看来却越来越缺乏意义”,以及被重新回顾的艾略特之问,“我们在信息中失去的知识在哪里?”……

这些焦虑不是来自物理世界和精神世界的,而是由数字化信息世界的变化引起的。人们焦虑的是从信息到知识的过程中出现在两个不同环节的两个问题:一是如何在信息世界中寻找到希望得到的信息(含义);另一个是如何通过接收到的信息形成更多的知识(认知)。信息超载容易造成“学而不思则罔”的状况,信息接收者接收到了大量外部信息,但缺乏足够的结构化方法、精力(能量)或时间,无法将其完全结构化为人脑内在的认知。

(2)数字化信息世界变化带来的问题

一是当信息供给量不再是问题的时候,注意力相对稀缺成为问题。现在,这个生理(或心理)意义上的人脑自我保护机制对信息接收的制约作用正在凸显出来。

二是当语法信息供给量不再是问题的时候,信息含义相对稀少成为问题。在发生信息超载的同时,并没有发生知识超载,知识量也没有爆炸式增长,知识被海量信息摊薄。

三是语法信息处理能力提高后,语义信息处理能力不足成为问题。或者说,当数字化能力不再是问题的时候,人类认知能力(信息和知识的结构化能力)相对不足成为问题。知识增长远远落后于信息增长。前面种种困惑隐含的意思都是——人类认知能力已经难以适应这种新的海洋般的信息世界的客观存在,依靠以往进化出的认知思维模式和能力甚至难以从中获得合适的精神养分。单从信息科学技术领域自身来看,就像1950年图灵在《计算机器与智能》一文结尾所写,“我们只能看到当下,但看见的这些就够我们忙活的了”。从那时起,大家就一直在香农和图灵的思想之内忙着寻求边际改进。图灵之后,尚无新知;香农之后,尚无新意。

四是数字化信息世界治理的问题。作为一个正在不断膨胀、动态化和流变中的新兴世界,其中的权利分配、运行规则等都有待建立。

还有一个问题。记录就是被记录,连接就是被连接,观察(浏览)就是被观察(被浏览),过滤就是被过滤,搜索就是被搜索。这些对人们到底意味着什么?信息的这种被动产生再一次验证了波普尔所说的其作为人类活动无意识副产品的特点(比如为了达到网上购物的目的而无意识或不得不记录在网上的各种个人信息)。不过这也带来了经济上的意义,以往作为人类精神世界无意识副产品的知识和信息,在数字化以后可以成为能够投入经济生产的关键要素,当然,前提是得能够找到它的含义。

5.应对问题的办法

面对数字信息世界中语法信息和语义信息之间的分离,除了前面谈到的改进边际效率的语法信息技术和一些商业化的策略技巧之外,人工智能(AI)和脑机交互可能是应对这个问题更重要的两条路线。

AI可能成为不同于人类智能的智能主体,正在成为一个新的变化因素。我们将在下一节详细讨论。

现在脑机接口技术还处于初级阶段,通过脑机交互技术能够为失能人士提供行动辅助。2019年7月,埃隆·马斯克(Elon Musk)宣布NeuraLink公司已经研发出了一套脑机接口解决方案,侵入式脑机接口或将在一年内在人类大脑中完成植入。2020年8月,NeuraLink公司展示了Link V0.9神经植入技术用于猪脑的最新试验进展。2020年初,浙江大学附属医院完成了国内首例Utah array电极植入,帮助病人实现日常生活行动。非侵入式接口能够对用户进行神经反馈训练,强化某一频段脑电波达到增强反应的目的。远期来看,通过脑机接口对人脑的记忆和认知产生影响,应该是未来努力的方向。当然,这些还将取决于脑科学、神经科学、认知科学等众多相关学科的进展。

6.这个新世界的名字

关于发生数字化改变后的世界3的名字,有人把它简化为数字世界或者直接叫作数据世界,但我还是愿意称之为数字化信息和知识世界,不只是延续波普尔提出的世界3的思想,而是因为我还是愿意相信这个世界对人类精神世界而言,还是有某种特殊含义的(尽管其他智能主体可能解读出不同的含义),哪怕是虚构的信息,也总好过一堆由冰冷机器记录下的虚渺飘荡的语法符号(即便是一堆记录的资料也好不了多少)。格林伯格的*tik的回声越响,越凸显这个世界的空旷。

当面对的这个世界有了含义,人类才不会孤独,你才能够想象和相信,还有很多生动有趣的思想和灵魂陪伴在你周围,一切也才有了生机和意义。否则,可能就像贝托尔特·布莱希特(Bertolt Brecht)所说,“一个有话想说却找不到听众的人是很不幸的,但更不幸的是那些没有人有话想说给他们听的听众”。

所以,对这个世界的名字的称呼,是我的一个信念。

七 继续变化的世界

香农开创的数字化信息世界的膨胀远没有要停下来的迹象。作为构建数字化信息世界必需的基础设施,如5G、卫星互联网等技术已经在路上,下一代数字基础设施也已经在计划研究之中。虚拟现实、混合现实也正在不断把人们更深地拉入数字化信息世界。甚至连新冠肺炎疫情这样与数字化无关的因素,也促使人们在物质和精神上加深了对数字化信息世界的依赖。

1.AI重新崛起

从信息到知识、从知识到智慧的困境不是在数字化之后才出现的,艾略特之问发生在1934年,比图灵构想图灵机和香农提出二进制逻辑电路还要早2~3年。但在书面记录时代,这个困惑可能并不那么突出,只能说艾略特太有先见之明了。甚至当1967年波普尔明确提出世界3拥有客观自主性的时候,他也并没有什么特别的担心或认为有什么值得不安的地方。他认为世界3里的事物只要自在存在就好了,反正只是人类活动的无意识副产品,就像人造的鸟笼,如果有鸟喜欢可以在里面筑窝,如果不适用就放着,这个鸟笼是否被使用是关于偶然性的问题(作者写了书会不会被人看,被人看了能领会多少内容,都是很偶然的事情)。但有了AI以后,数字化信息世界似乎不再像波普尔的鸟笼那么简单了(虽然人类记录者无心,但难保AI使用者无意(识))。

作为帮助人们处理信息、辅助思考的AI在大数据的源生汤中重新崛起。随着互联网技术的发展而聚集的数字化信息的膨胀,基于大数据统计的机器学习、深度学习、强化学习算法天生适合处理大数据,在处理大量数字化信息时取得了明显进展,AlphaGo、AlphaZero、AlphaFold等的成功将AI重新拉回人们的视野,成为补充人类认知能力不足、解决大量信息处理问题最重要和最现实的一条路线。

图灵不但是计算机科学之父,还是人工智能之父。他不但在自己的精神世界中构造了计算机的原型——图灵机,还在自己的精神世界里构造了人工智能的原型——能通过“图灵测试”的计算机。如图灵所愿,他在自己的精神世界中构造的“会思考的机器”已成为现实。早期的AI(定理证明机、专家系统等)离人类精神世界比较近,主要在精神世界的指导和监测下完成一些需要更强计算能力的任务。进入21世纪以来,AI则以数字化信息和知识世界为主要孕育地,似乎开始远离人类精神世界。

AI表现出来的能力使波普尔关于世界3具有“自主性”的哲学命题似乎越来越接近一个物理猜想,而原本作为(或证明)世界2存在意义的人类精神世界的中介作用似乎也有被替代的可能性。曾被认为“不可证伪”的波普尔三元世界理论正在迎来被证伪的机会。数字化信息和知识世界(新的世界3)会创造出一个世界4(如图1-12所示)吗?如果真的形成了一个世界4,那这个世界的开创者无疑是图灵。有学者认为,当前人类已经进入了一个由自然世界、人类世界、信息世界、智能体世界组成的四元社会。但大部分学者认为智能体成为真正的一元可能尚待时日。

图1-12 继续变化的世界

2.AI是否会成为新的一极

今天我们看到的一切变化都肇始于数字化编码的产生,所以称“今天”为“数字时代”合情合理。但人类原本自以为尽在掌控的三元世界的平衡正在被打破。半个世纪以来,物理世界还是原来那个物理世界(当然有了很多数字化改变的成分),精神世界也还是原来那个精神世界,但知识和信息世界已不再是原来那个知识和信息世界。数字化信息世界的膨胀和流变向人类精神世界提出了挑战,人类理性认知能力已经跟不上数字化信息世界的变化。人们在数字化信息世界中孕育了AI,虽然这个世界最初也是人类所创造,但波普尔的鸟笼好像将成为AI的应许之地。人们已经开始担忧:未来人类能否继续保持对世界的掌控?

今天正在孕育着的变化是否有可能导致独立于人类精神世界的智能主体的出现,人工智能是否会强大到成为未来世界的一极,甚至是一元,专家学者对其前景仍有不同看法。人工智能可能带来的变化是进入一个人类智能与非人类智能共存的时代。无论如何,未来都将是一个以“智能”为主题的时代。如果人类能够保持掌控力,那么AI也不过是在物理世界中新增加的一件人造物品,像差分机、计算机那样,其作用就是对人类智能的增强或辅助(IA,Intelligence Augmentation/ Assistance)。但在AI日渐强大的能力面前,曾经受到自然青睐的人类认知能力显得不那么适应数字化信息世界的新环境,人类精神世界是否会退化甚至坍缩为被AI所观察和改变的物理世界中的一个组成部分(就像我们现在观察物理世界中的其他物种那样),是很多人担心的事情。

虽然目前AI已经在图像识别、语音识别、自然语言处理及部分策略博弈等方面取得进展,AlphaFold在蛋白质三维结构预测方面的进展也展现了AI在帮助科学发现方面的能力,但AI还没有(而且很多人认为AI也难以)发展到像人类智能这样的顺应语境的智能水平,因而目前AI仍在人类精神世界的控制之下,离形成独立的一极还有相当长的距离。

对于AI远景的看法,人们也有非常大的分歧。AI的发展从脑科学研究中得到了不少启发,不少人对AI越来越强的能力感到不安,埃隆·马斯克之所以投入脑机接口技术研究,某种意义上就是对超级AI的出现产生担忧,同时也有某种借助AI经验增强人脑的打算。图灵奖得主约书亚·本吉奥(Yoshua Bengio)在ICLR2020大会上提出,注意力机制或许是未来机器学习的核心要素,借鉴注意力机制可能使深度学习和意识之间建立关系。不过,许多人认为,科学研究是在现象观察和原因解释之间不断迭代深化的过程(否定之否定、证伪之证伪),人工智能则只是在数据之间寻找(描述)关联关系,不进行原因解释,即AI只可能具备解决“是什么”“怎么做”的智能行为能力,而不具备人类解决“为什么”问题的智慧思维能力。比如,乔姆斯基认为,自然语言处理所依赖的统计学习语言模型只能做工程的事,却做不了科学的事。这种方法不具备科学发现所需要的洞察力(或悟性),乔姆斯基在其他场合也表示过,意识是简单的,前意识(即在理性之外形成解释能力的能力)才是困难的,赫尔伯特·西蒙在谈专家直觉时也说过,在科学领域,无意识的发现常被认为是神秘的。AlphaFold的案例表明,AI能为受观察测量工具限制的科学发现提供新的帮助途径,但还好不是在洞察力方面。迄今为止,还没有看到AI具备这种能力的迹象。解释能力(权力)可能成为人类精神世界得以保留的最后防线,而人们自己也没搞清楚的这种洞察力(或悟性)就是这道防线的最后守护。

3.赛博物理系统

近年来,赛博物理系统(CPS)越来越多地被提到。

从对赛博空间一词的使用来看,它并不完全对应三元世界中的数字化知识和信息世界,而是应该加上物理世界中的效能信息系统(边缘计算以下的通信和控制过程)。CPS意指构建物理世界与信息世界的直接信息(包括电磁信号等信息载体)连接,形成物理世界向信息世界的自动信息记录和信息世界中的存储程序(包括AI)对物理世界的自动控制(cyber)。

不同于此前物理世界和信息世界之间的信息连接大多需要经过人类精神世界(中介)加工和监控的过程,现在CPS的通信、计算和控制过程越来越可以不(时时)经过人类精神世界而发生。机器和机器之间的算法更容易保持一致,语义问题不再像有人参与时那么麻烦,两个世界之间传递香农的信息就够了。在诺伯特·维纳(Norbert Wiener)1948年出版的《控制论(cybernetics)》中明确指出了通信系统使用的是统计信息的思想。在这个系统的构建中,人类精神世界的中介作用似乎有被短路的可能。

如同人们发展AI的动因一样,发展CPS的动因同样也是因为人们感到自身在(工程)技术知识积累能力方面的不足。面对大量自动记录下的数据,却无法获得更多有用的知识,因而求助于基于大量数据的采集能力、机器计算能力和算法的组合——希望借助数字化信息对物理世界的虚拟(或模拟),再通过对数据的研究形成新的(工程)技术知识。数字主线、数字孪生等技术就是向这个方向延伸的草蛇灰线,而做好这些的前提是,要积累特定领域的结构化知识并形成对其进行数字化表达的能力。没有先验知识的积累,再多的数据也不可能带来更多知识。

八 小结

最后重申或明确以下几点认识。

1.在波普尔三元世界观里,记录的数据、信息、知识是属于世界3的事物,人的智能、智慧是属于世界2的事物。

2.数据是表示客观存在特异性的符号。知识可以积累,信息只有流动。从数据到信息、信息到知识,不断通过结构化得到更多含义,这些都需经过信息的流动来完成。

3.香农的统计信息论排除了信息的含义,只研究数字符号。语法信息和语义信息的分离造成了太多世人对信息一词的误解。语法信息和语义信息的分离也可作为数字经济部门划分的参考出发点。数字部门经营语法信息(统计信息),互联网信息服务业经营语义信息,数字化部门用数字化工具(统计信息处理工具)经营本部门专业知识。

4.语法是躯壳,语义是灵魂。信息的含义取决于接收者。不同算法(接收者,人或系统)可以从同样的语法符号串中得到不同的含义。数字化技术(语法信息处理技术)大大提高了语法信息处理效率,语义信息处理效率跟不上这个变化,这也是数字化给世界带来变化、矛盾和困惑的根源。信息含义需要回归,但如何回归尚未可知。

5.在现代信息通信技术的帮助下,语法信息不对称的问题已大大缓解。但只要有人参与其中,(语义)信息的不对称就永恒存在,因为完全的共识或共情并不存在。大规模市场化协作只能在简单任务领域实现。

6.理性认知可以增长,而情绪只有变化。在数字化世界中,有限理性更加有限,情绪化决策不可避免。

7.当前的总体问题是,数字化信息世界的发展打破了三个世界的平衡。

8.数字化世界中,知识增长落后于信息量增长。信息力量分享知识的权力。

9.人类认知能力限制了语义信息处理效率或信息结构化的效率,未来AI和脑机交互是解决这个问题的两条主要路线。AI是帮助人类处理信息的外部助手,是否会形成独立的一极还有争论;脑机交互是要把人类自己变成AI来处理语义信息。

10.数字化信息世界好像是AI的应许之地,难以言传的暗默知识的来源(悟性所在)也许是人类精神世界的最后秘密。

从信息,尤其是信息的含义开始,我们才能更好地理解我们所做的事情和所处的世界。当然,这并不妨碍我们先用信息技术去改变世界,比如当下快速发展的数字经济。至于用回归的信息含义来改变世界,在语法意义上也许我们已经做的就是能做的全部了,在语义意义上我们还不知道方向在哪里,但在这条路上,我们要改变的不是外部世界,而是人类自己,脑机接口也许算得上路口前的一个模糊路标。

注释

[1]ICT指信息通信技术。

相关图书

ChatGPT与AIGC生产力工具实践 智慧共生
ChatGPT与AIGC生产力工具实践 智慧共生
专利写作:从创意到变现
专利写作:从创意到变现
产品经理方法论——构建完整的产品知识体系(第2版)
产品经理方法论——构建完整的产品知识体系(第2版)
程序员的README
程序员的README
架构思维:从程序员到CTO
架构思维:从程序员到CTO
开发者关系实践指南
开发者关系实践指南

相关文章

相关课程