图书

电子书

课程

VIP会员

书课包

谷歌语义搜索

978-7-115-37626-8

作者: 【英】David Amerland

译者: 程龚

编辑: 傅道坤

分类: SEO

图书目录:

详情

语义搜索就是通过理解用户输入的语句背后的真实意图来进行搜索，并返回符合用户需求的搜索结果。本书讲解了语义搜索的基本知识，以及其中使用的Knowledge、TrustRank、AuthorityRank等技术，还对Google的内部运作和最新的专利进行了分析。本书适合搜索领域从业人员、SEO从业人员、网络营销人员阅读。

图书摘要

谷歌语义搜索

Google Semantic Search

[英] David Amerland　著

程龚　译

人民邮电出版社

北京

图书在版编目（CIP）数据

谷歌语义搜索/（英）阿默兰德（Amerland，D.）著；程龚译.--北京：人民邮电出版社，2015.3

ISBN　978-7-115-37626-8

Ⅰ.①谷…　Ⅱ.①阿…②程…　Ⅲ.①语义结构—网络检索　Ⅳ.①G354.4

中国版本图书馆CIP数据核字（2015）第013320号

All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Que Publishing.

本书中文简体版由Que Publishing公司授权人民邮电出版社独家出版。

未经出版者书面许可，不得以任何方式复制或抄袭本书内容。

◆著　[英] David Amerland

译　程龚

责任编辑　傅道坤

责任印制　张佳莹　焦志炜

◆人民邮电出版社出版发行　　北京市丰台区成寿寺路11号

邮编　100164　　电子邮件　315@ptpress.com.cn

网址　http://www.ptpress.com.cn

大厂聚鑫印刷有限责任公司印刷

◆开本：700×1000　1/16

印张：13.75

字数：241千字　　2015年3月第1版

印数：1-3000册　　2015年3月河北第1次印刷

著作权合同登记号　图字：01-2013-9201号

定价：45.00元

读者服务热线：(010)81055410　印装质量热线：(010)81055316

反盗版热线：(010 )81055315

内容提要

语义搜索是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身，而是透过现象看本质，准确地捕捉到用户所输入语句后面的真正意图，并以此来进行搜索，从而更准确地向用户返回最符合其需求的搜索结果。

本书是最易读的语义搜索入门图书，共12 章，涵盖了什么是语义搜索、什么是知识图谱、SEO 的新发展、信任和作者排序、什么是TrustRank、内容如何成为营销、社交媒体营销和语义搜索、不再有谷歌的“第一页”、影响的传播和语义搜索、实体抽取和语义网、语义搜索的四个 V、搜索如何变为无形等知识。本书除了剖析谷歌的内部工作模式和新专利之外，还讲解了社交网络对SEO性能的影响。

本书适合搜索领域从业人员、SEO从业人员以及网络营销人员阅读。

关于译者

程龚，现就职于南京大学计算机科学与技术系、计算机软件新技术国家重点实验室，担任助理研究员。2006 年毕业于东南大学计算机科学与技术专业，获取工学学士学位，2010 年毕业于东南大学计算机软件与理论专业，获取工学博士学位，师从瞿裕忠教授。他的研究兴趣包括：语义搜索、语义Web、Web科学和数据集成。近年来主持一项国家自然科学基金项目和一项江苏省基础研究计划项目，并参与过包括国家973计划课题在内的多个科研项目。他在International Semantic Web Conference （ISWC）等国际会议和 Journal of Web Semantics 等国际期刊上发表过多篇论文，并曾两次获得 ISWC 的最佳研究论文提名奖。他的主要业余爱好是旅行、摄影和篮球。

关于作者

早在那个只需要一本 80 页纸的目录就可以列全所有网站，搜索引擎优化（Search Engine Optimization，SEO）的技巧还停留在堆砌关键词和夹带不可见文本的时代，David Amerland 就与Web 结识了。

从那个搜索引擎优化和社交媒体营销尚不繁荣的时代起，他就已经开始与大型跨国企业和个人企业家合作，帮助他们制定与其内在文化相符的优化和营销策略，以向他们的目标受众传递价值。

他为福布斯（Forbes）、英国惠普（HPUK）和今日社交媒体（Social Media Today）撰稿，也在自己的网站HelpmySEO.com上写博客。写作和上网冲浪之余，他也会花一些时间做一些关于“社交媒体是如何改变一切”的演讲。

献辞

和其他每本书一样，这本书也献给N。她对我意味着一切。但我也想把这本书献给另一个N，也是一位女性，有着尖尖的耳朵和一条尾巴。在深夜时分，当我奋笔疾书时，她的陪伴让世界更多了一些暖意。我以不同的方式向你们俩致以谢意。

致谢

没有任何一本书是单靠一个人就可以完成的，这本书也不例外。第6章中对内容质量、内容管理及其对语义搜索的影响的评论，承蒙 www.asmartsolutions.ca 的CEO Sergey Adrianov 的指点，他勇敢地让我把这些写进书里。这章中使用的关于谷歌搜索及其与谷歌产品和服务之间关系的图表得到了 Frontiercoaching（www.frontiercoaching.com）的Bob Barker 以及Thomas Power 的授权，他们关于数字领域发展的某些想法经常让我激动得彻夜难眠，一直思考。

自从Google+成为我生活的一部分以后，这还是我的第一本写在纸上的书。因此，我非常感谢所有那些与我分享思想火花，以及就此向我提供反馈或者补充他们自己观点的人们。在越来越多以致难以一一致谢的人们当中，我需要特别提及如下几位：Jeff Jockisch，在他的帮助下，我对身份和信任有了更深的认识；GideonRosenblatt，他的Google+社区为关于作者身份对搜索中的排序的影响的一些有趣的观点提供了讨论场所；Mark Traphagen，他孜孜不倦的工作才使得每个人都没有偏离作者身份这一主题；Bill Slawski，是一位搜索引擎优化专家，他是我认识的最专注于谷歌专利及其意义的人；Aaron Bradley，他对语义搜索的理解堪称典范；J. C. Kendall，用实例证明了工业界可以更多遵循的那些搜索引擎优化伦理；Dan Petrovic，他频繁的搜索引擎优化实验帮助我论证了我个人的观点；NOD3X 的 Lee Smallwood，慷慨地对数据进行了可视化，使我得以将观点表述得更透彻；还有那些只是与我在网上结识，但他们的慷慨、帮助、智慧和细心让我深深折服的人们。在此向你们深表谢意。

要感谢杰出的高级策划编辑 Katherine Bull，她从不催促我，即便我知道有时候她已经非这样做不可了；组稿编辑 Amber Avines，她对这本稿件的初审是非常宝贵的；项目编辑 Andy Beaster，我敢肯定要是没有他，一些文件早就不见了；感谢Pearson 的编辑团队，他们让我的文字更容易理解。最后，我要感谢搜索引擎优化的思想家和实践者 AJ Kohn，他使我在写作本书时将天马行空般的思考落在了实处。我要对他致以特别的谢意。

上述所有人的努力都为这本书创造了价值，如果书中还发现有一些错误，责任完全在我。

前言

搜索正发生着变化。当然这不是一个新的话题。从某个角度来说，它从第一天起就在一条不断变化的轨迹上运动。然而如今，这条轨迹的弧线已经以更快的速度和更陡的角度来匹配Web。

事实上，不能认为搜索与 Web 是各自独立的，没有了搜索的 Web 无法正常运转。这种共生关系带来了各种各样的问题，因为它成为了一种推拉效应的一部分，其中，Web表示那些在其中积极工作的人们，他们想要将所有错误的东西都推出去，而搜索则想要把所有东西都拉进来。

当所有事物都进入 Web 之后，这场索引信息的争斗转变为将其正确分类的争斗。因为 Web 的增速是如此惊人，任何分类都必须是机器驱动的并具有可伸缩性（scalable），这只能以两种方式发生：A，有人的辅助；B，没有人的辅助。

我们从马尔可夫链（Markov chain）和布尔算法（Boolean algorithm）非常突然地切换到了不断变化的伦理领域和对做“正确”或“错误”的事的意愿上来。这里的假设是，一旦某个事物可以被解构并且其工作方式可以被理解，人们就可以试着借势（gaming it）来优化它的效率。

这正是在搜索上发生的事情。当搜索因部分借助人力而有助于理解那些被编入索引的数据应该被如何分类之后，它便基于有关借势的必要技术创造了一个完整的产业。

当搜索引擎用更复杂的方式来反击我们借势其算法在 Web 上获得更大曝光度（visibility）的尝试之后，“我们”和“他们”之间的推拉效应就被强化了。搜索引擎更新的每个周期都会带来“阵痛”，并造成曝光度的损失，因此，这不得不通过寻找借势搜索的新方法来应对，如此往复。

语义搜索有着终结这一轮回的前提和前景。理解语义搜索的最好方式是将其比作一个探照灯，打探了 Web 上所有不同的数据结点，并跟随它们绘制了一幅画面来刻画它们是如何连接的，它们属于谁，谁创建了它们，他们还创建了其他什么，他们是谁，他们曾经是谁以及他们是干什么的。

语义搜索的最基本层面是将含义（meaning）用于 Web 上不同数据结点之间的连接，让我们得以对它们建立起前所未有的清晰理解。这是颠覆性的。Web由数据组成，数据则被大量性（volume）、高速性（velocity）、多样性（variety）和真实性（veracity）这些概念所支配，一旦我们找到一种方式来完满地应对这四个概念，我们就已经解决了搜索问题。

目前我们还没有做到。语义搜索应用的新动态在这四个概念之间徘徊，它们中任何两者之间的平衡都远没有被解决，更不要提全部四个了。如果解决了如何索引每分钟都在生成的大体量数据这一问题，那么如何用一种满足时间需求的方式来对其分类就变得至关重要了。在分类和分优先级的速度问题（即速率）被解决后，内容的多样性就成为了一个问题。

在所有这三个方面以及搜索结果中的质量问题都最终得以解决之后，起源和信任（即真实性）问题就抬起了它丑陋的头。接下来，非常突然地，其他三个概念中的每一个都再次成为问题：你该如何来验证以如此惊人的速度涌入的数据、快速地评价它并成功地应对它的所有变种呢？

答案在于增量地解决。语义搜索不同于过去我们拥有过的任何技术，它可以缓存它所计算出的所有特征，因而它所照亮的数据结点在它离开之后不会再回到黑暗之中以等待再次照亮。这样它就在进行一种学习，并变得愈发聪明、愈发敏捷、愈少犯错误和愈可靠，也变得愈难被借势利用。

本书谈论的是语义搜索，即关于它是什么、它怎样运转以及你现在可以做些什么来从中获益。写这本书时我主要关注的是谷歌，有三个原因。首先，谷歌在搜索的语义索引方面有显著的进展。其次，Google+社交网络在帮助网站提高在线曝光度方面扮演了一个重要角色，如果低估了它，就会在搜索中丧失一个巨大的机遇。再次，谷歌是世界上最主要的搜索引擎，占据了 95%的全球移动搜索市场和超过80%的全球桌面搜索市场。如果不去关注它，就没有任何商业意义了。

语义搜索用很多方式将我们带回到了 Web 的那个黄金年代——就在线的工作而言，只要你有工作的热情、自信和精力，一切皆有可能。

我们又面临这样的景况，对此我很兴奋。我希望这本书成为你数字旅途的指南，但我更希望它成为你亟需的一块跳板，使你得以让自己的工作在世界上以数码或其他形式留下一丝痕迹。

David Amerland

2013年，曼彻斯特

第1章什么是语义搜索

搜索是我们在 Web 上浏览的途径。如果你的业务在搜索中不可见的话，它就很难被你的客户发现。搜索首先是一种营销，并正经历着一场巨大的变革。

在本章中，我们讨论谷歌搜索中出现的新元素、为什么会发生这种变化以及它将如何以你能想到的几乎每种方式来影响你的业务。本章提供一份清单，罗列了你为了能利用上即将到来的变化而需要去做的每件事情，并且本章的每一节帮助你理解你需要做些什么才能充分利用谷歌的语义搜索。

1.1 向语义搜索迁移

如今，当我在谷歌的搜索框中敲入一条搜索查询之后，我会异乎寻常地感觉到屏幕的另一侧有一种智能给了我答案。以前可不是这样的，而如今我所感觉到的这种智能是搜索技术领域从未取得过的、最具突破性的进展之一。当然，就像手机和3D电视一样，其概念并不是全新的，并且差一点就没能成为现实。

一本关于语义搜索的书不可避免地会以“语义搜索究竟是什么”这样平淡无奇的问题作为开篇语。答案可能极具技术性并且复杂难懂，它可以包含数学甚至一些哲学概念（当它们适用于数学时），但本书并不打算从技术的角度来简单地满足你的好奇心。我在本书中给出的关于语义搜索的一些解释在某种程度上是有所局限的，但它们为帮助你更好地理解语义搜索提供了一切所需。

我是“知识就是力量”的坚定信徒——但仅当知识可以被理解的时候。因此，如果有时候我简化了一些技术细节以至于语义搜索听起来有点过于简单了，是因为我渴望达成你阅读这本书的原因：找出你需要做些什么来帮助你的业务在 Web 上取得更大的曝光度。

为了弥补这一简化，我在书的末尾提供了完整的参考资料和学术文献，其中大部分可以在 Web 上免费获取并为你营造许多个晚间阅读的快乐时光。那么不再多说，让我们来看看什么是语义搜索以及为什么它是我们数字世界中的一件大事情。

“语义”是一个希腊语词汇，意指“含义”，语义领域一直忙于研究词语的含义和逻辑语用。在 Web 搜索中，语义搜索标志着一种过渡——从面向以一定概率值包含我们所找信息的单一网页的“笨”搜索，过渡到一种能够提供真正答案或将我们引向一个与我们使用的搜索查询无关并且在过去传统的关键词触发的结果中不会出现的一个网页上的智能搜索。

语义搜索作为一个概念，起源于常被称为互联网之父 [1] 的 Tim Berners-Lee 在2001 年《科学美国人》（Scientific American）上发表的一篇文章。其中，他解释了语义搜索的本质是通过数学来摆脱当今搜索中使用的猜测和近似，并为词语的含义以及它们如何关联到我们在搜索引擎输入框中所找的东西引进一种清晰的理解方式。

从概念上讲，语义搜索最多就是这些。这一改变允许我们做出过渡——从一个链接之网——带给我们一些继而不得不在搜索要找的信息时人工检查的可能答案，过渡到一个答案之网——这些答案是从海量数据的复杂关联和交互中综合得到的，基本上就出现在页面上等待我们立即阅读，或者最多通过点一次鼠标就能获取。

前语义时代的 Web 传送的是一些链接，它们出现在搜索结果中是因为它们表示的页面包含了关键词。语义 Web 传送的是与我们在搜索中键入的问题直接相关的确切答案和页面。

尽管这作为一种过渡可能听起来很简单，但实际并非如此，证据在于当这个概念得以传播了十几年之后，我们才只是刚刚开始直面语义搜索这一现实。语义搜索如此难以实现的原因涉及只有回想起来才觉得是显然的两个因素。第一个是数据。要让一个搜索算法能搞清楚在搜索框中输入的一个词汇的含义并“理解”它，所需要的与之相关的数据量都远超出当前我们已准备好存取的量。更重要的是，不仅仅需要数据，也需要一种有意义的排序和分类，这些处理数据的方式使其从人的角度而言开始变得有意义。

第二个原因是可伸缩性。要让语义搜索在组成 Web 的数以万亿的页面上运转，只能以一种既不需要人的介入又能保证搜索结果质量的方式来扩展到这个数量级。这里的难点在于搜索的质量一直在被人为地一点点微调。当你我执行了一次搜索，并且翻阅了五六页的链接也没能找到我们问题的确切答案之后，我们便很不高兴，并回去重新搜索一次。通过改善自己的搜索查询，我们控制着查找的准确性。搜索中不准确的结果经常是由不够精确的搜索查询导致的。

“关键词”作为搜索返回结果所依赖的途径，对于想要在搜索中排名更高的业务、想要更快地获得更精确结果的个人以及有时候向出价最高者售卖服务的 SEO专家而言，已经进入了他们的字典里。

我们在搜索中由于所用搜索词含义的误解会得到不精确的结果，这没什么大不了的，因为我们知道无论如何我们总能钻取到要找的信息。人的大脑和眼睛可以快速理解一个网页上呈现的内容，并用一种计算机做不到的方式来决定其是否包含要找的答案。这种低效的方法也能作为应对错误和虚假信息的一种质量保障。

为了更好地说明这一点，以一次传统的搜索为例，例如“肉毒杆菌”（Botulinum），会得到一些页面描述其作为人类已知的最致命的物质之一的功效，同时也描述了它在整容手术中作为肉毒杆菌霉素（Botox）使用。接下来，我作为一个操作员，可以确切地决定我在找什么——是让自己身中剧毒的方法，还是一种消除时间的痕迹并让我重回青春容颜的方法。在这种搜索中，执行搜索的人也在过滤相关结果。

语义搜索认识到了这个搜索词大多指的是那种毒素而不是肉毒杆菌霉素，从而使搜索结果不再含有歧义，并在页面上提供我所需要的答案。它是通过我们即将了解到的一些方式来计算相关的数据从而做到这一点的。问题的关键在于，类似这样的答案中的错误更难被发现，因而使它们可能更具灾难性。

当你用来找东西的搜索引擎从一个搜索引擎变为一个答案引擎之后，得以建立或摧毁整座大厦的就是我们愿意给予我们所得到的答案的信任。例如，可能要不了几个错误就会导致谷歌品牌在搜索领域中的彻底毁灭，以及声誉乃至市场的丧失——那可是花费了超过15年的持续努力才建立起来的。

语义搜索花了这么长时间才最终到来的一个原因是风险很高而对错误的容忍又非常有限。当然，其他原因还涉及与之相关的限制因素，而这些首先是被语义搜索正在取代的搜索技术现状所定义的。

1.2 搜索如何工作

从小时候起，我就坚定地相信一条原则——要想理解任何一件事物的工作原理，你需要将它分解来看它的细节。这条适用于玩具的原则也非常适用于搜索。

谷歌页面上的搜索是基于后端的三个基本组件的复杂组合来构建的。

一个蜘蛛（spider）或称网络爬虫（web crawler）。

一个数据库（或者索引）。

一个大型的计算机网络。

与之对称的是另外三个看似基本的元素，事实上每当我们在谷歌搜索框中执行搜索时，它们的组合都会出现在前端，就在我们面前。

一些搜索引擎结果页面（Search Engine Results Pages，SERPs）。

在每个搜索结果页面从顶到底 10 个可用位置上的结果的一种分层排序［称为相关结果（organic result）］。

一种使用了超过200 种排序因素的排序算法。用数学方法将出现在谷歌搜索结果页面上用来回答一条搜索查询的每条结果放在一个最能反映谷歌对这条结果可以提供的答案所具有的信心的位置上。

蜘蛛以惊人的速度在 Web 上穿行并收集它们在网页上找到的所有信息，将其取回并索引到谷歌的数据库中。接下来，谷歌的计算机网络提供能够匹配谷歌搜索框中的一条搜索查询的信息。这三个元素之间有很重要的相互依存的关系。如果没有一个高质量的蜘蛛，谷歌就没法索引可见 Web 上可以获得的海量信息。如果没有用来组织所有收集到的数据的数据库，就没法存储它们，而如果没有计算机网络，谷歌就没法像现在这样提供搜索结果。

事实上，这三个元素非常复杂。谷歌的蜘蛛以纳秒速度在整个 Web 上穿行，收集数TB（terabyte）的数据。它的索引能够可靠地分类和存储这些信息，同时它的计算机群能够保持 24/7 的稳定工作，即便像所有硬件一样，每天其中都有几万台会出故障。

组成搜索前端的三个元素同样有着重要的相互依存关系。如果没有搜索引擎结果页面（SERPs），谷歌就找不到实用的方式来为其信息索引提供一种可视化。如果没有页面的分层堆叠和它们中的每条结果的分层排序，就没有简单的方式来为一条搜索查询首先呈现最有可能的答案，然后才是次可能的，等等。最后，如果没有一个搜索排序算法，谷歌就没有任何把握能设法为其索引中的结果创建一个可以将它们呈现在搜索结果页面上的分层结构。

谷歌的做法和其他公司都不同。计算机、蜘蛛、索引、搜索排序算法和数据中心都具有一种突破性的和独特的体系结构。不同的国家可以用不同的语言提交不同的搜索查询，为了让这种组合变得有趣，我可以在谷歌的美国索引中用英文查询位于美国的信息，即便当我在上海时，我可以得到和我在美国时几乎相同的结果。

然而，尽管这一切相当复杂，整个前端操作都由那三个本质上很笨的元素组成。搜索结果页面呈现信息，分层排序传达一种对结果的信心的信号，排序算法决定每条结果应该出现在搜索结果页面中的什么位置，计算机网络为之服务。这些元素中的每一个都基于不间断、不休眠的、具有机器人般不知疲倦和聚焦视野的后端配置——它从不思考，只做要它做的事情，并在一定程度上做得很好。

这一切复杂性的最终结果是我们熟悉的谷歌搜索外观的简单性——10 个蓝色链接出现在SERPs中，每条带有一段简明的片段描述，并根据质量降序排列。

在一种情况下这个系统就不再按其被希望的那样来运转，即当人为干预——或者更确切地说，是人想要借势它的动机——开始影响 SERPs 上的结果排名，使得一些网站开始作为一条搜索查询的答案出现在一个远高于它们应有的位置时。

没有脑子的人都知道，如果搜索就是营销，并且如果搜索是我们在 Web 上浏览的唯一可行的方式，那么一家设法在搜索中排名高一点的公司将会受益巨大。与这些相关的经济回报使得借势谷歌的算法成为几乎整个搜索引擎优化产业的圣杯。

自从搜索出现以来，搜索引擎优化（Search Engine Optimization，SEO）专家们就使用与驱动搜索一致的数学逻辑来让他们的客户受益。人性就是这样，很自然地试着找到弱点来利用，搜索技术以及搜索中的数据评价方式都是如此。

谷歌和搜索引擎优化师之间的猫和老鼠的游戏，使得原先明显无能的在搜索中决定结果（即网站）排名的搜索算法在一定程度上变得更聪明了，用一种更聪明、更不易被那些理解搜索是如何运转的人所借势的方式对呈现的结果进行排序。

的确，对于谷歌引入的致力于提高搜索结果页面的质量和可信性的搜索程序的每一次更新，搜索引擎优化师们迟早能找到方法得到完全相反的结果来利用它。

每次谷歌引入一个改进、一个过滤器或者一种惩罚机制，SEO 就会对其进行实验测试来发现其缺陷和漏洞，推究其细节，然后便不可避免地借势它来得到可能比原本稍好一些的搜索排序结果。

理论上讲，这种轮回可以永远持续下去。谷歌可能已经能够修复其提供相关搜索结果页面排名的算法，但如果不改变其本质，对于 SEO 而言，只不过是又一个更大更笨的野兽，可用与过去相同的机制来掌控——也许基于一些新的组合，但仍会被研究、分析并最终被借势。

语义搜索的引入叫停了这一切。现在谷歌决定一个网站在搜索中排名的搜索排序算法所考虑的因素已经有了显著的扩展，包含的信息已经很难被借势。这便让搜索回到了它本来的功能：一种有用的导览 Web 上海量信息的手段，当然很自然地，这就引领我们可以去看一看底层原理，了解是什么让语义搜索活跃了起来。

1.3 语义搜索如何工作

和普通的搜索一样，我们可以将语义搜索分解为几个组成部分来确切地了解它是怎样工作的——它与我们过去习惯了的搜索不太一样。更重要的是，来了解这种不同是如何发生的。

在我们深入细节之前，首先看一看图1.1将会很有帮助，其中展现了帮助建立语义搜索的那些元素。

为了建立起能够用你我的方式理解字词的语义搜索，三个元素需要组合在一起。

首先是一个统一资源标识符（Universal Resource Identifier，URI）。这可以是我们都熟悉的Web上的一个URL，或者可以是一个统一资源名称（Universal Resource Name，URN）——这是一种特别的方式用来说明它是比如一个人的名字。URI是必要的，因为它是初始数据集的来源，是的，这个过程中仍然会涉及到一个蜘蛛。然而，仅有这个初始数据集是不够的。可以将它们视作海量的原始数据，在这个阶段它们还没什么用，需要进一步地分类和提炼。

正如甘蔗经过一道提炼工序将其从类似竹竿的东西变为了可以让我们的饮料和甜品变甜的细白砂糖，URI在其可用之前也需要进一步提炼。这种提炼在一个资源描述框架（Resource Description Framework，RDF）的帮助下完成。可以将RDF视作一个规则集，支持数据从存储这些 URI 的一个数据库向另外一个传输（或称翻译），并且既不丢失含义也不弄混取值。

为了阐明这一点，让我们来看一个简单的例子，即我在英国的家庭住址。我的住处由我的名字、门牌号、街道、城市、郡、邮政编码和国家组成。在一个英国数据库中，一个邮政编码由字母和数字组成。现在假设我的数据正被移植到一个美国数据库中，这样我才可以订阅一份美国印制的出版物。用以前的方式来做马上就会出现一些小问题。首先，在美国，郡被州代替了；其次，邮政编码（post code）通常称为美国邮编（ZIP code）；第三，邮政编码的格式是不同的，通常全是数字。

如果没法告诉美国数据库它已经接收到的是哪类信息，就没法有意义地来使用，于是比方说我就不能订阅任何美国杂志，除非我决定移民到美国并在那儿买一幢房子。

幸运的是，RDF 可以把我的英国数据翻译成那些对美国数据库而言有意义的字段，于是我就可以用我的曼彻斯特家庭住址收到从美国投递的杂志了。不仅如此， RDF 还允许美国数据库保持我的英国邮政编码格式，同时看起来它又是一个美国邮编。

因此，在这一情境中，RDF 为一个网络爬虫或者蜘蛛所索引的原始数据提供了含义，并允许这些数据在几乎任何地方都有意义。我说的是几乎任何地方，是因为尽管给机器去读的数据可以是非常精确的，但人们使用的词却不是这样的。同一个词可以有不同的含义甚至不同的用法。这种歧义问题可以用本体（ontology）——即含义的汇集来解决。

例如，一个本体可以定义：地址在城市中，城市在郡中，郡在国家中。当有人问我们要我们的地址时，你我直觉就会如此理解，但机器却做不到，并且如果没有一个本体来指导它们，它们永远都做不到。

本体很容易被构造为一些类和这些类的一些子集，继而再为它们添加一条推理规则。例如，一条推理规则可能说如果一条地址在某个城市中，并且这个城市在某个郡中，那么这条地址就在那个郡中——即便没有提过这一点。因此，通过详述我的地址以及我住在英国曼彻斯特这一点，语义搜索可以像人一样容易地推导出我住在柴郡——即便我没有特别提过这一点。

计算机并没有真正理解我是一个英国居民、我的家在英国，以及英国被分为具有邮政编码而非美国邮编的若干个郡。但通过组合语义搜索的三个元素，计算机学会了翻译数据并将其以一种看起来智能的方式与特定的含义关联起来。某种意义上，如果我把自己的名字链接到那条地址上，计算机就会“知道”我是一个英国居民，而并不需要任何在线文档或数据曾提及这一点。语义搜索可以将它推导出来。更好的一点是，通过将我的地址关联到我的一种联系方式，也就可以把我的电话号码和电子邮件地址提出来呈现在搜索中，而不再需要去翻几十页来找到可以联系到我的最佳方式。

对于人来说显得有些笨重的本体却可以极好地在 Web 上工作。当网络爬虫们访问一个网站时，它们可以获得海量的数据而不会像人一样迷失其中或感到疲倦。过去它们所不能做的是像人一样搞清楚它们收集到的数据的含义。

然而，如今，随着引入了使用URI并通过RDF和本体来解析它的程序，数据获得了更精确的值从而允许谷歌的搜索从它索引的数据的关联中推导含义，并因此显得让我们觉得有些智能。

在图1.2 中，通过搜索“works of da vinci”（达芬奇的作品），我们可以看到被赋予含义的数据之间的关联所形成的威力。过去这会返回一组截然不同的结果，很可能对我而言是不够精确的，因而我不得不重新用查询“works of Lenoardo da Vinci”（莱昂纳多·达芬奇的作品）来改进搜索。

观察图1.2所示的搜索结果，我们发现这里的搜索算法已经聪明到能够理解“da vinci”指的是莱昂纳多·达芬奇以及我正在找他的艺术作品。在右侧它还给了我一些额外的个人简历信息，甚至建议了一些其他的相关搜索。

尽管这一特征和语义搜索的核心并没有直接的关联，但它对搜索结果页面仍是一个有价值的补充。它更正式一点的名字叫做意外发现（serendipity discovery），搜索技术中有一个领域都在处理意外信息检索以及支配它的驱动力。对我们来说，只要知道对于你业务的营销和你在未来找到客户的方式而言它有着巨大的影响就足够了，我们在本书中会探索这些影响，并将其形式化为能够帮助你利用它的一套实践。

1.4 没法再借势了

搜索和借势搜索的企图就如同培根和鸡蛋或者饼干和牛奶一样形影不离。未经谷歌允许就从事了SEO的公司包括德国宝马（BMW）（它们被剔出了索引），以及杰西潘尼（JC Penney）和Overstock（它们都受到了惩罚）。每一次的损失都是灾难性的，宝马品牌在其国内市场的Web上消失了；杰西潘尼和Overstock在谷歌降低它们 Web 排名后的三个月内遭受的损失差点让它们破产清算；尽管在下行市场中运作的它们更有可能面对各种各样的问题，但失去了在谷歌搜索第一页中的位置这一事实很可能让它们雪上加霜。

据我所知，尽管面临被谷歌惩罚的风险，一直就不缺少愿意冒险从事 SEO 的公司。回报是明显的，而能感知到的风险则未必会发生。因此，来自于谷歌的惩罚（甚至对于最严重的违规将剔出索引）还不足以成为一种威慑。

我从行为经济学中了解到的是，只要建立起一种度量，就会形成一种激励来让人们去追求它。在谷歌搜索中的高排名是一种明确的度量并已经时常成为 SEO 产业的祸根。我出席过一些讨论搜索价值的公司会议，唯一被问到的问题就是公司的网站对于特定的关键词而言排名如何。在这种情况下，也就有一种强烈的、额外的经济动力去通过借势搜索来将网站的排名提升到与其质量并不相配的程度。

面对所有这种行为，谷歌有两种选择：A，继续目前的“过滤器—惩罚—更多的排序因素”这样的迭代过程，与SEO产业玩猫和老鼠的游戏；B，找到一种方式让借势几乎不可能，甚至连排序都是多余的。

虽然策略A从一开始就存在，它很可能是更廉价、更明显的选项，但谷歌选择了B。它这样选的一个原因是其搜索竞争对手的发展没有给公司留下什么选择余地。而极大地减少那些借势其算法从而降低其搜索结果质量的尝试也一定是一个动力。

语义搜索，就像在其之前使用的搜索程序一样，也依赖于数学并且可以很大程度地被反向工程破解从而暴露其组件。但这一次，最大的不同在于度量的范围大到了如果要积极地寻求去借势它们，需要的时间、精力和代价反而超过了使用正规方法来提高搜索排名。

也许在 SEO 产业这是第一次出现为搜索排名寻找捷径的代价要超过不这么做的代价。这本身已经成为了一个改变游戏规则的进展，迫使那些从事搜索引擎优化的人以及那些雇佣他们的人保持得或许比他们骨子里更加诚实。为了保证这种状况得以持续，谷歌也在缓慢地终止传统理解上的搜索排序。

对搜索中一个特定关键词的排序已经不再是一种有价值的度量，这一观念同时成为了搜索引擎优化师和公司的梦魇。它移除了一种公认的度量——前者可以用它来证明自己的能力，而后者可以用它来约定前者的责任。

语义搜索还有其他更深远的意义，它直接影响了过去那种搜索营销的方式。我们在接下来的章节中将要详细探索这些，但一个概览有助于展现这一改变对于传统在线营销而言有多么彻底，影响有多么深远。

谷歌搜索每天回答十亿个问题。它是业务部门让它们的网站出现在其潜在客户面前的主要途径。为此，业务部门在传统上依赖于使用可以帮助它们出现在搜索中甚至谷歌搜索的第一页第一位的那些关键词。

搜索营销产业一直觉得第一页的位置对业务是有价值的，并且你在那一页上排名越高，就会获得越多的点击。为了量化这种感觉，Compete.com——一家媒体营销公司，在2012年花时间分析了“数千万”由消费者从2011年四季度起产生的搜索引擎结果页面。发布在其网站上的一项研究表明，搜索引擎结果页面上的点击之中，53%是第一条结果。在这一页的前五条结果中，第二条占15%，第三条9%，第四条6%，直到第五条一路下降到了4%。

就营销而言，这极有助于专注到可行目标上来。如果你真想要在线上取得成功，你需要：

有一个被谷歌正确索引的网站；

尽可能让你的网站排名靠前；

让你的网站出现在谷歌的第一页；

让你的网站出现在谷歌第一页的第一个位置。

然而，这些可行目标引发的策略如今受到了挑战——谷歌语义搜索呈现结果的方式现在使得Compete.com的研究过时了。

知识图谱传送带（Knowledge Graph Carousel）改变了搜索的固有结构，将终端用户的注意力从传统的10条垂直排列的链接转移到水平滚动的传送带的某一位置。10条垂直排列的链接中的前5条曾吸引终端用户87%的注意力，而传送带的水平滚动显著增加了点击竞争，甚至在我们看完页面上呈现的第一个链接之前。

营销是一个因果世界。其技术层面的每一个微小改变都会沿着链条形成大得多的改变，进而不得不以不同的方式处理问题。谷歌搜索结果的可视化呈现这种看起来简单的改变就是一个典型的例子。在语义搜索的时代，随着目标受众行为方式的改变，如今你在准备你的数字营销时需要记住的可行目标清单也改变了。

你的网站仍然需要被谷歌正确索引。

找到方式让你的网站对于搜索者的真正价值得以体现。

增加手段让你的网站能在谷歌搜索中被发现。

找到方式捕获谷歌搜索用户的注意力。

尽管重述之后的可行目标似乎只是微小地重新定位了应该做什么，但就像谷歌搜索中可视化呈现的微小改变一样，其影响要深远得多。

要理解所有这一切的变化到底有多微妙，就要考虑到所有这一切甚至发生于我们开始注意到语义搜索也具有计算能力之前。如今，许多答案将在搜索页面中直接给出，终端用户不再需要点击任何地方，这意味着许多曾经依赖于因搜索一条特定的答案而带来流量的网站如今将会感受到一些下滑。

当然，谷歌还没有真正放弃将排序作为一种度量。真正改变之处是搜索发生了改变和分裂。尽管我们曾经只有桌面搜索这唯一的舞台来衡量成功与否，如今我们在桌面和移动平台上有不同类别的搜索。谷歌图片搜索正成为流量的显著驱动力，谷歌即时（Google Now）和谷歌语音搜索则又一次是基于语义搜索的不同引擎，甚至还有让局面更复杂的谷歌的社交搜索——只要你登录你的谷歌账号并执行一次搜索，它就开始起作用了。此外，我们不能忘记 YouTube（谷歌的一个产品），它是仅次于谷歌的Web上的第二大搜索引擎。

想要真正理解搜索的未来，可以考虑强烈的个性化和便利性。谷歌即时作为一项相对较新的服务，使用了位置感知技术，该技术通过你的智能手机的GPS信号来追踪你在哪儿。接下来，基于你谷歌账号中的选项设置，它就借助谷歌对你偏好和需求的了解，预先加载你可能觉得有用的信息，这样当你需要的时候，它们已经在那儿了。

在接下来的几章中，我们详细研究在实际中所有这一切对于你的营销工作而言意味着什么，以及它怎样改变你的搜索引擎优化策略、你决定创建的内容种类、你的业务的战略定位，以及你给予与你并肩工作的团队和机构的指南。

目前，我们基于本章所讲解的内容，以一份你为了更好地做好准备而需要采取的步骤指南来结束本章。这种最终的步骤指南将在每章的末尾呈现，就像一份飞行前的清单一样，帮助你专注于应该面向的可行目标。

1.5 语义搜索准备清单

很矛盾的是，利用语义搜索需要回归到基本价值。我在这儿详细说明这一点，正表明了在过去10年中，我们在赶上搜索引擎的技术变化并领先于它们的限制的竞赛中，已经偏离赛道很远了。

真正的搜索在于提供有价值的信息，那些寻找它的人真正需要的信息。这并不是说“优化”策略就再也没有空间了，事实上恰恰相反。Web 设计、浏览器技术和搜索索引的复杂性形成了一些需要优化来战胜的挑战。为了节省时间、金钱并取得想要的结果，搜索的分裂化需要一个真正的策略。

语义搜索准备清单包括以下步骤。

识别出你的业务的独特卖点（Unique Selling Point，USP）。是什么让你从竞争对手中脱颖而出？你怎样确切地定义它？

列出你现有业务中出现的所有平台，包括离线的和数字的。

详细说明你的公司中谁负责协调搜索。解释他们是怎样做的，他们怎样将他们的行为与你的团队中的其他人沟通？

决定营销企划怎样在你的业务中传达。对此你有适当的策略吗？有办法对要向谁在什么时候传达什么东西制定优先级吗？

描述你的内容创建策略——谁负责以及它接下来出现在哪儿。谁来贡献？你怎样审查那些参与的人？你怎样保证通过内容正确地阐明和展现你的公司的价值？

罗列你所有的社交媒体网络行为。它们是怎样发起的？谁负责协调？怎样评估成果？你多久做一次评估？你怎样监测效果以及你有什么适当的应对策略？

描述你认为你的潜在客户在哪儿以及他们怎样找到你。你认为他们的价值和愿望是什么？你认为你的公司所做的和你的客户想要的之间的共同点在哪儿？

描述你的故事、你独特的信息。所有的公司营销都是一个故事，但它通常是支离破碎的。你怎样保证你的营销所发出的信息是连贯的？

详细说明你怎样在跨越你所有数字资产的营销信息中取得一致性。

罗列在整个数字频谱中你能拦截到你的潜在客户的所有可能方式。这里要尽可能全面，包括诸如群发通信等在内的传统营销方法。

注　释

[1]. 原文误称 Tim Berners-Lee 是互联网（Internet）之父，事实上应该是万维网（Web）之父。互联网之父一般是指Vint Cerf 和Bob Kahn。——译者注

第2章什么是知识图谱

语义搜索基于知识图谱（Knowledge Graph）。知识图谱让网站和人可以在新的谷歌搜索中被发现，它也成为了一种媒介，通过它你可以用一种新的营销方式来吸引潜在客户的注意力。在许多方面，知识图谱就是语义搜索的大脑。

在本章中，我们将看到知识图谱到底是什么，你怎样才可以被纳入其中，以及接下来这将怎样影响你在谷歌语义搜索中的现身。

2.1 一个知识引擎而非一个搜索引擎

任何曾经看过一集《星际迷航》（Star Trek）的人都知道，在“星舰企业号航空母舰”（USS Starship Enterprise）上，计算无处不在且具有智能性。人们从不需要在《星际迷航》计算机上人工输入任何数据，唯一与之交互的方式是通过语音指令。舰长与它说话的方式和与一个人说话是一样的。

如果《星际迷航》计算机可以无障碍地理解语音（并可能说包括英语在内的多种语言）还不够令人惊奇，它还通过传感器采集自己的数据，因而使其具有实时可扩展性并且不依赖于它的操作者。

进一步地，不能忘记的是，舰上的计算机必须随着每个《星际迷航》的使命变得越来越聪明，直到假设在某一刻它的智能会超过它的制造者的智能，即我们到达了所谓的奇点（singularity）——机器的智能高于人。星舰迷们可能会提到海军少校数据（Lt.Commander Data），其正电子大脑每秒可以执行60 万亿次运算（作为对比，人每秒可以执行13 万亿次），其拥有的总存储容量超过9 300 万GB（人的容量大约1 024GB）。但它选择了限制它自己，从不真正以任何有意义的方式表现出奇点来。

所有这些都是重要的，因为如今谷歌实现的搜索正确切地朝着同样的方向迈进。

阿米特·辛格尔（Amit Singhal）是一名谷歌研究员（Google Fellow），也是谷歌核心搜索团队的领袖。现今，技术带来的跨越式发展允许生活去模仿艺术来模仿生活。辛格尔恰好是《星际迷航》的一个大粉丝，和你我一样，他注意到了联邦星舰（Federation starship）舰载计算机的无处不在和强大力量，并留下了深刻的印象。

与我们不同的是，辛格尔恰好出现在正确的地方，可以自由地利用其受过的训练和拥有的资源来试验构建一个。谷歌的语义搜索是朝着一个类似《星际迷航》舰载计算机的搜索引擎迈出的第一步，语义搜索的大脑被谷歌称为知识图谱。这里的“图谱”一词取自数学，但在这个情境中它却是由Facebook的创始人和首席执行官（CEO）马克·扎克伯格（Mark Zuckerberg）引入的，他用其来描述Facebook 的数字界线内部的社交网络关系，并叫它社交图谱（Social Graph）。

从此，这个术语就在Web上用来表示一组链接的数据节点（data node）。这里，谷歌的知识图谱积聚的不仅包括表示为事实的知识（我们按行话将其称为数据节点），还有关于这些数据节点是如何互联以及这些连接究竟是什么意思的那些数据。

由于有了知识图谱，谷歌可以接收我们在其搜索框中输入的查询，理解词语的含义，并传送类似一个人可能给出的答案。

就让我在这儿简要地做一回数学极客吧：知识图谱消除了谷歌搜索框中传统搜索的固有歧义性。例如，它并不纠结于“Rio”这个词指的是一部电影、一座城市、一座拉斯维加斯的宾馆还是英国艾塞克斯郡的一座电影院。对于这种歧义性，谷歌搜索用一种结构化的方式呈现结果，通过若干可能的选项即刻就变得有意义起来，并帮助我们找到最可能的答案。为此，矛盾的是，它依赖于称为模糊逻辑（fuzzy logic）的东西来数学地表达不精确性。

模糊逻辑是19世纪60年代的产物，它也做了一些令人难以置信的事情。它采用定义非常精确的数学语言，并被转换为一种反映不确定性的概率响应。模糊逻辑特别适合于语义搜索和谷歌的知识图谱，因为它为逻辑变量关联上了一种具有不同于硬的“是/非”二元数学状态的值域的数学值（通常在0～1之间）。

这使其特别擅长于处理一些数学通常不能很好处理的事情，像部分真值（partialtruth）这样的概念，即一个变量不是简单地“真”或“假”，而实际上可以介于完全真和完全假这两个状态之间，它取决于变量和评估它的情境。

当其用于知识图谱时，在我们输入一个搜索查询后，谷歌的索引检查所有与之相关的索引内容，并由于语义搜索撒下的更大的网而找出大量可能的选项。为了将范围缩小到最可能匹配搜索查询的那些选项，它会检查每一个的部分真值继而去减少选项。

所有这一切都让人吃惊，因为只要我们在搜索中输入“Rio”，我们搜索查询的不确定性所触发的概率响应会使搜索程序将“Rio”这个词与所有可能的答案关联起来。接下来，通过运行一组取自终端用户的过滤器来帮助识别查询背后的意图并凝成结果，从而将范围缩小到一些非常精确的结果。

这种过滤的效果是搜索程序观察我们在搜索中输入了什么，观察我们的个人搜索历史，并试着猜测我们所寻找的东西背后的意图。如果这听起来有些复杂难懂，那是因为的确如此，但这一切几乎以光速发生，结果几乎瞬间出现。

有两个独立的提交到谷歌的搜索用的是完全一样的搜索查询：“rio”。你可以看见谷歌在第一个搜索中给我提供的选项，那是在我没有登录谷歌账号的时候进行的，参见图 2.1 上栏。第二个搜索是在我登录之后进行的。我是一个狂热的旅游爱好者，在Google+上我也关注了旅游频道页面。里约热内卢（Rio de Janeiro）一直是一个我想尝试的目的地，并且最近我花了一些时间看了旅游频道上关于这座城市的一些照片。谷歌注意到了这一点，并且当我登录我的谷歌账号之后，对于同样的搜索查询它呈现给我的第一条高可信度结果是巴西的里约市。

当我在搜索框中输入“Rio”后，谷歌可以“知道”我想要找什么的唯一方式是考虑我的个人偏好和过去的搜索模式历史。一个杜兰-杜兰乐队（Duran-Duran）的粉丝可能看见的则是这个英国乐队的名叫Rio的第二张专辑，而一个足球迷可能看见的是曼联队的中后卫里奥·费迪南德（Rio Ferdinand）。

模糊逻辑让这一切成为可能，它是通过将搜索框中搜索查询背后我们的可能意图（来源于我们允许谷歌知道的关于我们的一切）和通过具有部分真值的变量值匹配到的最可能的答案集连接起来。此外，谷歌可以在这上面增加额外的过滤层，所有这些都取自终端用户的观点，因而结果变得更加精确和个性化。

极客的热情到此结束；让我们来看看这一切数学奇迹是如何转变为一些我们在现实世界中可以用来完成工作的东西。

2.2 知识图谱怎样工作

一张图片胜过千言万语，那么就让我们通过图2.2来快速地理解基于数学的知识图谱的实际原理吧。这是当我们输入搜索查询“da vinci”时在背后所发生的。

例如，在图2.2 中，词语“da vinci”不仅仅与诸如这个伟大的发明家的出生地点、出生日期等信息关联，也与他的当代艺术家和雕刻家、他的作品甚至是关于作品的一则艺术批评观点关联。

我希望你理解的是，一旦出现了这种关于一个主题的详尽的信息交叉引用，接下来需要的就是利用数学规则来得出推断（或进行演绎）的能力，那么各种问题就都迎刃而解了，例如：

“莱昂纳多是什么时候出生的？”

“莱昂纳多的画作有哪些？”

“莱昂纳多的笔记是什么？”

每次答案都会在页面上给出，或者作为顶部的知识传送带，或者像我们实际看到的知识图谱那样出现在右侧。

目前谷歌的语义搜索——如果愿意的话你可以称其为《星际迷航》计算机的极度年轻的版本，其弱点在于其知识和能力之间的缺口。例如，有很多其他问题是我想问并想要快速得到答案的，例如：

“莱昂纳多去世的时候是多大岁数？”

这条搜索查询仍会带来10条蓝色的链接，我不得不逐条点击访问，阅读打开的网页并找到我的问题的答案。一个更小的也使用了语义程序的搜索引擎是Wolfram Alpha（www.wolframalfa.com），它在一两秒内就在页面上给了我答案：67岁零8天。

语义搜索就其本身的定义而言，完全是关于可计算的答案的，而非仅仅去发现10 个顶级网站来让你不得不自己去浏览并寻找问题的答案，并且随着它的不断成长和它的知识存储定义变得越来越好并越来越可靠，我们会逐渐看到更多的能在搜索页面上提供直接答案的实例。

这一切的辉煌，如果没有实际的日常应用，对我们而言就没有任何用处。值得庆幸的是，实际情况并非如此。在我们这个越来越快、时间越来越紧张的世界里，一个搜索引擎存在的真正价值在于无论你在世界的哪个角落，都可以自动识别并回答搜索查询“离我最近的餐馆”或者“城里面最好的披萨店”，而甚至无须你指明地点、国家或餐馆类型。

这一切发生所依赖的魔力很大程度上要归功于谷歌将所有不同的数据拧成一股绳的能力：我的地理位置、我手机上的 GPS 信号以及我附近披萨店的地址和一些关于他们的好评。

如果你在市中心的某个地方开着一家披萨店，而我碰巧在那儿，那么你的业务就会从我的习惯中受益，而无须我们努力吸引彼此。这就是语义搜索的真正价值。搜索引擎过去给我们的是需要我们费劲来阅读的“最佳选择”，而现在已经变成了一个答案引擎、一个推荐引擎甚至一个预测引擎，能理解我在有偏差的、模糊的问题背后的意图，并像我的挚友一样给我提供答案。

这种搜索引擎不仅仅会占据大部分市场份额，并且会很大程度上无形地、无处不在地这么做，就像《星际迷航》计算机一样。没有人需要去编程答案，不需要为了与它沟通而付出努力，它会得到像星舰企业号的舰长们给予他们的舰载计算机的同等权威的信任。

这种可以如此无缝连接顾客和服务的搜索引擎将会在世界上释放出一种新鲜的“最佳”价值——只有最佳的业务才能做得成，只有最佳的地方才会有访客，只有最佳的城市才会让聪明人决定去居住，只有最佳的信息才会显露出来。

如果这一思想让你兴奋，那么你这么兴奋是正确的。从业务的角度而言，它将显著降低你的广告和营销预算，从而允许你将时间和精力投入到你的业务中来做你想做的事：让它成为最佳。

传统的自顶向下的单向营销已经不合时宜了——它是上个世纪的遗物。营销作为对一个问题的回应发展着，即当业务已经在许多本地居民和国家中扩大规模，新的沟通手段还没有被发明来代替已被抛弃的我们过去在小城镇和村庄中拥有的那些方式时，我们是怎样做出购买决策的。

作为一项业务，你不得不投入巨大精力并真正努力地去尝试支配某个人的购买决策，这一古怪观点的一个合乎逻辑的结果是频繁地用包装来代替质量，用品牌价值来代替声誉，以及用规模来代替价值。在过去的村庄中，村庄的广场被摊位所环绕，根据信任、声誉和知识来引导你的购买决策。我们从信任的源头那儿买东西，我们从信任的源头那儿发现新的商人，我们从名声在外的新人那儿买东西，我们根据我们想要买什么和他们提供什么来选择怎样去买，我们不知道时，我们就去问某个知道的人。

这一模型在村庄广场的范围内运转得非常好。但是，这一小规模的、乡村般的世界被工业革命中指数规模的市场、人口和生产过程甩在了身后，由于其无法成功地应对这一规模，所引发的问题催生了现代营销。

语义搜索和知识图谱的动人之处在于它利用技术让世界再次变得小了起来。在一个地球村中，我们所说的“这儿”可能让我们在24小时内分处地球的两端，我们的村庄广场已经被一个不断变化的位置所替代——它由我们在乡村般的过去中做出购买决策时所使用的同样标准的信任、声誉和价值组成的那些选择构成；这一标准也被我们用来决定在涉及关于我们生活的敏感信息时我们应该信任谁，我们应该选择谁作为业务伙伴，以及当我们退休后我们应该请谁来购买我们的业务。

本书第一章的序言大胆地表明了搜索就是营销。我们面对的挑战是越过不够鲜明的 SEO 领域的技术术语，来理解是什么在何时何地以怎样的方式做了些什么，以一种不仅在现在，即便在莱昂纳多·达芬奇还活着的500年前以及500年后都说得通的方式——那时，“搜索”将会成为你眼角闪烁的小点，静静地在你的生活中为你提供数据覆盖，或者成为出生时在你脑袋里植入的一个耳语般的声音。

回归基本并不意味着剥夺我们取得的成就。它意味着剥夺我们的伪装，去除随着快速发展而形成的不可避免的傲慢，来理解事物原委的动态。

在这个“回归基本”的世界上，在搜索中表现不错的业务具有以下特征。

理解使用搜索的主要目的是捕获并维持它们受众的注意力。

试着与客户联系起来而非追求改变搜索算法。

以成功营造社会舆论的那些方式来创造一致的价值。

同步它们的线上和线下的存在来传递一幅单一的、深思熟虑过的营销画面。

足够好地传达它们的核心价值来建立一种真实的线上身份（identity）。

设法通过在线交流和互动来维护并提高它们的声誉。

理解内容创建不仅仅是随意创建陈旧的内容只为将关键词放进去以帮助搜索排名的一种需求。

2.3 建立联系

我从不粉饰我在例子中所使用的“乡村般”的过去所呈现出的严重问题——例如不平等性、不透明性、不负责性以及腐败。在这个过去中，联系并非总是由精英建立起来的，因而当然地，购买选择经常演变为两害相权取其轻，因为竞争和选择并不是备受尊重的概念。

关键点在于在这之后是什么，只要竞争和选择受到了关注，那就是一个进步，但这也造成了一种匿名性（facelessness），这也产生了一些问题——一些现在才去解决的问题。

为了理解在一个全新的语义世界中如何建立这些联系，让我们再看一次搜索框背后的机制。

在第1章中我们发现，为了能为我们的查询给出有意义的答案，基于知识图谱的语义搜索需要三项基本成分：

一个统一资源标识符（Uniform Resource Identifier[1] ，URI）；

一个资源描述框架（Resource Description Framework，RDF）；

一个本体（ontology）。

这里，我们需要透过数学和术语来了解知识图谱实际上是如何运转来收集构建其列表所需要的全部信息的。

在Web上，信息来源于：

网站；

社交网络；

专业网络；

档案；

数据库；

谷歌搜索自身。

但是，拥有所有这些信息是不够的。谷歌使用推理规则来理解实际上信息是如何聚集的及其含义是什么。这些规则被一些事物所激活，包括我们在以下环境中使用数据的方式：

社交网络；

Web 平台（例如论坛）；

谷歌搜索（包括我们的搜索查询）。

以及我们在以下环境中生成的数据：

可以分享内容的社交网络；

可以评论和互动的社交网络；

可以创建评论和观点的商业网站；

可以创建内容的网站平台。

再加上我们使用Web的方式：

我们允许显露的个人数据；

被跟踪的行为，即我们访问的那些网站以及我们在那儿做了什么；

个人搜索的模式。

甚至还包括我们的线下行为：

基于我们移动设备GPS 信号的可感知位置的服务；

基于IP 地址的地理定位；

机器采集的数据（当设备与设备连接和对话时）。

因此，语义搜索这一尚处在襁褓中的《星际迷航》计算机就不仅仅是更加聪明了。在它之前只能呈现给我们基于列表和近似的信息。这一全新的搜索也能够从我们自己的行为中学习，进而更好地理解我们做什么、我们为什么做、我们的意图是什么，以及它甚至能以我们的方式来理解词语。只要它学到一些东西，它就能将其运用在各处。例如，如果结合被索引的和获取到的数据教会了知识图谱“红色代码”这一词语是与一种高度戒备的状态相关联的，这就成为它能处处运用的知识，而并非局限于它学到这一点的那一语境。

在第1章的1.5节中，我请你去观察你的业务中的基本元素，例如它的独特卖点。我已经忘了有多少次了，我曾听闻经理们将他们公司的广告线或者使命宣言作为独特卖点，他们认为这就是公司所做的事情，但这从来都不是。

谷歌可能将“索引世界的信息”作为其使命宣言，但这并不是它的独特卖点，类似的还有认为可口可乐公司卖的是可乐或者拜尔公司（Bayer）卖的是阿司匹林。谷歌的真正独特卖点是它会给出答案，可口可乐兜售的是幸福，而拜尔兜售的是痛苦的减轻。深入了解一家公司究竟是做什么的，这一点之所以重要是因为其当前的表现模式是受技术约束的结果。谷歌可以有一个桌面搜索框，可口可乐可以有一种标志生活方式的饮料，而拜尔有的是一颗白色小药片，但这仅仅是由于这就是我们的技术目前所能带给我们的。

未来的一千年里，谷歌可能直接将答案输送到我们大脑皮层的神经突触中，可口可乐可能会彻底变成某种其他的东西，而拜尔可能在制造合成的神经传递素以助于阻挡疼痛信号进入我们的大脑。在这一美妙的未来情景中，不会改变的是每家公司及其顾客背后的意图。

谷歌仍将会向渴望获得信息并不断问问题的人们提供答案；可口可乐仍将是一种生活方式附属品式的饮料，属于那些觉得这就是他们所需要的来填满他们生活方式内在景像的人们；而拜尔仍将帮助那些受痛苦折磨的人们减轻痛苦。

那些没法顺利回答他们是做什么的公司便无法知晓他们怎样才能在一个不断变化的世界中继续做下去。语义搜索关心的就是在一个A点和B点互相积极寻找的世界中建立联系。这里的条件是对于所涉及的情形有一个清晰的理解——即正被一个产品或服务响应的那个需求或者愿望。

真正的挑战存在于A点能够联系上B点的区域之中。一个公司可以发现其客户的机会和一个客户可以找到一个产品的方式是多样的、破碎的，并演变为一系列五花八门的区位（niches），频繁地困扰着那些太过于专注其中的人们，正好印证了那句流行语“只见树木，不见森林”。

有趣的是，对于一个认真利用语义搜索和谷歌知识图谱的力量的业务而言，至少在表面上可以做的事情很简单：

找到方式来通过一种数字性的存在去证明你的权威性；

通过内容和在线交流来建立一个清晰的身份；

理解你的声誉是怎样被在线建立的以及你将如何维护它；

互联你所有的在线行为并确保它们是透明的。

2.4 你的业务与知识图谱

在我看来，知识的价值总是在于一旦你获得它之后你能得到什么。尽管出于知识的缘故，知识是一个有价值的目标，但它也是时间上的一种巨大浪费。例如，电只有在它被用来驱动一些东西的时候才是有益的。仅仅拥有它无助于释放它自身的价值，无助于让我们个人或者我们的世界受益。如果知道的东西没有被使用，我们就等同于不知道它。

如今，技术已使我们走在一条由意图而非存在构成的道路上。我们说世界是有线的、广泛连接起来的，业务所面向的那些人“总是打开着”，但奇怪的是这却让业务的每个潜在市场变得更小、更难去打开并且充满了由个性化的用法造成的高门槛。

普遍存在的联系还没有建立起一个全新的巨大市场。它已经启动了一个正加速发展的区位化（nichification[2] ）进程。例如，考虑一下你典型的目标客户。没准你都很可能想不到，他（或她）在Web上，而Web可以通过台式机访问。即便笔记本电脑推广开来并为计算增加了大量的移动性之后，也没有太大的改变。Web仍然是Web，桌面搜索仍然是桌面搜索，而“客户”仍然在那儿。

面向这样的客户是很容易的。你需要一个网站、某种在线广告、（可能还有）电子邮件营销以及一些能将客户带回到你的网站的手段。你知道当客户要寻找信息时，他或她会去搜索，而搜索是由关键词主导的。排名是由入链主导的（因此你需要更多地构建），而信任则部分地是由网站设计和PageRank主导（所以你需要好的设计和一个高的PageRank值）。

这种“连点画图”一定程度上澄清了一些已经被漏掉的工作。当一个人搜索“世界上最好的披萨”时，如果你已经针对Web的特点做了一些事情，并且针对关键词“世界上最好的披萨”做了优化，那么你的网站才会出现。如果你已经积极建立了一个反向链接阵营，其中大量的其他网站以锚文本“世界上最好的披萨”反向链接到你，那么你的网站就会出现。如果你已经创建了大量的关于为什么你的餐馆做出了“世界上最好的披萨”的无意义的内容，那么你的网站就会出现。

也许某个地方的一些评论说到“嘿，你知道吗，这真不是世界上最好的披萨”，但它们被深深埋藏到以至大部分在线访客都看不到它们。并且，如果它们错误地反向链接到了你，你想要的关键词仍旧出现了，事实上对你的搜索排名而言利大于弊。也许有一些网站实际上在说你的“世界上最好的披萨”确确实实不是真的，但它们可能不会被发现。你的网站被更好地优化了，你的 SEO 团队成功了，并且你总是可以用编造的正面结果来埋藏负面结果。

你成为了搜索引擎世界的王者。

在前语义搜索时代，在线营销的成功是由一个人实际上能喊出多大声音所决定的。搜索引擎等价于外向营销（outbound marketing）。

以下是所发生的改变。

你的潜在受众如今在下面这些地方出现：

传统的桌面搜索；

移动搜索；

语音搜索；

预测式搜索（谷歌即时基于位置在用户的移动设备上预加载信息）；

定制的搜索（由诸如亚马逊这样的商业网站建立）；

手机应用软件（将信息和客户的注意力封锁在手机应用软件的边界以内）；

个性化搜索（基于用户的搜索历史和社交联系呈现结果）；

本地化搜索（使用位置感知技术基于你移动设备的GPS信号来呈现信息）；

特定服务搜索（例如YouTube乃至Google+）。

如今，你的潜在客户执行一条搜索时所看到的结果是基于对他们查找目标的理解——精确到使得过去的SEO工作变得收效甚微。你的目标受众的社交联系和他们的个人线上行为也融入了这个影响到人们在执行搜索后能看到什么的复杂循环中。

其最终结果是过去只靠烧钱就能控制的搜索体验已经发生了不可逆转的改变。

我很庆幸如今像这样的搜索仿佛注定要失败。理所当然，读完所有这些并认识到问题的严重性之后，你可能会问你自己：面对如今搜索中的信息交叉引用自这么多源的这一事实，又还能做些什么来将搜索带回到有业务要运行、有产品要出售以及有人要养活的业务主的控制之下呢？

简短回答就是“能”。这一切之中的救命稻草在于语义搜索评价其提供结果的质量采用的三个标准在数学上模拟了我们过去村庄广场的决策过程：

信任（trust）；

声誉（reputation）；

权威（authority）。

就像任何与搜索有关的事物一样，也有特定的方式来建立它们、增强它们以及确保你在 Web 上的存在稳定到足以确保在任何搜索界面中的高曝光度。在这一混乱之中，我将奉上两束额外的希望之光：意外发现（serendipity）和引用（citation）。它们事实上都是被语义搜索的算法校正所采用的术语，并影响着你的业务在 Web上被找到的能力。

它们很重要，因为有一些特定的触发它们的可行之事，于是它们成为你搜索引擎优化军火库中的新的智能武器。

以下是它们的工作原理。随着语义搜索提供给我们的结果越来越精确，一种理论上的危险是它将我们挡在我们需要的知识之外——如果其位于我们搜索查询的狭窄范围之外的话。我们一般认可的是，我们对于搜索的东西的描述往往是不精确的。可能有一些能够丰富我们的搜索、更好地回答它或者帮着我们发现一些略有些偏离我们想要通过搜索解决的问题的东西，其在我们搜索时恰好超出了我们关注的范围或者超出了我们的描述能力。

如果语义搜索无法支持这些，我们将不得不做多次搜索，试着去猜测我们漏掉了什么。这都不是对我们的时间或者对搜索的很好利用，并且未能增强总体的搜索体验。幸运的是，我们并不需要去这样做，我们有意外发现来应对。维基百科将意外发现定义为“一个‘幸福的意外’或者‘愉快的惊喜’；具体而言，是意外找到一些有益或者有用的东西，而并没有专门去搜索它”。这正是搜索引擎工程师们对它的理解。

在实际中，这意味着语义搜索背后的程序利用一些信号来找到可能不是与我们的搜索直接有关但又有一些相关的内容。信息来自于网络中源于分享和互动内容的社交信号，但它们也来自于其他搜索查询。

如果你熟悉亚马逊在每个产品底部的产品推荐“购买 x 的顾客也会购买 y”，那么你就开始理解意外发现是怎样运转的了。亚马逊附加的产品推荐利用了成千上万其他买家的行为来试图预测一个意图。这背后的理论是如果有足够多的买过鼠标的人接下来也继续浏览并同时或者在之后订购一个护腕，那么这两者就通过一个可能也对你有效的价值建议关联起来。在多数情况下，这在其他你可能需要买的东西方面打开了你的思维，并节省了你日后的时间。

亚马逊在其进入搜索领域时是一个非常封闭的世界。尽管亚马逊的天地非常广阔，与巨大的Web相比仍然是非常渺小的。即便是亚马逊也不得不去筛选大量的数据，而仅仅是为了在其相关产品的推荐中取得一定程度的有意义的可靠性。

谷歌做着类似的事情，但它审视的是 Web 的全景而非一个在线购物环境和一些购买模式，并且使用了谷歌搜索以及终端用户输入的搜索查询。

关于搜索查询被使用的方式，阿姆斯特丹数学信息中心（Wiskundeen Informatics Centre）的研究人员Vera Hollink、Theodora Tsikrika和Arjende Vries发表了一篇题为《查询修改的语义》（The Semantics of Query Modification）的论文，展现了如何通过比较大量来自搜索引擎框的用户查询之间的关系，从而有可能识别一些语义修改模式——例如反映了用户经常搜索两个共享同一属性的实体（例如两个来自同一队伍的运动员）。那么就有可能使用这样的数据去为查询生成推荐，并且在质量方面优于过去那种根据记录被查询的数量来生成一个统计模型的统计方法。

意外发现在搜索编程的圈子里实际上叫做意外信息检索（serendipitous information retrieval），它支持创建一些我们将要讨论的方法，其能够在潜在客户的精确搜索查询没有包含你的品牌时，也能让它出现在他们的视野中。这些方法用一种至少看起来类似亚马逊的方式来扩展搜索结果。在编程上则有很大的区别，但在这里这与我们不是那么相关。我们要讨论的是这一特征可以用来在潜在客户的精确搜索查询没有包含你的品牌名称或者没有包含你可能已经用来帮助让你的内容显露于搜索中的任何关键词时，帮助你的品牌出现在他们的视野中的那些方式。

你注意到在搜索 Kathryn Bigelow 时，我根本没有输入图 2.3 中谷歌推荐的任何一个演员的名字，然而我却可以点击并找到更多关于他们、他们的职业生涯以及他们参演的其他电影的信息，就这样意外地发现相关的信息，这从知识的角度丰富了信息，并且这对于我所进行的搜索是完完全全的意外。

这里呈现出的潜力是那些利用了谷歌意外发现程序的业务可以让自己延伸到比传统SEO技术所能提供的更广的范围。

这里的可行之事如下所示。

创建广泛的内容来将你的业务涉及的一切都以一种有意义的方式联系起来（例如，如果你卖的是皮夹克，你可能想要拥有的内容是涉及皮革的道德采购，或者是关于皮革护理信息、皮革修复或者是非常喜欢皮夹克的好莱坞明星）。

引导社交媒体网络上的在线谈论，来拓展你的公司或品牌所涉及的范围。

用你的社交网络档案去链接到能为你做的事情增加额外价值的内容（例如，分享那些能够拓展你的营销范围的信息，像是一个自行车业务链接到各地的自行车道并拥有大量关于骑自行车度假的信息）。

如果意外发现正开始看起来像一种当你的潜在客户并未主动找寻你的业务时仍能闯入他们意识的良好途径，那么引用则是另一种途径。

搜索中的引用关注的是你的网站、公司或者品牌在Web上与特定品质的联合提及。回到我之前举的“城里面最好的披萨”的例子，如果你的披萨店的名字在Web上单独出现并时不时地与你的披萨的高质量联合提及，那么当人们查找“最好的披萨店”时，它就会作为一个选择出现，即便你事实上并没有做任何事情去推动它。

这种运转方式只在机器逻辑和搜索的情境中才令人震惊。在人们的真实世界中，信任、声誉和权威这三种品质是我们本能地用来评价我们是否想要与一个人或一个业务扯上关系的标准，这种通过我们个人网络中的间接联系点来找到我们信息的间接方式则是一种常态。

概括而言，知识图谱是等价于你在Web上的声誉（与你的业务关联的信息）、你拥有的权威（你被认为有多大的影响力）以及其他人对你的信任（你的产品的质量排名）的总和的搜索引擎结果。如果你有业务致力于为客户创造价值、提升其作为并不断发展以用真实的解决方案应对真实的需求，那么就有可以采纳的具体步骤来确保你被外界察觉到的信任、声誉和权威会帮助你实现更多的销售。

2.5 知识图谱准备清单

知识图谱依赖于谷歌搜索引擎机器人独立发现和索引的信息。这些信息需要被专门创建。这里的奥妙在于，过去创建针对搜索引擎优化的内容是为了人为提升一个网站的排名，所需要的只是正确的元标签、正确的关键词、正确的关键词位置、关键词的密度以及一些指向页面的链接，与此不同的是，现在创建的内容需要对终端用户具有真正的价值。

第1章的语义搜索准备清单的主要目的是关注公司的核心价值，现在它成为了你充分备战知识图谱的跳板。

知识图谱准备清单涉及以下步骤。

识别出你的业务产品或服务被设计用来解决的实际问题。详述所有你可以在Web上阐明你能提供的解决方案的方式。

罗列所有你可能收集和改进你的客户所面临的问题的方式。详述你准备怎样根据你收集到的信息来解决出现的问题。

决定什么是将信息呈现给你的客户的最好方式或其组合（例如文本、视频、播客、信息图）。解释你计划如何来确保所有呈现的信息有助于创造你的公司或品牌的核心价值；你准备如何检验你的方法在你使用的所有不同的沟通形式上具有一致性，以及你将如何修复与你的计划不符之处。

决定你将如何生成内容（谁来负责，如何负责，谁来批准，它将怎样出现）。详述频率和意图。解释你将如何设定目标以及你将如何监督它们。

描述你拥有的可以帮助你推广你所创建的内容的所有方式。详述你如何在每个方面度量成功。

罗列你掌握的获得客户评论的所有可能方式。解释你如何鼓励客户互动和交流。

罗列你掌握的所有直接联系你的客户的方式，并评估每一种对于你的业务品牌和声誉影响的重要性。

详述你的社交媒体危机监测和响应过程。罗列你使用的所有工具、频率、负责人和报告频率，以及如果社交媒体危机出现你有什么预案。

详述你在你的数字资产中使用的度量它们成功的所有指标。详述你使用的对成功的所有不同定义。解释它们确切地表明、展现或度量了什么，以及对于你的品牌或公司的核心行为的影响。

罗列你的所有竞争对手，详述你如何用与他们不同的方式来做事。要尽可能详细，同时也在这儿罗列所有的相似之处。展现你的行为在哪儿发散和收敛，并解释这如何符合你独特的品牌或公司身份。