图书

电子书

课程

VIP会员

书课包

AI搜索：基础与前沿

978-7-115-57565-4

作者: 邹敏

译者:

编辑: 吴晋瑜

分类: 人工智能

图书目录:

详情

　本书系统介绍了搜索引擎的技术发展历程和前沿趋势，内容分为三大部分：搜索引擎基础、深度信息检索模型与算法以及AI搜索前沿。第一部分涵盖了搜索引擎的核心架构与关键技术，包括基本系统架构、查询理解、索引技术、关键词检索、排序学习等内容，为读者提供了现代搜索系统的技术框架和实践参考。第二部分详细探讨了深度学习技术在信息检索中的应用，包括深度召回模型、k近邻检索算法、深度相关性模型、深度排序模型等，并通过案例展示了如何将这些技术应用于实际问题。第三部分则聚焦于AI搜索前沿技术，介绍了大语言模型基础、AI搜索实践、生成式信息检索，探讨了AI搜索时代的技术特点及未来发展方向。　　本书附有丰富的实践案例和代码示例，可以帮助读者将理论知识付诸实践，既适合想了解AI搜索相关内容的初学者学习，也适合AI搜索领域的相关从业者参考。

图书摘要

版权信息

书名：AI 搜索基础与前沿

ISBN：978-7-115-57565-4

您购买的人民邮电出版社电子书仅供您个人使用，未经授权，不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟，与我们共同保护知识产权。

如果购买者有侵权行为，我们可能对该用户实施包括但不限于关闭该帐号等维权措施，并可能追究法律责任。

版　　权

著邹敏

责任编辑 吴晋瑜

人民邮电出版社出版发行　　北京市丰台区成寿寺路11号

邮编　100164 　电子邮件　315@ptpress.com.cn

网址　http://www.ptpress.com.cn

读者服务热线：(010)81055410

反盗版热线：(010)81055315

内容提要

本书附有丰富的实践案例和代码示例，可以帮助读者将理论知识付诸实践，既适合想了解AI搜索相关内容的初学者学习，也适合AI搜索领域的相关从业者参考。

前　　言

　　不出户，知天下；不窥牖，见天道。

老子，《道德经》　　　　

人类为什么能够超越其他物种，成为这颗蓝色星球的主宰？一个重要原因就是人类比其他物种更善于处理信息，人类社会变迁史本身就是一部信息处理技术更新换代史。

史前文明时代，智人主要通过初级的信息系统进行信息的传递和处理。这包括原始语言、简单的符号和图腾等，用于记录和传递基本的生存知识、社会规范和文化传统等。这种初级的信息系统使得个体能够组成族群，族群内部的信息交流和协作能力得到加强，为人类的生存和发展奠定了基础。例如，通过原始语言，智人可以传授狩猎技巧、食物采集方法并传递危险预警等，提高了族群的生存概率和凝聚力。

人类发明文字以后，信息的记录和传递更加系统化和持久化，能够跨越时间和空间。人们可以通过书写和阅读，积累和传承大量的知识和文化。这一时期人类改造自然的能力和创造能力明显提高，出现了规模化的信息组织体系，如法律体系，用于规范社会秩序和人际关系。然而，这一时期的信息并非人人触手可及，信息资源主要掌握在贵族、祭司、学者等少数精英手中，难以为普通民众所获取和利用。

随着工业社会的到来，人类社会进入信息平权时代，普通民众能够通过报刊、广播、电视等媒介获取各种信息，信息访问的门槛大幅降低，为社会的创新和发展提供了动力。但这一时期的信息访问成本仍然比较高，而且不同的社会群体之间的信息访问权利存在明显的不平等现象，例如，大学校园比偏远地区更容易访问馆藏书籍。

互联网和搜索引擎这对珠联璧合的发明将人类社会拉入信息共享时代。人们可以随时随地通过互联网 + 搜索引擎发布和获取各种信息，这极大地推动了人类社会的进步。近年来，以大语言模型技术为代表的人工智能技术的进步将人类社会从信息共享时代带入了信息智能时代。在这一新阶段，信息不再止于被动地存取和传递，而是通过智能算法的主动分析和理解实现深层次的价值创造。

作者有幸从事搜索引擎和人工智能（AI）领域相关工作，学习并见证了搜索引擎近些年的发展，因此有机会在本书中向大家介绍搜索引擎的发展过程以及 AI 搜索相关技术。

搜索技术的演进

搜索技术出现在20世纪 90 年代，随着互联网的快速发展而不断演进，从早期依赖人工编制的启发式规则，到后来引入机器学习模型处理大规模数据，再到如今的大语言模型时代利用生成式技术直接提供答案。我们根据问题解决范式的区别将搜索技术的发展分为3个时代：专家系统时代、机器学习时代和大语言模型时代。图1展示了搜索技术的发展历程。

图1　搜索技术的发展历程

1．专家系统时代

在互联网出现之前，早期的信息检索（Information Retrieval，IR）系统就已经出现了。这些系统主要是为了满足对于信息整理和检索的需求，例如图书检索、情报分析等。早期的信息检索系统通常基于关键词搜索，并使用人工编制的目录或索引来辅助查询。这些系统的发展奠定了信息检索领域的基础，并为现代搜索引擎的出现提供了重要的技术和理论基础。

这一时期的信息检索系统主要用于处理结构化和半结构化的数据，如数据库或者文档库。这些数据通常有固定的格式，内容相对容易理解，而评估这些数据与查询词相关性关系的规则也相对比较简单，例如，利用词频（Term Frequency，TF）和逆向文档频率（Inverse Document Frequency，IDF）来衡量一个词在文档中的重要性。在查询语法方面，早期的信息检索系统采用了布尔检索，用户可以使用“与”（AND）、“或”（OR）和“非”（NOT）等布尔操作符来组合查询词，以便找到满足特定条件的文档。这些方法可以捕捉文档与查询词之间的线性关系，但可能无法捕捉更复杂的语义相关性，缺乏自然语言理解能力。

这些早期的规则和启发式方法在信息检索领域发挥了重要作用，为后来的信息检索技术发展奠定了基础。它们为理解文档内容、度量相关性以及优化查询效果等提供了关键思路。随着信息检索技术和人工智能的发展，现代搜索引擎采用了更先进的技术（例如机器学习和深度学习），以进一步提高检索的准确性。

2．机器学习时代

随着互联网的出现和快速发展，信息检索领域面临的数据规模呈爆炸式增长，这就使得传统的规则和启发式方法已经无法满足如此大规模数据的处理需求。在此背景下，搜索引擎也在不断地变革和进化。传统的基于规则和启发式方法的搜索技术逐渐被基于早期机器学习方法与深度学习方法的技术体系所取代。

早期机器学习方法的发展使得搜索引擎可以自动学习和优化检索模型，排序学习（Learning to Rank）体系是机器学习与信息检索理论结合的典型代表。这一时期的机器学习方法为搜索引擎提供了更加智能和高效的排序策略，通过自动学习和优化检索模型，可以提高搜索结果的准确性和用户满意度。这一阶段也发展出了更为全面的相关性评测体系，如 MAP、NDCG等评测指标。这些评测指标的引入和应用，使得信息检索理论更加全面和完善，可以更准确地评估搜索引擎的性能和效果，同时也为搜索引擎优化提供了指导。

深度学习的发展进一步扩展了机器学习在信息检索领域的应用。在文本表示方面，深度学习技术可以对文本进行更加精确和细致的表示，不再局限于有限的字词，而是可以结合上下文和更广泛的概念进行分析。例如，通过大规模神经网络的训练，搜索引擎可以更好地理解文本的语义，消除歧义。又例如，通过神经网络的序列化建模方式，可以对长文本有更准确的理解，返回更相关的文档。深度学习技术在查询词和文档的相关性建模方面也取得了重大突破。基于文本似然度的技术已经过时，被更为精准、细腻的基于语义似然度的技术所取代。这些技术的发展使得搜索引擎可以更好地理解用户的意图和需求，提供更加准确和个性化的搜索结果和推荐服务。

海量的搜索引擎数据加上相对完善的信息检索方法论，使得搜索引擎可以实时地收集和分析用户的搜索行为和反馈信息，从而不断优化搜索引擎的工作机制，提高搜索结果的准确性和用户满意度。具体来说，当用户使用搜索引擎进行搜索时，搜索引擎会自动地记录用户的搜索行为和反馈信息，并根据这些信息进行搜索结果的排序和推荐。如果用户对搜索结果不满意，他们可以通过反馈机制向搜索引擎提供反馈信息，例如搜索结果不准确、搜索时间过长等，搜索引擎会根据用户的反馈信息进行相应的改进。通过信息收集、反馈、处理和改进的闭环机制，搜索引擎可以不断地优化自身的工作机制，提高搜索结果的准确性和用户满意度。这种闭环机制也为搜索引擎的持续发展提供了支持，使得搜索引擎能够不断地适应用户的需求，提供更加精准和个性化的搜索服务。图2展示了这种信息流闭环。

图2　搜索引擎中的信息流闭环。搜索引擎通过收集用户反馈信息改进搜索模型、提升用户搜索体验，用户搜索体验的提升又会吸引更多的用户数据和用户反馈

3．大语言模型时代

大语言模型时代的搜索是信息检索架构与生成式语言模型的结合，它标志着搜索技术的新纪元。生成式检索为用户提供更直接、全面且有针对性的答案。通过利用预训练模型的深刻语言理解能力，生成式检索能够直接针对用户查询生成答案，从而避免了用户需要在多个相关网页中自行提取信息的烦琐过程。这种方式不仅改变了用户与搜索引擎的互动模式，使知识获取变得更加高效，而且由于其强大的自然语言处理能力，还能够更精确地捕捉到用户的查询意图，提供更符合预期的答案。

此外，生成式检索的应用，使得搜索引擎能够支持更自然和人性化的语言交互。这一点对于提高用户体验、降低使用门槛具有重要意义。用户可以用自然语言提出复杂的查询需求，系统则能理解其意图并提供简洁明了且信息丰富的答案。这种互动方式更符合人类日常的沟通习惯，为用户带来了前所未有的便捷体验。

目前大语言模型仍然存在一些局限，例如，生成式模型有时可能会产生不准确或具有误导性的内容，尤其是在处理复杂、模糊或少见的查询时。另外，由于模型训练过程中存在数据偏见，生成的答案可能会反映出这些偏见，从而影响信息的客观性和准确性。因此，未来的搜索引擎可能会向混合范式发展，即结合传统的基于关键词的信息检索技术和生成式模型。这种混合范式旨在利用各自的优势，弥补单一方法的不足，从而提供更全面、更高质量的搜索体验。

搜索引擎当前面临的主要挑战

1．信息爆炸与搜索效率

随着互联网的飞速发展，网络上的信息量呈爆炸式增长。据统计，截至 2023 年，全球互联网上的网页数量已超过 1000 亿，每天新增网页数量以百万计。如此庞大的信息量给搜索引擎带来了巨大的挑战。一方面，搜索引擎需要不断扩充索引库的规模，以收录尽可能多的网页信息。另一方面，搜索引擎需要提高搜索效率，以便用户能够快速、准确地找到所需的信息。

2．信息质量与搜索结果

互联网上的信息良莠不齐。搜索引擎需要对搜索结果进行排序，以确保用户能够获得高质量的信息。大量的“AI 垃圾”使得这个问题更加棘手。这需要搜索引擎不断改进算法，提高对信息质量的判断能力。同时，搜索引擎还需要考虑用户的个性化需求，为用户提供更加精准的搜索结果。

3．用户隐私与数据安全

搜索引擎在为用户提供服务的同时，也会收集用户的搜索记录等个人信息。如何保护用户隐私，确保数据安全，是搜索引擎面临的重要挑战。搜索引擎需要在提供个性化服务和保护用户隐私之间取得平衡。同时，搜索引擎还需要加强数据安全管理，防止用户数据泄露。

4．技术创新与未来发展

搜索引擎需要不断进行技术创新，以应对新的挑战。人工智能、大数据、自然语言处理等技术的应用，将为搜索引擎的发展带来新的机遇。同时，搜索引擎也需要积极探索新的应用场景，拓展服务范围，为用户提供更加丰富、便捷的服务。

本书写作动机

作为搜索引擎从业人员，作者经常需要翻阅各种资料查看搜索引擎相关技术的最新进展，同时也需要经常给同事介绍搜索引擎的相关知识。在做这些工作时，作者发现市场上缺乏成体系介绍搜索引擎最新进展的图书，大多数图书介绍的是机器学习和深度学习时代之前的概念、方法与技术等，缺少对深度学习时代方法论的系统总结。同时作为实践性特别强且体系特别复杂的专业细分领域，搜索引擎的入门有一定的门槛，如果再结合深度学习的应用，那么门槛会更高。作者比较推崇边做边学（Learning by Doing）的学习方式，因此在介绍基础知识和深度学习理论方法相关内容的基础之上，本书增加了一些实践案例，希望读者能够通过这些实践案例真正将理论付诸实践。

除此之外，搜索引擎既有一系列成熟的技术体系，同时也不断迎来新的技术热潮。在人工智能技术高速发展的今天，奇点时刻的来临有其历史的必然性。作为信息技术从业人员，我们在巩固已有知识的基础上还需要时刻以空杯心态来学习新的技术。老子在《道德经》中教导我们“道可道，非常道”，我们是不是应该反思今天的技术架构明天是否仍然有效? 大家都在讨论的流行技术如 ChatGPT 等是不是未来的新方向？带着这些问题与反思，作者总结了搜索引擎的技术基础与深度学习信息检索模型的来龙去脉，力求给各位同行读者提供一本内容全面、与时俱进的参考书，希望本书能够为您的学习和工作提供一点帮助。

本书目标读者

本书的内容侧重搜索引擎的架构和算法体系，非常适合以下两类人群。

对于初学者，本书可以作为系统学习搜索引擎的一本教材。本书系统梳理了搜索引擎各个模块的基础技术和算法，可帮助初学者在系统框架上对搜索引擎有全局的理解。

对于从事搜索引擎和 AI 搜索行业的工程师，本书综述了搜索引擎和 AI 搜索的各个模块相关技术的最新进展，可以作为实际工作中的参考手册使用。

各章概述

搜索引擎涉及一系列成熟的技术体系，同时也不断迎来新的技术浪潮，涌现出更加先进的技术方法。为了让读者深入了解搜索引擎技术体系的发展历程和前沿趋势，本书既包含经典搜索引擎的核心内容，也介绍最近几年比较流行的方法，希望通过这样的内容安排，帮助读者理解全面、前沿的搜索技术。

本书内容分为三大部分：搜索引擎基础、深度信息检索模型与算法和AI搜索前沿，如图3所示。各章内容如下。

● 第1 章介绍搜索引擎的基本系统架构，包括网页抓取、内容理解、索引构建、查询理解、召回和排序等核心模块。

● 第2 到第5章对查询理解、倒排索引技术和关键词检索等内容做详细的介绍。通过这部分内容，读者可以了解早期搜索引擎的工作过程以及在此基础上发展出来的一系列后续技术。第6 到第9 章讨论基于深度学习的召回模型、相关性模型、排序模型等。

● 第10 到第12 章讨论大语言模型基础以及 AI 搜索相关话题。

图3　本书内容

本书的顺利完成，离不开人民邮电出版社编辑团队的大力支持与专业指导。特别感谢吴晋瑜老师在整个写作与出版过程中给予我的耐心指导与细致帮助。从书稿立项、内容规划，到章节安排、语言打磨，吴老师始终以专业、严谨、务实的态度提出许多中肯建议，帮助我不断完善内容结构与表达方式。在此，谨向人民邮电出版社异步社区的所有编辑老师致以诚挚谢意。正是因为你们的支持与协助，本书才能顺利出版并以较高质量呈现于读者面前。

资源与支持

资源获取

本书提供如下资源：

● 本书思维导图；

● 异步社区7天VIP会员；

● 配套代码。

若要获得以上资源，可以扫描下方二维码，根据指引领取。

提交勘误

作者和编辑尽最大努力来确保书中内容的准确性，但难免会存在疏漏。欢迎读者将发现的问题反馈给我们，帮助我们提升图书的质量。

当读者发现问题时，请登录异步社区（https://www.epubit.com），按书名搜索，进入本书页面，单击“发表勘误”，输入勘误信息，单击“提交勘误”按钮即可（见下页图）。本书的作者和编辑会对读者提交的勘误信息进行审核，确认后，将赠予读者异步社区100积分，积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是wujinyu@ptpress.com.cn。

如果读者对本书有任何疑问或建议，请发邮件给我们，并请在邮件标题中注明本书书名，以便我们更高效地做出反馈。

如果读者有兴趣出版图书、录制教学视频，或者参与图书翻译、技术审校等工作，也可以发邮件给我们。

如果读者所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书，也可以发邮件给我们。

如果读者在网上发现有针对异步社区出品图书的各种形式的盗版行为，包括对图书全部或部分内容的非授权传播，请将怀疑有侵权行为的链接发邮件给我们。这一举动是对作者权益的保护，也是我们持续为广大读者提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”（www.epubit.com）是由人民邮电出版社创办的IT专业图书社区，于2015年8月上线运营，致力于优质内容的出版和分享，为读者提供高品质的学习内容，为作译者提供专业的出版服务，实现作者与读者在线交流互动，以及传统出版与数字出版的融合发展。

“异步图书”是异步社区策划出版的精品IT图书的品牌，依托于人民邮电出版社在计算机图书领域多年来的发展与积淀。异步图书面向IT行业以及各行业使用IT的用户。

本部分介绍搜索引擎的架构与关键技术，涵盖基本系统架构、查询理解、索引技术、关键词检索、排序学习等，解析搜索引擎如何高效获取、组织和检索海量信息。

第1章重点讲解搜索引擎的基本系统架构，包括网页抓取、内容理解和索引构建等，旨在奠定数据处理与存储的基础。第2章深入探讨查询理解技术，如查询解析、拼写纠错与查询扩展等，旨在提高对用户输入内容的识别和优化能力。第3章分析索引技术的核心实现，介绍倒排索引的基本结构、索引压缩算法及倒排索引的分布式服务等，展示高效查询支持。第4章关注关键词检索，结合文本相关性与权威性计算，优化检索效果。第5章讲解排序学习的算法及效果评价指标，以及经典相关模型与机器学习模型，以提升结果排序质量。

本部分为理解现代搜索系统提供技术框架和实践参考，为后续 AI 搜索技术探索奠定基础。

第1章　搜索引擎的基本系统架构

　　道可道，非常道。

　　　　　　　　　——老子，《道德经》　　　　　　

搜索技术在不断发展，搜索引擎的架构也将随着技术的发展以及具体应用场景的不同有不同的表现形式。同时，搜索引擎的技术体系涉及诸多计算机科学领域，包括架构设计、分布式计算、算法复杂性理论、数据压缩、自然语言处理、机器学习、深度学习、交互式设计等。除技术体系外，决定搜索引擎架构的因素还包括文档量级、并发访问的吞吐量以及待检索信息的具体形态等。这些变化与难点使得搜索引擎架构的总结比较复杂且充满挑战。对此，作者根据自己的理解，将搜索引擎抽象为图1.1所示的架构、涵盖网页抓取、文档解析、索引构建、查询理解、召回和排序等流程，希望向读者呈现一个相对完整的搜索引擎架构。

图1.1　搜索引擎整体架构示意

1.1　网页抓取

网页抓取是搜索引擎从互联网上搜集信息的关键技术，通过自动化程序（通常称为网络爬虫）访问和下载网站内容，再对这些数据进行处理和存储。这些抓取到的数据构成了搜索引擎的基础数据源。

作为搜索引擎的核心环节，网页抓取不但为搜索引擎提供所需的数据，而且其操作流程和技术实现相较于专业化搜索引擎（如垂直搜索引擎）更为复杂。在本节中，我们将重点介绍搜索引擎在数据获取和入库过程中的网页抓取技术和方法。

1.1.1　网页抓取过程

网页抓取过程包括网页发现、网页下载和解析、数据存储等基本操作环节。网页抓取过程见图1.2。首先，通过各种途径发现互联网上的链接（URL），例如网站的站点地图、Common Crawl 开源数据等。一旦发现链接，就使用网络爬虫程序对这些链接指向的网页进行下载。下载的网页内容将被临时存储，以便进一步处理。在网页下载完成后，进行链接解析。这个过程中，网络爬虫会分析下载的网页，提取出其中的链接，并将这些链接添加到待爬取队列中。这样，网络爬虫可以持续发现新的网页，循环进行下载和解析的过程。最后，网络爬虫需要将提取出的有用信息存储起来，以供后续的搜索引擎查询使用。数据存储不限于文本信息，还可能包括图片、视频以及其他媒体类型的数据等。存储的数据需要经过处理，以确保其可用性和检索效率。

图1.2　网页抓取过程

在整个网页抓取系统的设计和实现过程中，需要考虑的关键因素包括爬取策略的制订、网络爬虫的并发管理、抓取频率的控制、避免对网站造成过大压力、尊重网站的 Robots 协议等。此外，随着互联网的发展和网页技术的进步，动态网页的抓取、JavaScript 渲染的处理，以及反网络爬虫技术的应对也成了网页抓取技术研究和实践中的重要内容。

1.1.2　网页抓取系统的组成部分

为了完成以上过程，网页抓取系统通常需要包含调度器、网页下载器、链接管理器、网页解析器、数据存储中心等组成模块。

调度器负责分配任务给网络爬虫，决定哪些网页需要优先下载。

网页下载器则直接负责从互联网上获取网页内容，它能够处理各种网络情况，并且具备一定的错误处理能力，以确保下载过程的稳定和高效。

链接管理器是爬虫系统的一个关键组件，它负责存储和管理已发现的链接以及待爬取的队列。为了提高网络爬虫的效率，链接管理器需要高效地进行链接去重，确保同一个网页不会被重复下载和处理。此外，链接管理器还需要跟踪链接的爬取状态，以便调度器可以根据这些信息做出更合理的爬取决策。

网页解析器的作用是从下载的网页内容中提取有用信息，包括新的链接、文本、图片等。这通常涉及对 HTML（超文本标记语言）、CSS（串联样式表），甚至 JavaScript 的解析，因为现代网站大量使用了动态内容和复杂的前端技术。网页解析器需要能够准确地从这些复杂的网页结构中提取数据，这对网页解析器的设计提出了较高的要求。

数据存储中心是爬虫系统的最终输出模块，它负责将解析出的数据持久化存储。这不仅需要考虑如何高效地存储大量数据，还需要关注数据的组织方式，以便数据的查询和分析。根据需求，数据存储中心可以是简单的文件系统，也可以是复杂的数据库系统或分布式存储系统。

1.1.3　爬虫系统的衡量指标

爬虫系统的性能可以通过全面性、时效性、稳定性和准确性等指标衡量。

全面性用于衡量能够抓取到的有价值网页的数量和覆盖率，它反映了爬虫系统能够在多大程度上发现和索引互联网上的内容。具备高全面性的爬虫系统能够发现并抓取到更多的网页，包括深层链接和隐蔽的内容，从而为用户提供更为丰富和全面的搜索结果。

时效性则关注爬虫系统更新已抓取内容的速度，以及对新发现内容的抓取速度。这个指标对于新闻网站、社交媒体平台等内容快速更新的网站尤为重要。具备高时效性的爬虫系统能够确保用户在搜索时获取到最新的信息。

稳定性衡量的是爬虫系统在面对网络波动、网站更改结构或抗爬策略时的鲁棒性。具备高稳定性的爬虫系统能够在遇到这些挑战时仍然保持正常的运作，不会频繁出错甚至完全停止工作。

准确性则是指爬虫系统抓取和解析网页内容的正确率。这包括正确识别和提取网页上的文本、图片等信息，以及正确处理网页上的链接。具备高准确性的爬虫系统能够有效地减少噪声数据，提高搜索结果的相关性和质量。

1.2　内容理解

内容理解涉及从网页或其他媒体信息中提取和分析内容的过程，包括对网页内容的识别和分类等任务。这一过程对于筛选高质量网页和识别低质量网页至关重要，其主要目的是通过优化内容质量来优化搜索体验。网页内容理解不仅包括页面解析和自然语言处理，还涉及机器学习等技术。对于多媒体内容，这一领域还需应用计算机视觉等知识，以全面理解和处理信息。

1.2.1　页面分析

页面分析是对抓取的网页内容进行深入处理的过程，涉及网页结构化、浏览器视觉树构建、页面主图识别等技术。

网页结构化指根据网页结构（见图1.3），抽取页面的关键信息，例如文章正文、标题、作者、发布日期以及正文内容等。这个过程通常需要对 HTML 标签和其属性进行解析，识别出页面中的重要部分，并将其转换为结构化数据的格式，比如 JSON 或XML。通过网页结构化，爬虫系统能够更加准确地提取出有价值的信息，为后续的数据分析和搜索引擎索引提供支持。

图1.3　网页结构示意

浏览器视觉树构建则是指模拟浏览器渲染过程，分析网页的视觉布局。这涉及解析CSS 样式，计算 DOM（文档对象模型）元素的布局属性（例如位置、大小等），最终生成一棵视觉树。通过分析视觉树，爬虫系统可以识别出网页上的布局特征和视觉重点，比如哪些是页面的主要部分，哪些是广告或辅助信息，从而更加精确地提取出用户真正关心的内容。

页面主图识别是指从网页中识别出代表页面主题或内容重点的主要图片。这通常需要结合图像处理技术和页面结构分析，比如分析图片的尺寸、位置、链接文本和周围的文本内容等，以确定哪些图片是页面的主图。页面主图识别对于提高搜索结果的吸引力和改善用户体验是非常重要的，因为页面主图能够直观地反映页面内容，吸引用户点击。

要完成以上这些任务，爬虫系统不仅要能处理静态的 HTML 内容，还需要具备处理 CSS 样式、JavaScript 脚本以及图像数据的能力。随着网页技术的发展，动态网页和复杂的网页布局日益增多，这对爬虫系统的页面分析能力提出了更高的要求。因此，开发高效、准确的页面分析工具和算法，以及不断适应新技术的能力，对于提高爬虫系统的性能至关重要。

1.2.2　网页分类

网页分类的目的是通过对网页进行细致的分类处理，提高搜索引擎的检索准确性和优化用户体验。不同的分类方法针对不同的特征和需求，下面是对主要分类方法的详细解释。

页面结构分类　页面结构分类侧重于分析网页的布局和结构特征，如页面的 DOM 结构、使用的标签类型和层次等，以此来识别网页的类型。例如，通过识别特定的标签类型，可以区分出博客页面、论坛帖子、新闻文章等。这种分类方法有助于搜索引擎理解网页的基本框架和内容组织方式，从而在特定的搜索场景中提供更为精确的结果。

网页内容分类　网页内容分类则是基于网页的文本内容进行的，它利用自然语言处理（NLP）技术分析页面上的文字信息，识别出网页内容的主题或类别，如体育、科技、教育等。这种分类可以基于关键词、主题模型、深度学习等多种技术实现。网页内容分类对于提高搜索结果的相关性非常关键，因为它使得搜索引擎能够根据用户的查询意图匹配到最合适的内容。

黄反页面识别　黄反页面识别专注于检测和过滤含有不适宜内容的网页，例如色情、暴力或其他反社会内容。这通常涉及复杂的图像和文本分析技术，旨在识别和屏蔽这类内容，以保护用户不受不良信息的影响。黄反页面识别不仅要分析网页文本中的敏感词汇，还需要对网页上的图片和视频进行深入分析，确保高效、准确地过滤掉不良内容。

网页分类技术的发展和完善，对于提升搜索引擎的服务质量具有重要意义：它不仅有助于提高搜索结果的准确性和相关性，还有助于为用户提供一个更安全、更健康的网络环境。随着人工智能和机器学习技术的进步，网页分类的准确率和效率将不断提高，为用户带来更加优质的搜索体验。

1.3　索引构建

在现有的搜索引擎架构中，索引是核心系统模块。索引的质量在很大程度上决定了搜索效果的上限，其访问速度也对整个系统的响应时间有很大的影响。我们在本节中会简要介绍索引的基本结构以及索引在搜索引擎中的功能和作用。

1.3.1　索引的数据源

在介绍索引的具体内容之前，首先要解决索引的数据源问题，即对哪些内容构建索引。不同的搜索引擎有不同的数据来源和数据采集方式：对于网页搜索引擎而言，索引的数据源来自网络爬虫；对于垂直领域的搜索（例如电商搜索），商品库就是索引的数据源。数据源和数据库的设计是另一个非常大的话题，不在本书讲述范围之内。这里假设数据源已经准备好了，本节将重点讲解索引的构建和检索过程。

1.3.2　索引结构与压缩算法

在索引构建阶段，通常会同时生成倒排索引和正排索引。倒排索引是搜索引擎的基本数据结构，其基本思想是在每一个词后面挂载一系列内容中包含该词的文档，这种结构可以快速定位包含查询词的相关文档。与倒排索引相对应的是正排索引，它的基本结构是文档 ID 到文档内容的映射表，其基本原理是对于给定的 ID，返回相应的文档内容。正排索引通常用于后续排序过程的特征提取，以及内容摘要的生成等过程。两种服务的工作过程参见图1.4。

图1.4　早期搜索引擎架构

为了满足处理大量索引数据的需求，搜索引擎通常会用各种编码方式对索引进行压缩存储，包括索引块级别的PForDelta、RoaringBitmap，字节级别的变长编码，位级别的 Gamma 编码、Rice 编码等。这些编码方式可以让搜索引擎在提高查询性能的同时减少对存储和计算资源的占用，对于保持搜索引擎在不断增长的数据面前的高效性和可扩展性至关重要。

1.3.3　索引的分片、复本与分级策略

搜索引擎的文档体量通常比较大，不太可能在一台计算机上存放所有的索引数据。对此，常见的做法是将数据分成若干份并放在不同的计算机上分别服务，这种方式称为分片。在分片的时候有两种方式：一种是按照文档ID分片，例如对文档ID计算哈希值后用取模运算将数据分到不同的计算机上；另一种是按照词分片，对词计算哈希值后利用取模运算将数据分到不同的计算机上。这两种方式各有优缺点。按照文档 ID 分片的优点是每台计算机可以单独完成完整的信息检索过程并返回部分搜索结果，因为避免了不同计算机之间的访问，所以网络开销比较小。这种分片方式的缺点是一次请求需要访问所有计算机，磁盘访问的总次数是 O(KN)，K 是查询词长度，N 是分片数量。对应地，按照词分片的优点则是每个词只需要在一台计算机上访问一次倒排索引，磁盘读写次数比较少。但是因为文档数据是分布在各个计算机上的，所以在访问倒排索引之后，需要通过访问各个计算机收集各个正排索引的数据，这个过程的网络开销比较大。同时，要把同一个词下面的所有文档集中在一台计算机上，这使得限制索引构建阶段同一个词下的倒排索引无法分布式生成。因为按照词分片限制了分布式计算的能力，可扩展性并不是特别好，所以在大多数搜索引擎中都采用按照文档 ID 分片的方式。

索引分片策略可以解决内容体量的问题。如果搜索引擎在线访问量也比较高，一台计算机对一个分片的计算能力无法同时应对大量的并发请求，那么需要对每一个索引分片再做复本策略，即将同一份索引复制多份到不同机器上提供并行的访问服务。复本策略可以充分利用分布式计算的能力缓解单台机器的计算压力，为大量的并发请求提供索引服务。

搜索引擎通常呈现出比较明显的头部效应，即大量的请求集中在一小部分文档上。为了充分利用这种数据分布特点，提高资源的利用率，搜索引擎通常按照文档的某些属性分级，将经常被访问的文档放在最上面一层，不经常被访问的文档放到下面的层级中。在具体使用过程中，只有上一层的索引没有足够的文档，才会访问下一级的索引。

图1.5展示了包含分片、复本与分级策略在内的索引服务架构。当搜索请求（Request）到达根节点（Root）服务器时，系统优先检查缓存服务器（Cache Server）是否已经存储了所需的数据，若没有，父节点服务器（Parent Server）逐级向下查询，将用户请求路由到具体的服务器，直至找到目标数据。叶子节点服务器（Leaf Server）存储了更具体的数据片段，接收父节点服务器的请求并查询存储分片（Repository Shard）。数据管理器负责管理整个数据存储系统，包括文件的加载、分片、分配到具体的叶子节点服务器等。数据管理器通过文件加载器（File Loader）将原始数据分片后存储到不同的存储节点。

图1.5　包含分片、复本和分级策略在内的索引服务架构

1.4　查询理解

查询理解（Query Understanding）是搜索引擎中的核心模块之一，它可以帮助搜索引擎更好地理解用户的搜索意图，提供更准确、更相关的搜索结果。查询理解的基本过程通常涉及对查询词做预处理、分词，以及对查询词做改写和扩展等操作。通过这些操作，搜索引擎可以具体分析用户的搜索词汇、识别同义词和相关词汇、扩展用户的搜索词汇、识别实体等，进而更好地理解用户的搜索意图，从而返回更准确、更相关的搜索结果。图1.6给出了查询理解的基本过程。

图1.6　查询理解的基本过程

1.4.1　查询词预处理

查询词预处理通常涉及预处理、拼写纠错、分词等操作。

（1）预处理。预处理主要指的是将查询文本转换为标准化的格式，这包括转换字符大小写、去除多余的空格、处理特殊字符等。这一步骤是确保后续处理过程能够顺利进行的基础，也有助于降低处理的复杂度和提高处理效率。

（2）拼写纠错。拼写纠错是指对用户输入查询文本时可能出现的拼写错误或打字错误进行纠正的过程。搜索引擎通常会采用基于规则或基于统计的方法来识别和纠正这些错误，以确保查询意图被正确理解。例如，通过比较用户查询的词汇与一个大规模词汇数据库中的词汇，搜索引擎可以推断出用户最有可能想要输入的词汇，并据此对查询文本进行纠正。

（3）分词。分词是将用户的查询文本切割成有意义的词汇或短语的过程。由于不同语言的语法和用词习惯差异较大，分词算法通常需要针对特定语言进行设计。在中文中，分词尤为关键，因为中文书写不像英文书写那样有明显的单词间隔。准确的分词对于理解查询意图至关重要，因为它直接影响到后续的语义理解和查询扩展处理。

上述步骤是实现查询理解的基础，有助于搜索引擎清洗和准备用户的查询文本，进而实现深入的语义理解和查询处理。通过这些基础处理，搜索引擎能够更准确地捕捉用户的查询意图，从而提供更相关、更准确的搜索结果。

1.4.2　查询改写

查询改写（Query Rewriting）是一种通过修改用户原始查询词来提高搜索结果相关性和质量的技术。这一技术的核心在于理解用户的真实意图，并据此对查询词进行适当的调整或补充，以帮助用户更准确地找到他们所需要的信息，根据用户的查询意图，对查询词进行精准的调整。比如，用户搜索的是“天气”，如果根据用户的地理位置信息，可以将查询词改写为“北京今天的天气”。

1.4.3　查询扩展

查询扩展（Query Expansion）是搜索引擎用来扩大召回集并找到更多相关文档的重要手段。查询扩展的主要目的是优化原始查询词的表现形式，以便捕捉更多与用户意图相关的文档。这可以通过添加同义词、相关词汇或其他补充信息来实现。例如，要查询“电动汽车”，搜索引擎可能会据其扩展出“特斯拉”“蔚来”，以找到更多相关文档。又如，对于喜欢摄影的用户，搜索引擎可能会将查询的“相机”扩展为“数码相机”“单反相机”等更有针对性的词汇。

1.4.4　时效性分析

时效性分析有助于理解用户可能关注的时间范围，从而优化搜索结果。例如，对于查询“奥运会”，搜索引擎可以根据当前时间推断用户可能关注的是最近一届的奥运会。此外，一些查询具有明显的季节性或事件驱动特征，如“圣诞节礼物”或“马拉松比赛”，时效性分析可以帮助搜索引擎展示相关结果。

1.4.5　查询分类

查询分类对于理解用户的查询意图也有非常重要的作用。通过对用户输入的查询词进行分类，搜索引擎可以更好地理解查询的主题和领域。例如，将查询的“苹果”归类为“科技公司”或“水果”可以帮助搜索引擎返回更相关的结果。查询分类可以利用预先定义好的类别、基于机器学习的分类器或者结合用户上下文信息进行。

1.5　召回

在索引构建和查询理解的基础上，召回是搜索引擎的关键组成部分，其任务是从索引库中检索并返回与查询词相关的文档。召回阶段的目标是确保高度相关的文档被包含在结果中，同时尽量降低不相关文档的出现概率。关键词召回和语义召回是两种基本的信息检索技术，它们分别侧重于不同的检索方面，以提供更准确的搜索结果。在具体应用时通常将两种召回方式混合在一起使用，如图1.7所示。

图1.7　关键词召回和语义召回混合结构示意

1.5.1　关键词召回

关键词召回是基于查询词在文档中出现的次数来检索文档的方法。搜索引擎先在倒排索引中查找包含查询词的文档，然后根据词频、TF-IDF 等指标对文档进行排序。关键词召回的优点是速度快、实现简单，但它的局限在于无法捕捉到词汇之间的关系和上下文信息。因此，关键词召回可能会漏掉一些语义上相关但未包含查询词的文档。

1.5.2　语义召回

语义召回是基于文档和查询词之间的语义相似性来检索文档的方法。与关键词召回不同，语义召回关注的是查询词和文档内容的语义关联，而不仅仅是词汇匹配。语义召回通常利用词向量、主题模型或深度学习技术（如 BERT、Word2Vec 等）来度量文档和查询词之间的语义相似性。语义召回的优点是能够找到即使没有包含查询词也与查询意图相关的文档，但它的计算复杂度相对较高。

现代搜索引擎通常会结合关键词召回和语义召回技术，以充分利用它们的优点并弥补其各自的不足。这种方式可以提高搜索引擎的召回效率，为用户提供更准确、更相关的搜索结果。

1.6　排序

索引构建阶段通常会返回大量候选集，为了将这些候选集中最相关的内容展现给用户，需要在索引匹配之后增加排序的环节。排序的目标是在搜索引擎结果页面顶部展示最相关、质量最高的结果，确保用户可以快速找到想要的信息。排序过程通常涉及特征工程和构建排序模型两方面内容。前者将各种信息加工为基础的排序特征集，后者将综合给这些排序特征评分。由于搜索引擎涉及的数据体量巨大，因此在实际应用过程中通常会采用多级排序架构，优化资源的配置。

1.6.1　特征工程

在搜索引擎的排序问题中，特征工程的作用是捕捉用户查询词和候选文档之间的各种相关性关系，用于有效地区分相关结果和不相关结果。搜索引擎常用的特征组包含查询侧特征、文档侧特征和交互特征等。查询侧特征用于提取查询词的各种表示信号，帮助衡量查询词的重要性和流行程度，例如查询词长度、查询词热度、查询词历史点击率、查询词类别特征等，一些查询词的上下文也可能会提升搜索的相关性。文档侧特征与网页或者文档本身有关，帮助衡量文档的重要性、质量、实时性等。例如文档历史点击率、PageRank、文档字符数、文档结构特征、内容质量等。交互特征既包括BM25、TF-IDF、关键词出现密度等经典文本匹配特征，也包含语义似然度特征。语义似然度特征通常需要借助一些统计模型或者深度学习模型获得，比如词嵌入、主题建模、BERT 模型等。实体匹配和位置匹配也比较重要，例如查询词中出现的人名、地名等。这些交互特征可帮助搜索引擎更准确地评估查询词和候选文档之间的相关性，从而为用户提供高相关度和高质量的搜索结果。

1.6.2　排序模型

排序模型综合各个排序特征给出最终的相关性评分。排序模型的主要目标是对搜索结果进行排序，使得高相关度和高质量的文档显示在搜索结果页面的顶部，而低相关度或低质量的文档排名较后。搜索引擎的排序目标通常需要考虑到基础相关性、时效性、权威性、用户反馈等多方面因素，综合考虑给出最优的排序结果。

（1）基础相关性。基础相关性是搜索引擎最为核心且最具挑战的指标之一，它衡量搜索结果是否准确、内容相关性能否满足用户的搜索需求。相关性的计算方法一直在不断发展，早期的搜索技术主要依赖若干公式和规则来描述和量化相关性。随着技术的进步，搜索引擎开始使用机器学习框架，将多种相关性因子融合在一起，以期获得更加精确的排序结果。

（2）时效性。时效性在搜索引擎排序中扮演着非常重要的角色，特别是对于那些内容更新频繁、用户需求具有明显时效性的查询。时效性指的是内容的新鲜度或与当前时间的相关性。对于新闻、事件报道、博客更新等类型的查询，用户往往希望获得最新的信息。因此，搜索引擎在排序时会考虑文档的发布时间或最后更新时间，以确保返回给用户的搜索结果是最新的。

（3）权威性。权威性是评估信息源可信度的重要标准之一，在学术、新闻及专业内容的搜索中尤为关键。搜索引擎通过分析网页链接的数量和质量（例如，使用PageRank算法），以及内容发布者的信誉和专业度，来判断一个页面或内容的权威性。此外，引用的外部源质量、域名的存在时间和历史，以及用户的互动程度等因素也被纳入考量，以确保提供的搜索结果不仅相关，还可靠和权威。

（4）用户反馈。用户反馈是搜索引擎优化其排序算法的宝贵资源。搜索引擎通过分析用户对搜索结果的点击行为、停留时间、返回率等行为指标，来评估结果的实际相关性和用户满意度。此外，用户对搜索结果的直接反馈，如评分、评论或使用“有用”和“无用”按钮的反馈，都可以被用来调整和优化后续的搜索结果。这样的动态调整帮助搜索引擎不断适应用户需求的变化，进一步提升搜索结果的准确率和用户体验。

1.6.3　多级排序框架

由于不同的排序模型具有不同的计算复杂度，搜索引擎通常采用多级排序框架来平衡检索性能与计算成本。这种框架可以在减少计算负担的同时，确保相关性最强的搜索结果被优先呈现给用户。

多级排序框架通常分为以下几个阶段。

（1）初步筛选：在这个阶段，搜索引擎使用简单、高效的方法从索引中快速检索与查询词相关的候选文档。这些方法可能包括布尔查询、TF-IDF等。通过初步筛选，搜索引擎可以在短时间内减少需要处理的文档数量。

（2）粗略排序（粗排）：在初步筛选的基础上，使用计算相对简单的排序模型，如向量空间模型（VSM）或基于概率的模型（如 BM25）对候选文档进行粗略排序。这个阶段的目标是在计算成本较低的情况下，进一步缩小候选文档集合。

（3）精细排序（精排）：针对粗略排序后的文档子集，应用更复杂、计算密集型的排序模型，如排序学习模型（如 RankNet、LambdaMART 或RankBoost）或神经排序模型（如 DRMM 或BERT）。这些模型通常可以提供更高的排序准确性，但计算成本较高。因此，在这个阶段，只对有限数量的候选文档进行精细排序。

通过多级排序框架，搜索引擎可以在保持高效检索的同时，确保高相关度和高质量的文档被优先展示给用户。此外，还可以根据实际应用场景和硬件资源对多级排序框架进行调整，以实现最佳的性能和计算成本平衡。图1.8展示了多级排序框架下的检索过程。

图1.8　多级排序框架下的检索过程。早期过程以召回率为主，需要面对的文档量级更大，
更关注效率；后期排序和重排序过程更加关注效果

多级排序框架的背后思想是用尽量低的计算和时间代价筛选出相关性最强的内容。每次检索的计算量是各层计算量之和，每层的计算量是处理单个候选集的计算复杂度乘候选集大小。所以总的计算量可以表示为

　　（1.1）

在工业应用场景中 D_retrieval 的规模从千万到几十亿不等，D_rank 的规模大致是几百到几千，D_rerank 的规模则是几十到几百。从式（1.1）可以看出，从召回、粗排到精排，需要处理的文档的规模跨着一个甚至几个数量级，因此这3个阶段对计算复杂度的要求也是不一样的。粗排对准确率的要求没那么高，但是对时间的要求非常苛刻。相反，精排为了追求精度，排序函数的时间复杂度可以相对高一些。

1.7　其他

搜索引擎需要处理大量复杂的问题，涉及大规模数据处理、计算和实时响应等。因此，除了前文介绍的核心模块，搜索引擎还依赖许多支撑服务来保证研发工作的顺利进行。以下是一些常见的支撑服务。

（1）机器学习平台（Machine Learning Platform）。搜索引擎广泛应用机器学习技术进行排序、查询分类、时效性分析等任务。机器学习平台可以提供统一的数据处理、特征工程、模型训练、评估和部署等功能，帮助研发人员快速开发和迭代机器学习模型。

（2）A/B 测试平台（A/B Testing Platform）。在搜索引擎研发过程中，A/B 测试是衡量算法或功能效果的重要方法。A/B 测试平台可以帮助研发人员轻松设计实验、分析结果并做出数据驱动的决策。

（3）大数据处理平台（Big Data Processing Platform）。搜索引擎需要处理海量的网页、用户行为和其他数据等。大数据处理平台（如 Hadoop、Spark 等）提供了分布式存储和计算能力，可以高效地处理和分析这些大规模数据。

（4）实时数据处理和分析系统（Real-Time Data Processing and Analysis System）。搜索引擎需要实时响应用户查询并根据最新数据更新搜索结果。实时数据处理和分析系统（如 Kafka、Storm、 Flink 等）可以帮助搜索引擎在短时间内处理大量数据并做出实时决策。

（5）监控和报警系统（Monitoring and Alerting System）。搜索引擎需要确保高可用性和稳定性。监控和报警系统可以实时监控系统性能、资源使用情况以及错误和异常等，及时发现潜在问题并进行报警。

这些支撑服务在搜索引擎研发和运营过程中起到了关键作用。它们共同保证了搜索引擎系统的高效、稳定和可扩展，为用户提供优质的搜索体验。

1.8　小结

本章全面介绍了搜索引擎的关键技术和架构，探讨了如何通过高效的爬虫系统从互联网上搜集信息，包括网页发现、网页下载和解析、数据存储等环节；还详细解释了内容理解和索引构建，阐明了如何从大量数据中提取有用信息，并将其有效地组织成可快速检索的索引形式。

进一步，本章深入讨论了查询理解的重要性和实施过程中涉及的一些操作，这些操作都是为了更好地捕捉用户的搜索意图，并提供更准确、更相关的搜索结果。关于召回和排序阶段的详细说明则揭示了如何从构建的索引中检索信息，并通过多级排序框架确保高质量内容的优先展示，以更好地满足用户的具体需求。

最后，除了核心模块，本章还强调了支撑服务的作用，如机器学习平台和大数据处理平台，这些服务为搜索引擎的高效运行提供了必要的技术基础。随着技术的不断发展和用户需求的变化，搜索引擎架构也在不断地演进，以应对新的挑战，从而为用户提供更快、更准确、更具个性化的搜索体验。

AI搜索：基础与前沿

图书目录:

详情

图书摘要

版权信息

版 权

内容提要

推荐序一

推荐序二

前 言

搜索技术的演进

1．专家系统时代

2．机器学习时代

3．大语言模型时代

搜索引擎当前面临的主要挑战

1．信息爆炸与搜索效率

2．信息质量与搜索结果

3．用户隐私与数据安全

4．技术创新与未来发展

本书写作动机

本书目标读者

各章概述

资源与支持

资源获取

提交勘误

与我们联系

关于异步社区和异步图书

第1章 搜索引擎的基本系统架构

1.1 网页抓取

1.1.1 网页抓取过程

1.1.2 网页抓取系统的组成部分

1.1.3 爬虫系统的衡量指标

1.2 内容理解

1.2.1 页面分析

1.2.2 网页分类

1.3 索引构建

1.3.1 索引的数据源

1.3.2 索引结构与压缩算法

1.3.3 索引的分片、复本与分级策略

1.4 查询理解

1.4.1 查询词预处理

1.4.2 查询改写

1.4.3 查询扩展

1.4.4 时效性分析

1.4.5 查询分类

1.5 召回

1.5.1 关键词召回

1.5.2 语义召回

1.6 排序

1.6.1 特征工程

1.6.2 排序模型

1.6.3 多级排序框架

1.7 其他

1.8 小结

相关图书

相关文章

相关课程