搜索引擎是如何工作的?

- 灬无言 - 阅 4,958

了解搜索引擎是如何工作的,对SEO网络优化有着较为重要的作用。

今天,灬无言带给大家三种方式来理解搜索引擎是如何工作的。建议简单了解即可,非搜索引擎开发人员无需深究。

一、搜索引擎的基本架构

搜索引擎的组件主要提供两种功能:索引处理查询处理

索引处理

文本采集:用于发现网页、电子邮件、新闻、备忘录、书信等文本内容,并且使这些文档能够被搜索到。

文本转换:将采集来的文本转换为索引项或者特征。索引是文档的一部分,存储在索引表中并且用于搜索。特征是文档的一部分,用于表达文档的内容。

索引创建:利用文本转换组件的输出结果,创建索引或者数据结构,以便实现快速搜索。

查询处理

用户交互:提供搜索用户和搜索引擎之间的接口。功能其一接受用户查询并将它转换为索引项,其二从搜索引擎中得到一个排好序的文档列表,并重新组织成搜索结果显示给用户。

排序:搜索引擎系统的核心。它使用从用户交互组件得到的转换之后的查询,并且根据检索模型生成一个按照分值排好序的文档列表。

评价:用于评测和检测系统的效果的效率。任务之一利用日志数据来记录和分析用户的行为。评价的结果用来调整和改善排序组件的性能。

二、搜索引擎工作原理的三个阶段

搜索引擎工作原理分成三个阶段依次为:爬行和抓取预处理排名

爬行和抓取:是搜索引擎工作的第一步,完成数据收集的任务。蜘蛛遵守robots.txt的协议(哪些不想被哪个搜索引擎抓取),追踪链接(优化站内结构,降低追踪难度),吸引蜘蛛(导入链接多、距离首页近、权重高、更新快、URL结构浅),提交链接或XML文件便于抓取,蜘蛛抓取数据存入数据库并在爬行和抓取时也会进行一定程序的复制内容检测。

预处理:从HTML文件中,提取文字、中文分词(两个字或四个字都可以算词,在百度快照中可以查看分词结果)、去停止词(的啊地the to)、消除噪声(寻找内容主题部分)、去重(同一文章出现在同一网站不同网址或不同网站)、正向索引、倒排索引、链接关系计算、特殊文件处理、质量判断。

排名:搜索词处理(中文分词、去停止词、指令处理、拼写错误矫正、整合搜索出发、搜索框提示)、文件匹配、初始子集的选择、相关性计算(关键词常用程度、词频及密度、关键词位置及形式、关键词距离、链接分析及页面权重)、排名过滤及调整、排名显示、搜索缓存、查询及点击日志(搜索用户的IP地址、搜索的查询词、搜索时间,以及点击了哪些结果页面,搜索引擎都记录形成日志)。

搜索引擎工作原理

三、百度搜索引擎必经的四个过程

百度搜索引擎必经的四个过程依次为:抓取过滤建立索引输出结果

抓取:Baiduspider,或称百度蜘蛛,会通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。

过滤:互联网中并非所有的网页都对用户有意义,比如一些明显的欺骗用户的网页,死链接,空白内容页面等。百度会自动对这些内容进行过滤。

建立索引:百度对抓取回来的内容会逐一进行标记和识别,并将这些标记进行储存为结构化的数据,同时,也会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。

输出结果:用户输入的关键词,百度会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展现给用户。

百度搜索引擎的四个过程

通过以上的介绍,灬无言相信,大家都已经了解了搜索引擎是如何工作的。还是那句话,一般的SEO人员仅需理解即可,如果想要深入了解搜索引擎,应该去看讲述搜索引擎信息检索的书籍,或者更为宽泛的信息检索的书籍。感谢您的观看。SEO排名培训认准小小课堂!

非特殊说明,本文为小小课堂SEO自学网原创,欢迎转载并保留版权 https://www.xxkt.org/

本站提供SEO培训、咨询、诊断,微信(电话):13722793092 微信公众号:xxktorg

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章!