seo基础教程:搜索引擎文本转换

- 马慧SEO原创文章,转载请保留本站链接,否则举报处理 - 阅 221

搜索引擎蜘蛛爬行并抓取页面后,需要对这些页面或文档转换为纯文本,并存储于数据库中。

今天,小小课堂SEO自学网带来的是《seo基础教程:搜索引擎文本转换》。希望本次的SEO技术培训对大家有所帮助。

seo基础教程

一、分词处理

搜索引擎中有解析组件专门负责对文档进行分词处理,它们可以识别文档中的结构化元素,例如通过HTML标签识别出标题、正文、锚文本链接、图片、JavaScript代码、视频代码等等。

在英文中较为明显的词素,词素是空格分开的字母与数字构成的字符串,在某些情况下,词素就是分词处理后的词,但在另外一些情况下,可能是几个词素组成的,如“Search Engine Optimization”,可以看作是三个词,不过在SEO行业通常情况下被看作是一个词。在中文没有像英文那样的分隔符,所以中文的解析组件处理方式与英文有着很大的不同。

因为文档或页面通常为HTML、XML等标记语言,均利用标签来定义元素,故解析组件通过使用标记语言中的语法知识来识别文档的结构。

二、去停止词

搜索引擎有去除文档中停止词的组件,删除解析组件分析出的某些频率较高的词素,如英文的“of”、“the”、“to”,再如中文的“的”、“得”、“地”。因为这些词用的是在太过普遍,对文章没有很大的影响,甚至还可能对搜索引擎的效果有所改善。

但是,在某些情况下仅将停止词都去掉或许会出现问题,比如“to be or not to be”,当用户搜索这句话时,搜索引擎可能就不会给出结果。所以,搜索引擎在处理文本的时候,会使用一个小的停用词表,但在查询文本时,则会使用一个大的停止词表。

三、提取词干

搜索引擎做完分词处理和去掉停止词之后,会进行词干提取,将同一个词干的词分为一类,如“cat”和“cats”会归为一类,并可能将最短的一个词替换掉全文中的所有的词,从而提高用户查询词和文档中词的相关性。

但是词干提取和去停止词相似,对排序索引的改善很小,所以,一些搜索引擎在通常情况下只会小心对一部分词进行词干提取。对于英文来讲,词干提取意义并不是很大,但是对于一些具有更复杂词汇的阿拉伯语,高质量地提取词干对搜索结果还是有非常大的影响的。但对于中文等词型变化很少的语言来讲,不会产生任何效果。

四、提取网页的超链接和锚文本

在文档解析过程中,对于文档或网页中的超链接和锚文本是非常容易提取的。同时,搜索引擎广泛使用的链接分析算法就是利用超链接和锚文本对页面排名产生一定的正面影响,一是对该页面的关注度,二是页面的权威性。在几年前,这一点大大改善了搜索引擎的搜索体验。但目前已经弱化了低权重网站的锚文本链接作用。最快的排名应该是提升网站的用户体验度,从而增加粘性,降低跳出率等,不过,目前也出现了大量刷点击创造虚假用户友好的现象出现。

五、对文档的信息抽取

信息抽取是针对复杂的索引项而言,并非是简单的词,而是很多项,比如人的名字、公司的名字、网站的名字、发表的日期等等。

六、对文档进行分类

搜索引擎有分类组件对文档进行分类,例如将一篇SEO文章放入互联网或科技类,还有就是判断这篇文章是否为低质量文章或软文内容等分类。

以上就是小小课堂SEO自学网带来的是《seo基础教程:搜索引擎文本转换》。感谢您的观看。网络营销培训认准小小课堂!SEO培训认准小小课堂!

非特殊说明,本文为小小课堂SEO自学网原创,欢迎转载并保留版权 https://www.xxkt.org/

本站提供SEO培训、咨询、诊断,微信(电话):13722793092 微信公众号:xxktorg

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章!