seo培训

百科首页

初级SEO

当前位置:首页> 初级SEO教程 >LSI

名 称:LSI
别 称:Latent Semantic Indexing、潜在语义索引
简 述:中文译为“潜在语义索引”,即长尾的选取。
详 述:

LSI,Latent Semantic Indexing,中文译为“潜在语义索引”,即长尾的选取。


在传统的向量空间模型中,文档集合中的文档被抽取成为若干个索引项,每个文档由索引项构成一个文档向量空间,而每个项在文档集合中的各个文档中的权值集合则构成了一个项向嚣空间。两者结合在一起构成了文档集合的向量空间。此模型存在两个缺陷:向量模型假设所有的索引项是独立无关的,但实际上可能存在两个索引项(如索引项“电扇”和“电风扇”)是同义的;索引项的数量有时会很多,造成向量空间过大,不利于存储和计算。


为了解决向量空间存在的问题,在向量空间基础上提出了一个潜在语义索引的方法,此方法被证实比在Salton的SMART系统中使用的传统向量空间技术性能更好。


概述


潜在语义索引(Latent Semantic Indexing,简称LSI)是T.K.Landauer、S.T.Dumais等人提出的一种将文档组织成语义空间结构的方法。其原理是认为文档的词与词之间存在着某种潜在的语义联系,通过统计分析,系统自动寻找这些潜在的语义联系,形成语义空间。潜在语义索引方法已经被证明是对传统的向量空间技术的一种改良,它扩展了向量空间模型,模拟了利用奇异值分解计算文档矩阵的潜在语义空间。因此,潜在语义索引可以用来克服语词匹配过程中面临的两个问题:同义现象(人们选择词汇的可变性)和多义现象(同一个词往往有不同的意思)。


例如,有四个索引项:卡车、货车、司机和熊猫。对索引项“卡车”而言,其中“货车”是同义词,“司机”是有关系的词,而“熊猫”则没有关系。在向量空间模型中,假如检索“卡车”,则在那些无“卡车”这个索引项的文档中,有索引项“货车”的文档不会比有索引项“熊猫”的文档具有更大的相似度。潜在语义索引通过对向量空间的降秩可以表示“卡车”和“货车”的同义关系。


潜在语义索引是基于文档间、文档索引项间、文档索引项和文档间的潜在语义关系构建的一个语义空间,具有相似主题的文档或者相近含义的索引项在该空间中对应的点之间的距离很近。


利用潜在语义索引的原理,可以通过对大规模文档集合的统计分析,创建文档矩阵和语义空间来揭示文档间、索引项间、索引项与文档间的潜在语义关系。潜在语义索引用正交的K维空间代替原来的空间,用该空间的点来表示索引项、文档和检索表达式。该空间就是潜在的语义结构的概念空间,消除了索引项之间的相关性,降低了向量的维数,在较低的概念空间,进行相似度计算。从而达到无同义词库或者知识库的前提下,检索系统也可以自动识别出文档间、文档索引项间、文档索引项和文档间的潜在语义关系,较好地解决单纯索引项匹配方法中面临的同义和多义现象,完善检索系统性能的目的。


由于潜在语义索引可以计算出文档间、文档索引项间、文档索引项和文档间的相似度大小,在很多领域都可以得到运用,比如文本检索、自动标引、文本摘要、信息过滤、双语交叉过滤、垃圾邮件过滤、文本分类、个性化服务和用户反馈、智能检索等方面。


文档语义空间的表示


在应用潜在语义索引方法的时候,首先需要表示出文档集合的语义空间。简单地说,潜在语义索引方法通过奇异值分解计算,将索引项、文档和检索表达式按照语义相关程度组织在同一语义空间中。在这一语义空间中,分散在不同文档和检索表达式中的同义词之间的距离相近,主题语义接近的文档和检索表达式则位置相邻。索引项、文档和检索表达式之间的联系就是它们之间的潜在语义关系。


传统的检索系统在面对这样的情况时,一般对系统附上一个大型的同义词库或者知识库,当文档和检索项没有精确匹配的情况下,调用同义词库或者知识库来提高召回率。但是,在实践中编制一个覆盖所有学科所有研究领域的同义词库或知识库是不现实的,更不用说自然语言苎错综复杂、变化发展的。而基于潜在语义索引的检索系统在没有同义词库的前提下仍可以自动给出较为准确的检索结果。


局限性


潜在语义索引具有框架定义完整、优化准则清楚的特点,但是它也存在一些局限性,主要表现在:①潜在语义的应用取决于具体的文档集合,比较适用于词汇异构度很高的文档集合,即文档集合中不同的文档采用不同的词汇来描述同一个概念,但是如果文档中的词汇异构度较低,则应用潜在语义索引的效果将不太明显;②潜在语义索引的速度比传统的向量空间方法慢,因为它需要进行高阶矩阵的运算,计算查询字段和每篇文档的相似度;③奇异值分解存在局限性,它假设数据的分布是正态分布,然而类似词频的统计数据并不符合正态分布的条件。


小小课堂SEO自学网相关教程:


关键词排名优化干货分享


关键词排名点击器哪个好?百度seo排名点击软件选择教程


相关性重要吗?百度相关搜索词可提升核心关键词排名?


部分网站文章排名下降,关键词库量大减!2018年9月


中文分词与长尾关键词优化


关键词seo排名不要过度迷恋综合性高权重网站


百度关键词搜索量如何查询?百度指数真的准确吗


关键词库是什么?关键词词库怎么做?如何增加


seo中关键词的布局原则?seo怎么布局关键词


核心关键词选择方法与技巧


搜索词和关键词的区别?热门关键词分析挖掘


为什么优化关键词?优化关键词是什么意思


百度关键词分析:梳理已有排名关键词


关键词分析是冲破网站优化瓶颈的秘籍


网站首页的关键词怎么写


企业网站排名优化似乎更看重首页关键词排名


企业站seo关键词分析与布局实例


文章页面关键词布局优化排名培训


索引排序规则决定了关键词排名不稳定|SEO排名培训


关键词优化应该由文章到栏目再到首页


【seo技术培训】栏目收录_权重_关键词查询方法


seo诊断分析工具_百度搜索资源平台【流量与关键词】


seo关键词优化到百度首页需要多久|什么条件


百度关键词seo策略之优化3至5页排名


关键词seo优化排名影响因素汇总


seo关键词排名优化影响因素投票结果


【蚌埠seo】什么是关键词影响力


百度关键词排名优化知识总结


【德阳seo】如何做文章中的关键词链接?转百度官方


【如何优化网站】文章做聚合优化关键词排名_SEO研究教程


【免费seo培训】站长工具提交关键词_SEO培训教程


【深圳关键词优化】关键词排名优化必看秘籍


关键词密度多少最佳?SEO实战教程


【百度seo培训】为什么申请友链要求关键词库?SEO培训教程


什么是长尾关键词?如何挖掘长尾词与优化长尾词


【SEO研究中心】百度关键词排名因素研究


杭州seo培训:快速查询长尾关键词排名_SEO教程


【重庆SEO排名】SEO就是关键词排名吗?SEO排名教程


SEO观察修改首页后几天有新关键词排名_SEO研究


多地域关键词排名优化实战经验分享


百度关键词热度查询


为什么要做SEO优化关键词?


石家庄SEO_网站如何实现多地域关键词排名


网站关键词库和热门关键词库应该如何建立?


SEO网站关键词霸屏原理分析


关键词分类助力SEO方案定位与执行


搜索结果页面点击率与SEO关键词优化


SEO关键词布局


关键词的选择依据?怎么选关键词


长尾关键词挖掘方法让网站优化不再盲目


SEO网站关键词优化难度分析


搜索词与关键词的区别及其在SEO优化中的价值

额 本文暂时没人评论 来添加一个吧

取消回复发表评论

必填

选填

选填

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

LSI

  • TrustRank
    信任指数,衡量一个网站受信任程度的指标。
  • 域名劫持
    通过攻击域名解析服务器,把目标网站域名解析到错误的地址。
  • 动态URL
    动态链接,即指在URL中出现“?” 这样的参数符号。
  • 站内优化
    网站内部结构或页面优化。
  • alt属性
    alt属性就是帮助搜索引擎得知图片的内容。
  • SMM
    利用社会媒体媒体进行网络营销。
  • SERP
    英文全称“Search Engine Results Page”,搜索引擎结果页面。
  • 沙盒效应
    网站在Google的测试期还没有参与正式的排名。
  • PPA
    pay per action,中文译为“行动付费”。
  • 长尾关键词
    与目标关键词相关但不同,可带来搜索流量的组合型关键词。
  • 404页面
    客制化404页面提升用户体验度
  • 搜索引擎
    程序从互联网搜集并处理信息,为用户提供检索服务的系统。
  • nofollow
    告诉搜索引擎”不要追踪此网页上的链接”的HTML标签。
  • 垂直搜索引擎
    针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。
  • SEO
    根据搜索引擎规则提升网站在搜索引擎自然排名的技术。
站点搜索
权5分类目录网站
快审50元/站 高权重优质外链 给我发QQ消息
小小课堂SEO自学网,提供SEO培训、SEO诊断和SEO顾问服务。微信:huowuyan

© 2018 小小课堂SEO自学网 , SEO培训_网站优化培训_搜索引擎优化培训 / 冀ICP备15027596号-9

小小课堂SEO百科 - 用心创造有价值的SEO教程